Inventory number IRN Number of state registration
0222РК00514 BR11765535-OT-22 0122РК00013
Document type Terms of distribution Availability of implementation
Промежуточный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 5
International publications: 6 Publications Web of science: 0 Publications Scopus: 2
Number of books Appendicies Sources
1 6 99
Total number of pages Patents Illustrations
153 0 41
Amount of funding Code of the program Table
116333686.92 О.1052 9
Code of the program's task under which the job is done
01
Name of work
Разработка научно-лингвистических основ и IT-ресурсов по расширению функций и повышению культуры казахского языка
Report title
Type of work Source of funding The product offerred for implementation
Applied Базы, банки данных
Report authors
Бекманова Гульмира Тылеубердиевна , Шәріпбай Алтынбек Әмірұлы , Сыздыкова Гульбаршин , Есенбаев Жандос Аманбаевич , Омарбекова Асель Сайлаубековна , Разахова Бибигул Шамшановна , Ергеш Бану Жантуғанқызы , Жеткенбай Лена , Кожирбаев Жанибек Мамбеткаримович , Жумагулова Айша Алгабековна , Кадеркеева Зульфия Кенесовна , Зулхажав Алтанбек , Елибаева Газиза Казбековна , Амангелді Нұрзада , Сайранбекова Аяулым Данияровна , Аскарова Сандугаш , Кабдылова Динара Долелкановна , Тилеухан Айбол , Орынбай Лаура Орынбайқызы ,
3
2
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Евразийский Национальный университет имени Л.Н. Гумилева"
Abbreviated name of the service recipient НАО "ЕНУ им.Л.Н.Гумилева"
Abstract

Объектом исследования является казахский язык (текст, речь).

Зерттеу нысаны қазақ тілі (мәтін, сөйлеу) болып табылады.

Цель работы - разработка научно-лингвистических основ и IT-ресурсов по расширению функций и повышению культуры казахского языка, как языка межэтнического общения в цифровом формате.

Жұмыстың мақсаты- цифрлық форматта этносаралық қарым-қатынас тілі ретінде қазақ тілінің функциялары мен мәдениетін арттыру үшін ғылыми-лингвистикалық негіздер мен IT-ресурстарды әзірлеу.

Основной идеей данной программы является решение поставленных задач с помощью методов лингвистики и искусственного интеллекта через формализованное и семантическое описание казахского языка, построение предикативных баз знаний и программной реализации полученных моделей и методов.

Бұл программаның негізгі идеясы қазақ тілінің формальды және семантикалық сипаттамасы арқылы лингвистика мен жасанды интеллект әдістерін қолдана отырып қойылған міндеттерді шешу, алынған модельдер мен әдістердің предикативті білім базаларын құру және программалық іске асыру болып табылады.

В результате исследования были обобщены, систематизированы и описаны на языке предикатов грамматические правила казахского языка, разработана модель системы синтеза казахской речи, проведен фонологический анализ и подготовлен транскриптор системы синтеза речи на основе учения А. Байтурсынова. Впервые были созданы синонимическая база данных слов политического дискурса, а также онтологическая модель предметной области выборов и референдума, семантическая база знаний собственных имен казахского языка с более чем 100 семантическими признаками, онтологическая модель по наследию Ахмета Байтурсынова для интеллектуальной системы «Ахметтану», акустический корпус на основе произведения А. Байтурсынова «Тіл – құрал».

Зерттеу нәтижесінде, предикаттар тілінде қазақ тілінің грамматикалық ережелері жалпыланды, жүйеленді және сипатталды, қазақ тілінің синтезі жүйесінің моделі әзірленді, фонологиялық талдау жүргізілді және А.Байтұрсыновтың ілімі негізінде сөйлеу синтезі жүйесінің транскрипторы дайындалды. Алғаш рет саяси дискурс сөздерінің синонимдік деректер базасы, сондай-ақ сайлау мен референдумның пәндік саласының онтологиялық моделі, 100-ден астам семантикалық белгілері бар қазақ тілінің жалқы есімдерінің семантикалық білім базасы, «Ахметтану» зияткерлік жүйесі үшін Ахмет Байтұрсынов мұрасы бойынша онтологиялық модель, А.Байтұрсыновтың «Тіл-құрал» шығармасы негізінде акустикалық корпус құрылды.

500 страниц текстов политического дискурса, структура базы знаний и 1000 записей базы знаний для синонимайзера, структура базы знаний (более 100 семантических признака) и 700 записей базы знаний для приложения "Увлекательная ономастика", структура базы знаний и 1000 записей базы знаний по топономике, аудиокорпус для синтезатора речи 50 часов.

Синонимайзерге арналған 500 бет саяси дискурс мәтіндері, білім базасының құрылымы және 1000 білім базасының жазбалары, "Қызықты ономастика" қосымшасы үшін білім базасының құрылымы (100-ден астам семантикалық белгілер) және 700 білім базасының жазбалары, топономика бойынша білім базасының құрылымы және 1000 білім базасының жазбалары, сөйлеу синтезаторына арналған 50 сағаттық аудио корпус

На данном этапе внедрение не предусмотрено

Бұл кезеңде іске асыру жоспарланбаған

Поскольку конечным результатом проекта будет конкурентоспособный готовый научно-технический продукт, то высокий уровень техники в предметной области проекта будет подтвержден использованием технологий объектно-ориентированного программирования, интернет-технологий, онтологий и интерфейсов, а также использование инструментов моделирования Protégé для создания интеллектуальных систем. Разработка научно-лингвистических основ и ИТ-ресурсов для повышения культуры и расширения функций казахского языка как языка межнационального общения в цифровом формате и возможности комплексного системного исследования Новые научные результаты в части научно-лингвистические основы казахского языка для различных интеллектуальных информационных систем, обрабатывающих естественный язык, - позволяет усилить экономическую эффективность и оказывает прямое экономическое влияние на развитие отрасли ИКТ Казахстана и качество цифровых услуг казахского языка. Оценка технико-экономической эффективности внедрения не проводилась, так как внедрение полученных на данном этапе результатов не предусмотрено.

Жобаның ақырғы нәтижесі бәсекеге қабілетті дайын ғылыми-техникалық өнім болатындықтан, жобаның пәндік саласындағы техниканың жоғары деңгейі объектіге бағытталған программалау технологиясын, интернет технологияларды, онтологиялар мен интерфейстерді құру және интеллектуалды жүйелерді құру үшін Protégé модельдеу құралдарын пайдалану арқылы дәлелденеді. Цифрлық форматтағы этносаралық қарым-қатынас тілі ретінде қазақ тілінің мәдениетін арттыру мен функцияларын кеңейту бойынша ғылыми-лингвистикалық негіздер мен IТ-ресурстарды әзірлеу мен кешенді жүйелік зерттеу мүмкіндігі табиғи тілді өңдейтін әр түрлі интеллектуалды ақпараттық жүйелер үшін қазақ тілініңң ғылыми-лингвистикалық негіздері бөлігінде жаңа ғылыми нәтижелер техникалық-экономикалық тиімділігін күшейтуге мүмкіндік береді және Қазақстан АКТ саласының және қазақ тілінің цифрлық қызметтер көрсету сапасының дамуына тікелей экономикалық әсер етеді. Ендірудің техникалық-экономикалық тиімділігін бағалау жүргізілмеді, өйткені осы кезеңде алынған нәтижелерді ендіру қарастырылмаған.

Освещение полученных результатов (предоставление научного наследия А.Байтурсынулы широкой общественности является одной из самых необходимых работ) и систем изучения языков, интеллектуального обучения, систем оценки знаний, языковых приложений, разработка электронных грамматических справочников, многоязычные электронные тезаурусы, мультимедийные системы вопросов и ответов, в колл-центрах, голосовые помощники, умные дома и др. имеет реальное практическое значение с точки зрения применения. А синтез речи казахского языка позволяет расширить функции казахского языка, развивать информационные ресурсы в цифровом формате, получать новые научные результаты в научно-лингвистических основах казахского языка для интеллектуальных информационных систем с различными возможностями.

Алынған нәтижелерді ағарту (А.Байтұрсынұлының ғылыми мұрасына қалың көпшілікке қолжетімді ету - аса қажетті жұмыстардың бірі) және тіл үйрену жүйелерде, интеллектуалды оқыту, білімді бағалау жүйелерінде, тілге байланысты қосымшаларда, электронды грамматикалық анықтамалықтарды әзірлеуде, көптілді электрондық тезаурустарда, мультимедиялық сұрақ-жауап жүйелерінде, кол-орталықтарда, дауыстық көмекшілерде, смарт үйлерде, және т.б. қолданыс тұрғысынан нақты практикалық маңыздылыққа ие. Ал қазақ тілінің сөйлеу синтезі қазақ тілінің функцияларын кеңейтуде, ақпараттық ресурстарды цифрлық форматта әзірлеуде және мүмкіндігі әртүрлі зияткерлік ақпараттық жүйелер үшін қазақ тілінің ғылыми-лингвистикалық негіздерінде жаңа ғылыми нәтижелер алуға мүмкіндік береді

UDC indices
004.8, 81'33
International classifier codes
20.23.25; 16.31.21; 28.23.39;
Readiness of the development for implementation
Key words in Russian
база знаний; дискурс; база данных синонимов; онтология; морфологический анализ; синтаксический анализ; формализация; антропонимика; ономастика; ASR; RNN; DNN; HMM; LSTM; CNN;
Key words in Kazakh
білімдер базасы; дискурс; синонимдік деректер базасы; онтология; морфологиялық талдау; синтаксистік талдау; формалдау; антропонимика; ономастика; ASR; RNN; DNN; HMM; LSTM; CNN;
Head of the organization Сыдыков Ерлан Батташевич доктор исторических наук / профессор
Head of work Бекманова Гульмира Тылеубердиевна PhD in Computer Sciences. computer engineering and control / ассоциированный профессор
Native executive in charge