Inventory number IRN Number of state registration
0220РК00327 AP05134272-OT-20 0118РК01262
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 3 Publications Web of science: 0 Publications Scopus: 2
Number of books Appendicies Sources
1 3 94
Total number of pages Patents Illustrations
99 0 4
Amount of funding Code of the program Table
15000000 AP05134272 13
Name of work
Разработка свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Есенбаев Жандос Аманбаевич , Макажанов Айбек , Кожирбаев Жанибек Мамбеткаримович ,
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient National Laboratory Astana
Abstract

Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа.

Бұл жобаның зерттеу объектілері қазақ тіліндегі мәтіндік құжаттар, сондай-ақ оларды өңдеу мен талдаудың заманауи әдістері мен алгоритмдері болып табылады.

Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке.

Жобаның мақсаты - қазақ тіліндегі мәтіндерді автоматты түрде өңдеу үшін коды ашық бағдарламалар жасау.

В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных.

Бұл жұмыста машиналық оқыту, жасанды нейрондық желілер және мәтіндік деректерді статистикалық өңдеу әдістері қолданылады.

В данной работе исследования по обработке текстов проводились по четырем направлениям – синтаксический анализатор, коррекция правописания, извлечения именных сущностей и вторичная номализация текстов на казахском языке. Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74.

Бұл жұмыста мәтінді өңдеу бойынша төрт бағыт бойынша зерттеулер жүргізілді - синтаксистік талдау, орфографиялық түзету, атаулы тұлғаларды шығару және қазақ тіліндегі мәтіндердің нормалды түріне келтіру. Жасанды нейрондық желілерге негізделген талдаушы жасалды, ол UAS метрикасы бойынша 88,62% талдау сапасын көрсетті. Емлені түзету құралы жасалды. Құралда екі әдіс қолданылған: фонетикалық ережелерді қолданатын негізгі әдіс және шешім ағашы алгоритмдерінің жинағын қолданатын дамытылған әдіс. Бұл әдістер үшін келесідей дәлдік анықталды: 75% – 99% (негізгі әдіс) және 87% – 100% (дамытылған әдіс). CRF және LSTM жасанды нейрондық желілері негізінде номиналды объектілерді шығаруға арналған құрал жасалды. F1 затбелгісіндегі модельдің сапасы 0,88% -ды құрады, бұл қазіргі кезде осы тапсырма бойынша ең жақсы көрсеткіштермен салыстырылады. Интернет қолданушыларының нақты пікірлерін қазақ тіліндегі грамматикалық тұрғыдан дұрыс мәтінге айналдыратын жасанды нейрондық желілерге негізделген мәтінді қайталама қалыпқа келтіру құралы жасалды. BLEU метрикасы бойынша аударма сапасы 29,74 құрады.

Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74.

Жасанды нейрондық желілерге негізделген талдаушы жасалды, ол UAS метрикасы бойынша 88,62% талдау сапасын көрсетті. Емлені түзету құралы жасалды. Құралда екі әдіс қолданылған: фонетикалық ережелерді қолданатын негізгі әдіс және шешім ағашы алгоритмдерінің жинағын қолданатын дамытылған әдіс. Бұл әдістер үшін келесідей дәлдік анықталды: 75% – 99% (негізгі әдіс) және 87% – 100% (дамытылған әдіс). CRF және LSTM жасанды нейрондық желілері негізінде номиналды объектілерді шығаруға арналған құрал жасалды. F1 затбелгісіндегі модельдің сапасы 0,88% -ды құрады, бұл қазіргі кезде осы тапсырма бойынша ең жақсы көрсеткіштермен салыстырылады. Интернет қолданушыларының нақты пікірлерін қазақ тіліндегі грамматикалық тұрғыдан дұрыс мәтінге айналдыратын жасанды нейрондық желілерге негізделген мәтінді қайталама қалыпқа келтіру құралы жасалды. BLEU метрикасы бойынша аударма сапасы 29,74 құрады.

Все разработанные в рамках данного проекта программные модули доступны в интернете и предоставляются в виде кодов и демонстрационных веб-сервисов.

Осы жоба бойынша әзірленген барлық бағдарламалық модульдер Интернетте орналастырылады және демонстрациялық веб-қызметтер түрінде беріледі.

Разработанные модули могут быть применены в любой области, где востребована автоматическая обработка текстов на казахском языке, например, для поиска и извлечения информации из текста, классификации документов и неструктурированных веб-данных.

Жасалған модульдер қазақ тіліндегі мәтіндерді автоматты түрде өңдеу қажеті бар кез келген салада, мысалы, мәтіннен ақпаратты іздеуде және ажыратуда, сонымен құжаттарды өңдеуге және құрылымдық емес веб-деректерге қолдануға болады.

UDC indices
004.428; 004.912
International classifier codes
50.41.25; 16.31.31;
Readiness of the development for implementation
Key words in Russian
Казахский язык; автоматическая обработка текстов; вычислительная лингвистика; обработка естественного языка; корпусная лингвистика; автоматический морфологический анализ; автоматический синтаксический анализ;
Key words in Kazakh
Қазақ тілі; мәтінді автоматты өңдеу; есептеуіш лингвистика; табиғи тілді өңдеу; корпустық лингвистика; автоматты морфологиялық анализ; автоматты синтаксистік анализ;
Head of the organization Дос Сарбасов Ph.D. / проф.
Head of work Есенбаев Жандос Аманбаевич PhD in Computer Science / нет
Native executive in charge