Inventory number | IRN | Number of state registration |
---|---|---|
0220РК00327 | AP05134272-OT-20 | 0118РК01262 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 1 | ||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 2 |
Number of books | Appendicies | Sources |
1 | 3 | 94 |
Total number of pages | Patents | Illustrations |
99 | 0 | 4 |
Amount of funding | Code of the program | Table |
15000000 | AP05134272 | 13 |
Name of work | ||
Разработка свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Есенбаев Жандос Аманбаевич , Макажанов Айбек , Кожирбаев Жанибек Мамбеткаримович , | ||
0
0
1
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | Нет | |
Full name of the service recipient | ||
Частное учреждение "National Laboratory Astana" | ||
Abbreviated name of the service recipient | National Laboratory Astana | |
Abstract | ||
Объектами исследования данного проекта являются текстовые документы на казахском языке, а также современные методы и алгоритмы их обработки и анализа. Бұл жобаның зерттеу объектілері қазақ тіліндегі мәтіндік құжаттар, сондай-ақ оларды өңдеу мен талдаудың заманауи әдістері мен алгоритмдері болып табылады. Целью проекта является создание свободно распространяемых программных инструментов с открытым исходным кодом для автоматической обработки текстов на казахском языке. Жобаның мақсаты - қазақ тіліндегі мәтіндерді автоматты түрде өңдеу үшін коды ашық бағдарламалар жасау. В данной работе используются методы машинного обучения, искусственных нейронных сетей и статистической обработки текстовых данных. Бұл жұмыста машиналық оқыту, жасанды нейрондық желілер және мәтіндік деректерді статистикалық өңдеу әдістері қолданылады. В данной работе исследования по обработке текстов проводились по четырем направлениям – синтаксический анализатор, коррекция правописания, извлечения именных сущностей и вторичная номализация текстов на казахском языке. Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74. Бұл жұмыста мәтінді өңдеу бойынша төрт бағыт бойынша зерттеулер жүргізілді - синтаксистік талдау, орфографиялық түзету, атаулы тұлғаларды шығару және қазақ тіліндегі мәтіндердің нормалды түріне келтіру. Жасанды нейрондық желілерге негізделген талдаушы жасалды, ол UAS метрикасы бойынша 88,62% талдау сапасын көрсетті. Емлені түзету құралы жасалды. Құралда екі әдіс қолданылған: фонетикалық ережелерді қолданатын негізгі әдіс және шешім ағашы алгоритмдерінің жинағын қолданатын дамытылған әдіс. Бұл әдістер үшін келесідей дәлдік анықталды: 75% – 99% (негізгі әдіс) және 87% – 100% (дамытылған әдіс). CRF және LSTM жасанды нейрондық желілері негізінде номиналды объектілерді шығаруға арналған құрал жасалды. F1 затбелгісіндегі модельдің сапасы 0,88% -ды құрады, бұл қазіргі кезде осы тапсырма бойынша ең жақсы көрсеткіштермен салыстырылады. Интернет қолданушыларының нақты пікірлерін қазақ тіліндегі грамматикалық тұрғыдан дұрыс мәтінге айналдыратын жасанды нейрондық желілерге негізделген мәтінді қайталама қалыпқа келтіру құралы жасалды. BLEU метрикасы бойынша аударма сапасы 29,74 құрады. Был разработан синтаксический анализатор на базе искусственных нейронных сетей, который показал качество парсинга на уровне 88.62% по метрике UAS. Был разработан инструмент коррекции грамматики. Были реализованы два подхода: базовый, основанный на фонетических правилах, и усовершенствованный, основанный на обучении ансамбле деревьев решений. Была достигнута точность в диапазоне 75% – 99% (базовый) и 87% – 100% (усовершенствованный). Был разработан инструмент извлечения именных сущностей на базе искусственных нейронных сетей LSTM и CRF. Качество модели в по метике F1 составила 0.88%, что на сегодняшний день сравнимо с лучшими показателями для данной задачи. Был разработан инструмент вторичной нормализации текстов на базе искусственных нейронных сетей, который переводит реальные комментарии пользователей интернет в грамматически правильный текст на казахском языке. Качество перевода по метрике BLEU составило 29.74. Жасанды нейрондық желілерге негізделген талдаушы жасалды, ол UAS метрикасы бойынша 88,62% талдау сапасын көрсетті. Емлені түзету құралы жасалды. Құралда екі әдіс қолданылған: фонетикалық ережелерді қолданатын негізгі әдіс және шешім ағашы алгоритмдерінің жинағын қолданатын дамытылған әдіс. Бұл әдістер үшін келесідей дәлдік анықталды: 75% – 99% (негізгі әдіс) және 87% – 100% (дамытылған әдіс). CRF және LSTM жасанды нейрондық желілері негізінде номиналды объектілерді шығаруға арналған құрал жасалды. F1 затбелгісіндегі модельдің сапасы 0,88% -ды құрады, бұл қазіргі кезде осы тапсырма бойынша ең жақсы көрсеткіштермен салыстырылады. Интернет қолданушыларының нақты пікірлерін қазақ тіліндегі грамматикалық тұрғыдан дұрыс мәтінге айналдыратын жасанды нейрондық желілерге негізделген мәтінді қайталама қалыпқа келтіру құралы жасалды. BLEU метрикасы бойынша аударма сапасы 29,74 құрады. Все разработанные в рамках данного проекта программные модули доступны в интернете и предоставляются в виде кодов и демонстрационных веб-сервисов. Осы жоба бойынша әзірленген барлық бағдарламалық модульдер Интернетте орналастырылады және демонстрациялық веб-қызметтер түрінде беріледі.
Разработанные модули могут быть применены в любой области, где востребована автоматическая обработка текстов на казахском языке, например, для поиска и извлечения информации из текста, классификации документов и неструктурированных веб-данных. Жасалған модульдер қазақ тіліндегі мәтіндерді автоматты түрде өңдеу қажеті бар кез келген салада, мысалы, мәтіннен ақпаратты іздеуде және ажыратуда, сонымен құжаттарды өңдеуге және құрылымдық емес веб-деректерге қолдануға болады. |
||
UDC indices | ||
004.428; 004.912 | ||
International classifier codes | ||
50.41.25; 16.31.31; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
Казахский язык; автоматическая обработка текстов; вычислительная лингвистика; обработка естественного языка; корпусная лингвистика; автоматический морфологический анализ; автоматический синтаксический анализ; | ||
Key words in Kazakh | ||
Қазақ тілі; мәтінді автоматты өңдеу; есептеуіш лингвистика; табиғи тілді өңдеу; корпустық лингвистика; автоматты морфологиялық анализ; автоматты синтаксистік анализ; | ||
Head of the organization | Дос Сарбасов | Ph.D. / проф. |
Head of work | Есенбаев Жандос Аманбаевич | PhD in Computer Science / нет |
Native executive in charge |