Inventory number IRN Number of state registration
0220РК00762 AP05133700-OT-20 0118РК01377
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 1 Publications Scopus: 0
Number of books Appendicies Sources
0 3 58
Total number of pages Patents Illustrations
55 0 15
Amount of funding Code of the program Table
10000000 AP05133700 5
Name of work
Глубинное обучение для последовательных моделей в обработке естественных языков с приложениями к казахскому языку
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Асылбеков Женисбек Аманбаевич , Мырзахметов Бағдат Омаралиұлы , Садуахас Дамиля , Танекеев Габидин , Утеулиева Малика , Bisazza Arianna , Ильнар Салимзянов , Қабиева Бота , Арзиев Сухрат ,
1
2
0
2
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Nazarbayev University
Abbreviated name of the service recipient NU
Abstract

ГЛУБИННЫЕ НЕЙРОННЫЕ СЕТИ, ПОСЛЕДОВАТЕЛЬНЫЕ МОДЕЛИ, ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА, КАЗАХСКИЙ ЯЗЫК

ТЕРЕҢ НЕЙРОНДЫҚ ТОРЛАР, КЕЗЕКТІ МОДЕЛЬДЕР, ТАБИҒИ ТІЛДІ ӨҢДЕУ, ҚАЗАҚ ТІЛІ

Разработать последовательные нейронные архитектуры для нескольких задач обработки естественного языка (NLP), которые достигают самых передовых результатов для различных языков, включая казахский, но при этом меньше по размеру, стабильны и структурно проще, чем существующие модели.

Табиғи тілді өңдеудеудің бірнеше тапсырмалары үшін қазақ және басқа тілдерге қатысты алдыңғы қатарлы нәтижелерге қол жеткізе алатын, алайда белгілі модель үлгілеріне қарағанда өлшемі кіші, тұрақты және құрылымы қарапайым кезекті нейрондық архитектураларды дамыту.

данный проект является экспериментальным исследованием — сначала формулируются лингвистически и вычислительно мотивированные гипотезы, и далее они проверяются в течение экспериментальной фазы, включающей этапы проектирования, разработки, обучения и тестирования моделей.

Бұл эксперименталдық зерттеу — лингвистикалық және есептік гипотезалар тұжырымдалады және кейін модельдерін жобалау, әзірлеу, оқыту және сынауды қамтитын эксперименттік фазада бекітіледі.

разработаны методы повторного использования весов в подсловесных нейронных языковых моделях; улучшена методология тестирования во избежание ухудшения качества в будущих версиях морфологического анализатора для казахского языка apertium-kaz; разработаны не хаотичные альтернативы для переводых рекуррентных нейронных сетей (RNN); очищен и расширен лексикон морфологического анализатора apertium-kaz, повышено покрытие apertium-kaz; улучшены структурно ограниченные рекуррентные нейронные сети (SCRN); получена модификация SCRN, которая достигает показателей LSTM; повышена точность инструмента снятия морфологической неоднозначности kaz-tagger; протестированы новые ячейки RNN в рамках нейронного машинного перевода (NMT); получены нехаотичные и простые NMT, которые демонстрируют хорошее качество перевода

нейрондық тіл модельдерінде салмақтарды қайта қолдану әдістері жасалды; apertium-kaz морфологиялық анализаторының келешектегі нұсқаларында сапаның төмендеуін болдырмайтын тестілеу әдістемесі жетілдірілді; аударылған қайталанатын нейрондық желілерге арналған хаостық емес баламалар (RNN); apertium-kaz морфологиялық анализаторының лексикасы тазартылды және кеңейтілді, apertium-kaz қамтуы ұлғайтылды; құрылымдық жағынан шектелген қайталанатын жүйке желілері (SCRN); LSTM өнімділігіне қол жеткізетін SCRN модификациясын алды; морфологиялық түсініксіздікті жоюға арналған kaz-tagger құралының дәлдігі жоғарылаған; жүйке трансляциясының бөлігі ретінде жаңа RNN жасушаларын тексерді (NMT); аударманың жақсы сапасын көрсететін кездейсоқ емес және қарапайым NMT алынған

не применимо

қолданылмайды

Результаты исследования напрямую применимы в большинстве других задач NLP (распознавание речи, машинный перевод, частеречная разметка, извлечение информации, и т.д.), которые возникают как в академической среде, так и в индустрии.

Зерттеу нәтижелері ғылымда да, өндірісте де қолданылатын NLP-нің көптеген тапсырмаларында (сөзді тану, машиналы аударма, сөздіктерді белгілеу бөлігі, ақпаратты іздеу және т.б.) қолданылуы мүмкін.

UDC indices
004.852
International classifier codes
28.23.37; 16.31.21;
Readiness of the development for implementation
Key words in Russian
глубинные нейронные сети; последовательные модели; представления слов; обработка естественного языка; казахский язык;
Key words in Kazakh
терең нейрондық торлар; кезекті модельдер; сөз ұсынулар; табиғи тілді өңдеу; қазақ тілі;
Head of the organization Илесанми Адесида Phd /
Head of work Асылбеков Женисбек Аманбаевич DSc / Нет
Native executive in charge