Inventory number IRN Number of state registration
0223РК00388 AP09259556-OT-23 0121РК00594
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 2
Implemented
Publications
Native publications: 5
International publications: 4 Publications Web of science: 1 Publications Scopus: 2
Number of books Appendicies Sources
1 4 58
Total number of pages Patents Illustrations
163 0 36
Amount of funding Code of the program Table
22961245.5 AP09259556 11
Name of work
Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Рахимова Диана Рамазановна , Оралбекова Дина Орымбаевна , Тұрғанбаева Әлия Оралбайқызы , Кәрібаева Айдана Сейілғазықызы , Сулейменова Алима Еркиновна , Лоновенко Никита Алексеевич , Тұрдалыұлы Мұса , Шахмаев Рашид Ахатович ,
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Современные методы и технологии обработки естественного языка

Табиғи тілді өңдеудің заманауи әдістері мен технологиялары

Целью данных исследований является разработка методов, алгоритмов и инструментальных средств для создания эффективных систем обучения казахскому языку с использованием систем искусственного интеллекта

Бұл зерттеулердің мақсаты – жасанды интеллект жүйелерін пайдалана отырып, қазақ тілін оқытудың тиімді жүйесін құрудың әдістерін, алгоритмдерін және құралдарын әзірлеу.

Методы и программные средства по обработке естественного языка, формальные грамматики, модели машинного обучения

Табиғи тілді өңдеуге арналған әдістер мен бағдарламалық қамтамасыз ету, формальды грамматика, машиналық оқыту модельдері.

По задачам проекта были выполнены следующие работы и получены результаты: • Сбор текстовых данных с применением системы скрайпинга материалов, автоматизированное получение данных из интернета по интересующей тематике. • Разработан метода выравнивания параллельного корпуса. • Разработан морфологический анализатор для казахского языка на основе машинного обучения; • Разработан нейронный машинный перевода для англо-казахской и русско-казахской языковой пары, на основе RNN, BRNN и Transformer моделей; • Разработан подхода распознавания и синтеза речи государственного языка, на основе машинного обучения (BLSTM, ResNet); • Представлены практические результаты по разработке архитектуры и прототипа системы. По результатам выполнения проекта за 2021-2023 года опубликованы 26 публикации: в зарубежных изданиях, индексируемые в базах данных WoS и/или Scopus - 6 публикации; в отечественных изданиях, рекомендуемые КОКСОН МОН РК – 2 публикации. Опубликована одна монография в отечественном издании. Получены 3 авторских свидетельства на разработанные программы ЭВМ.

Жобаның мақсаттарына сәйкес келесі жұмыстар жүргізілді және нәтижелер алынды: • Материалды скрепинг жүйесін пайдалана отырып, мәтіндік деректерді жинау, қызықтыратын тақырыптар бойынша интернеттен деректерді автоматты түрде алу. • Параллельді корпусты теңестірудің әдісі әзірленді. • Машиналық оқыту негізінде қазақ тіліне арналған морфологиялық анализатор жасалды; • RNN, BRNN және Transformer үлгілеріне негізделген ағылшын-қазақ және орыс-қазақ тіл жұптары үшін нейронды машиналық аудармасы әзірленді; • Мемлекеттік тілде сөйлеуді тану және синтезі үшін машиналық оқытуға негізделген тәсіл әзірленді (BLSTM, ResNet); • Жүйенің архитектурасы мен прототипін әзірлеу бойынша тәжірибелік нәтижелер ұсынылған. 2021-2023 жылдарға арналған жобаның қорытындысы бойынша 26 жарияланым жарияланды: шетелдік басылымдарда – WoS және/немесе Scopus деректер базасында индекстелген жарияланымдар – 6 жарияланым; ҚР БҒМ СҚЕК ұсынған отандық басылымдарда – 2 мақала. Бір монографиясы отандық басылымда жарияланған. Компьютерлік бағдарламаларға жасалған 3 авторлық куәлігі алынды.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс дисциплин образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби, 7М06101-«Программная инженерия» и 7М07204-«Технология и инжиниринг пищевых производств» Международного Инженерно-Технологического Университета. Получены акты внедрения.

Осы жоба аясында жүргізілген ғылыми-зерттеу жұмыстарының нәтижелері сынақтан өткізіліп, Әл Фараби атындағы ҚазҰУ-дың 7М06101 – «Есептеуіш лингвистика», Халықаралық инженерлік-технологиялық университеттің 7M06101-«Бағдарламалық қамтамасыз ету инженериясы» және 7M07204-«Тамақ өнімдері өндірісінің технологиясы және инженериясы» білім беру магистратура бағдарламасының пәндері бойынша оқу үдерісіне енгізілді. Іске асыру және енгізу актілері алынды.

Разработанные алгоритмы и подходы были программно протестированы и эффективность результатов были оценены специальными метриками BLEU, TER и WER. Разработана технология (модели, алгоритмы и электронные ресурсы) для системы обработки с применением подхода нейронного и губкового обучения, адаптированные под особенности казахского языка. Применимость разработанной технологией представлена прототипом информационной системы по обработке и обучению казахского языка.

Әзірленген алгоритмдер мен тәсілдер бағдарламалық жасақтамалық сынақтан өтті және нәтижелердің тиімділігі BLEU, TER және WER арнайы метрикасының көмегімен бағаланды. Қазақ тілінің ерекшеліктеріне бейімделген нейрондық және терең оқыту тәсілін қолданатын өңдеу жүйесі үшін технология (модельдер, алгоритмдер және электрондық ресурстар) әзірленді. Жасалған технологияның қолдану мүмкіндігі қазақ тілін өңдеу және оқытудың ақпараттық жүйесінің прототипімен ұсынылған.

Полученные результаты научно-технической деятельности могут быть применены в научно исследовательских работах, а так же при анализе, обработке текстовых материалов и обучению казахскому языку в любых сферах деятельности.

Ғылыми-техникалық қызметтің алынған нәтижелерін ғылыми-зерттеу жұмыстарында, сондай-ақ мәтіндік материалдарды талдау, өңдеу және қызметтің кез келген саласында қазақ тілін оқытуда қолданыла алады.

UDC indices
004.421, 004.912
International classifier codes
20.00.00; 28.23.00;
Readiness of the development for implementation
Key words in Russian
компьютерная лингвистика; лингвистический корпус; машинное обучение; машинный перевод; речевые технологий;
Key words in Kazakh
компьютерлік лингвистика; лингвистикалық корпус; машиналық оқыту; машиналық аударма; сөйлеу технологиялары;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Рахимова Диана Рамазановна PhD / Ассоциированный профессор
Native executive in charge