Inventory number IRN Number of state registration
0222РК00310 AP08052421-OT-22 0120РК00083
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 1
Implemented
Publications
Native publications: 11
International publications: 2 Publications Web of science: 0 Publications Scopus: 2
Number of books Appendicies Sources
1 4 73
Total number of pages Patents Illustrations
142 0 31
Amount of funding Code of the program Table
17335630.17 AP08052421 19
Name of work
Исследование и разработка системы постредактирования казахского языка в машинном переводе
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Рахимова Диана Рамазановна , Турарбек Әсем Турарбекқызы , Тұрғанбаева Әлия Оралбайқызы , Кәрібаева Айдана Сейілғазықызы , Карюкин Владислав Игоревич , Сулейменова Алима Еркиновна , Кульжанова Акбота Акылбековна ,
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Abbreviated name of the service recipient НАО "КазНУ им. аль-Фараби"
Abstract

Системы постредактирование машинного перевода казахского языка

Қазақ тілінің машиналық аудармадағы постредакциялау жүйелері

Целью данных исследований является разработка эффективных алгоритмов и моделей системы постредактирования с высоким качеством машинного перевода, адаптированной под особенности казахского языка.

Бұл зерттеулердің мақсаты - қазақ тілінің ерекшеліктеріне бейімделген, жоғары сапалы машиналық аудармадағы постредакциялау жүйенің тиімді алгоритмдері мен модельдерін әзірлеу.

Модели, методы и программные средства по обработке естественного языка, формальные грамматики, семантический анализ естественного языка.

Формальды грамматика, табиғи тілді өңдеуге және семантикалық талдауға арналған модельдер, әдістер және бағдарламалық құралдар

По задачам ресурсов и обработки данных были выполнены следующие работы и получены результаты: - разработан метода выравнивания параллельного корпуса с использованием словаря синонимов; - разработаны специализированные словари для казахского языка. Для инструментов автоматизированного постредактирования казахского языка были разработаны модули на основе подхода машинного обучения и реализованы следующие работы: - разработаны модули Full post-editing для англо-казахского и русско-казахского перевода на основе модели Seq2Seq (RNN, BRNN) и Transformer. - разработан алгоритм определения типа сложных предложений для постредактирования англо-казахского и русско-казахского машинного перевода; - разработан подход постредактирования сложных предложений англо-казахского и русско-казахского машинного перевода на основе формальных правил структур языка. Представлены практические результаты по разработке архитектуры и прототипа системы пост редактирования казахского языка. Проведенные за отчетный период исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками BLEU, TER и WER.

Ресурстар мен деректерді өңдеу тапсырмалары бойынша келесі жұмыстар орындалды және нәтижелер алынды: - синонимдер сөздігі арқылы параллель корпусты теңестіру әдісі әзірленді; - қазақ тіліне арналған арнайы сөздіктер әзірленді. Қазақ тілін автоматтандырылған постредекциялау құралдары үшін машиналық оқыту тәсілі негізінде модульдер әзірленіп, келесі жұмыстар орындалды: - Seq2Seq (RNN, BRNN) және Transformer үлгілері негізінде ағылшын-қазақ және орыс-қазақ аудармалар үшін Full post-editing модульдер әзірленді. - ағылшын-қазақ және орыс-қазақ машиналық аударманы постредакциялауға арналған күрделі сөйлемдердің түрін анықтау алгоритмі әзірленді; - тілдік құрылымдардың формальды ережелеріне негізделген ағылшын-қазақ және орыс-қазақ машиналық аударманың күрделі сөйлемдерін постредакциялау әдістеме әзірленді. Қазақ тілін постредакциялау жүйесінің архитектурасы мен прототипін әзірлеу бойынша тәжірибелік нәтижелер берілген. Есепті кезеңде жүргізілген зерттеулер амалдарды бағдарламалық қамтамасыз етуді әзірлеумен және алгоритмдерді тестілеумен қатар жүрді. Алынған нәтижелер BLEU, TER және WER арнайы метрикасымен тексеріліп, бағаланды.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс дисциплин образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби.

Осы жоба аясында жүргізілген ғылыми-зерттеу жұмыстарының нәтижелері Әл Фараби ҚазҰУ-нің 7М06101 – «Есептеуіш лингвистика» магистратура білім беру бағдарламасының пәндері бойынша сынақтан өтіп, оқу үдерісіне енгізілді.

Разработана технология (модели, алгоритмы и электронные ресурсы) для системы постредактирования с высоким качеством машинного перевода, адаптированные под особенности казахского языка. Применимость разработанной технологией будет показана прототипом информационной системы постредактирования для англо-казахского и русско-казахского машинного перевода. Разработанные алгоритмы и подходы были программно протестированы и эффективность результатов были оценены специальными метриками BLEU, TER и WER.

Қазақ тілінің ерекшеліктеріне бейімделген жоғары сапалы машиналық аудармасы бар постредакциялау жүйесі үшін технология (модельдер, алгоритмдер және электронды ресурстар) әзірленді. Жасалған технологияның қолдану мүмкіндігін ағылшын-қазақ және орыс-қазақ тілдеріне машиналық аудармаға арналған постредакциялау ақпараттық жүйенің прототипі көрсетіледі. Әзірленген алгоритмдер мен тәсілдер бағдарламалық сынақтан өтті және нәтижелердің тиімділігі BLEU, TER және WER арнайы метрикалары арқылы бағаланды.

Область применения: полученные результаты научно-технической деятельности могут быть применены при машинном переводе и анализе текстовых материалов на казахском языке.

Қолдану аясы: ғылыми-техникалық қызметтердің нәтижелерін қазақ тіліндегі мәтіндік материалдарды машиналық аудармада және талдауда қолдануға болады.

UDC indices
004.421,004.912
International classifier codes
20.19.27; 16.31.21;
Readiness of the development for implementation
Key words in Russian
Постредактирование; машинный перевод; казахский; язык; технология;
Key words in Kazakh
Пост-редакциялау; машиналық аударма; қазақ; тіл; технология;
Head of the organization Х.С. Тасибеков к.х.н., асс. проф. / доцент
Head of work Рахимова Диана Рамазановна PhD / Ассоциированный профессор
Native executive in charge