Inventory number | IRN | Number of state registration |
---|---|---|
0222РК00310 | AP08052421-OT-22 | 0120РК00083 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 1 Implemented |
Publications | ||
Native publications: 11 | ||
International publications: 2 | Publications Web of science: 0 | Publications Scopus: 2 |
Number of books | Appendicies | Sources |
1 | 4 | 73 |
Total number of pages | Patents | Illustrations |
142 | 0 | 31 |
Amount of funding | Code of the program | Table |
17335630.17 | AP08052421 | 19 |
Name of work | ||
Исследование и разработка системы постредактирования казахского языка в машинном переводе | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Рахимова Диана Рамазановна , Турарбек Әсем Турарбекқызы , Тұрғанбаева Әлия Оралбайқызы , Кәрібаева Айдана Сейілғазықызы , Карюкин Владислав Игоревич , Сулейменова Алима Еркиновна , Кульжанова Акбота Акылбековна , | ||
0
0
1
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||
Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |
Abstract | ||
Системы постредактирование машинного перевода казахского языка Қазақ тілінің машиналық аудармадағы постредакциялау жүйелері Целью данных исследований является разработка эффективных алгоритмов и моделей системы постредактирования с высоким качеством машинного перевода, адаптированной под особенности казахского языка. Бұл зерттеулердің мақсаты - қазақ тілінің ерекшеліктеріне бейімделген, жоғары сапалы машиналық аудармадағы постредакциялау жүйенің тиімді алгоритмдері мен модельдерін әзірлеу. Модели, методы и программные средства по обработке естественного языка, формальные грамматики, семантический анализ естественного языка. Формальды грамматика, табиғи тілді өңдеуге және семантикалық талдауға арналған модельдер, әдістер және бағдарламалық құралдар По задачам ресурсов и обработки данных были выполнены следующие работы и получены результаты: - разработан метода выравнивания параллельного корпуса с использованием словаря синонимов; - разработаны специализированные словари для казахского языка. Для инструментов автоматизированного постредактирования казахского языка были разработаны модули на основе подхода машинного обучения и реализованы следующие работы: - разработаны модули Full post-editing для англо-казахского и русско-казахского перевода на основе модели Seq2Seq (RNN, BRNN) и Transformer. - разработан алгоритм определения типа сложных предложений для постредактирования англо-казахского и русско-казахского машинного перевода; - разработан подход постредактирования сложных предложений англо-казахского и русско-казахского машинного перевода на основе формальных правил структур языка. Представлены практические результаты по разработке архитектуры и прототипа системы пост редактирования казахского языка. Проведенные за отчетный период исследования сопровождались программной разработкой подходов и тестированием алгоритмов. Полученные результаты были протестированы и оценены специальными метриками BLEU, TER и WER. Ресурстар мен деректерді өңдеу тапсырмалары бойынша келесі жұмыстар орындалды және нәтижелер алынды: - синонимдер сөздігі арқылы параллель корпусты теңестіру әдісі әзірленді; - қазақ тіліне арналған арнайы сөздіктер әзірленді. Қазақ тілін автоматтандырылған постредекциялау құралдары үшін машиналық оқыту тәсілі негізінде модульдер әзірленіп, келесі жұмыстар орындалды: - Seq2Seq (RNN, BRNN) және Transformer үлгілері негізінде ағылшын-қазақ және орыс-қазақ аудармалар үшін Full post-editing модульдер әзірленді. - ағылшын-қазақ және орыс-қазақ машиналық аударманы постредакциялауға арналған күрделі сөйлемдердің түрін анықтау алгоритмі әзірленді; - тілдік құрылымдардың формальды ережелеріне негізделген ағылшын-қазақ және орыс-қазақ машиналық аударманың күрделі сөйлемдерін постредакциялау әдістеме әзірленді. Қазақ тілін постредакциялау жүйесінің архитектурасы мен прототипін әзірлеу бойынша тәжірибелік нәтижелер берілген. Есепті кезеңде жүргізілген зерттеулер амалдарды бағдарламалық қамтамасыз етуді әзірлеумен және алгоритмдерді тестілеумен қатар жүрді. Алынған нәтижелер BLEU, TER және WER арнайы метрикасымен тексеріліп, бағаланды. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі. Результаты научно-исследовательской работы, выполненные в рамках данного проекта, были апробированы и внедрены в учебный процесс дисциплин образовательной магистерской программы 7М06101-«Вычислительная лингвистика» КазНУ им. Аль Фараби. Осы жоба аясында жүргізілген ғылыми-зерттеу жұмыстарының нәтижелері Әл Фараби ҚазҰУ-нің 7М06101 – «Есептеуіш лингвистика» магистратура білім беру бағдарламасының пәндері бойынша сынақтан өтіп, оқу үдерісіне енгізілді. Разработана технология (модели, алгоритмы и электронные ресурсы) для системы постредактирования с высоким качеством машинного перевода, адаптированные под особенности казахского языка. Применимость разработанной технологией будет показана прототипом информационной системы постредактирования для англо-казахского и русско-казахского машинного перевода. Разработанные алгоритмы и подходы были программно протестированы и эффективность результатов были оценены специальными метриками BLEU, TER и WER. Қазақ тілінің ерекшеліктеріне бейімделген жоғары сапалы машиналық аудармасы бар постредакциялау жүйесі үшін технология (модельдер, алгоритмдер және электронды ресурстар) әзірленді. Жасалған технологияның қолдану мүмкіндігін ағылшын-қазақ және орыс-қазақ тілдеріне машиналық аудармаға арналған постредакциялау ақпараттық жүйенің прототипі көрсетіледі. Әзірленген алгоритмдер мен тәсілдер бағдарламалық сынақтан өтті және нәтижелердің тиімділігі BLEU, TER және WER арнайы метрикалары арқылы бағаланды. Область применения: полученные результаты научно-технической деятельности могут быть применены при машинном переводе и анализе текстовых материалов на казахском языке. Қолдану аясы: ғылыми-техникалық қызметтердің нәтижелерін қазақ тіліндегі мәтіндік материалдарды машиналық аудармада және талдауда қолдануға болады. |
||
UDC indices | ||
004.421,004.912 | ||
International classifier codes | ||
20.19.27; 16.31.21; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
Постредактирование; машинный перевод; казахский; язык; технология; | ||
Key words in Kazakh | ||
Пост-редакциялау; машиналық аударма; қазақ; тіл; технология; | ||
Head of the organization | Х.С. Тасибеков | к.х.н., асс. проф. / доцент |
Head of work | Рахимова Диана Рамазановна | PhD / Ассоциированный профессор |
Native executive in charge |