Inventory number IRN Number of state registration
0321РК00803 AP08052421-KC-21 0120РК00083
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 9
International publications: 6 Publications Web of science: 1 Publications Scopus: 5
Patents Amount of funding Code of the program
0 17335630.16 AP08052421
Name of work
Исследование и разработка системы постредактирования казахского языка в машинном переводе
Type of work Source of funding Report authors
Applied Рахимова Диана Рамазановна
0
0
3
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Abbreviated name of the service recipient НАО "КазНУ им. аль-Фараби"
Abstract

Системы постредактирование машинного перевода казахского языка

Қазақ тілінің машиналық аудармадағы постредакциялау жүйелері

Целью данных исследований является разработка эффективных алгоритмов и моделей системы постредактирования с высоким качеством машинного перевода, адаптированной под особенности казахского языка.

Бұл зерттеулердің мақсаты - қазақ тілінің ерекшеліктеріне бейімделген, жоғары сапалы машиналық аудармадағы постредакциялау жүйенің тиімді алгоритмдері мен модельдерін әзірлеу

Модели, методы и программные средства по обработке естественного языка, формальные грамматики, семантический анализ естественного языка,машинное обучение.

Формальды грамматика, табиғи тілді өңдеуге және семантикалық талдауға , машиналық оқытуға арналған модельдер, әдістер және бағдарламалық құралдар.

В результате выполнения работ получены следующие результаты:- Исследованы современные подходы для автоматического постредактирования машинного перевода; - Разработаны терминологические англо-казахский и русско-казахский словари ;-Разработана онтологическая модель сложных предложении для англо-казахской и русско-казахской пары языков; -Разработана архитектура модуля Full post-editing на основе модели «Sequence to sequence with Attention Mechanism»; - Обучена модель постредактирования и проведена оценка полученных результатов;-Разработан подход по созданию синтетического параллельного русско-казахского и англо-казахского корпуса для обучения системы;-Разработан алгоритм синтеза простых предложении казахского языка; -Разработан алгоритм выравнивания параллельного корпуса казахско-русской и казахско-английской языковой пары; -Собран и обработан трехъязычный синтетический параллельный («Three Bank») русско-казахский и англо-казахский корпус объёмом более 1 млн. предложении. Разработанные алгоритмы были проверены практическими экспериментами и оценками качества, и новизна работ апробирована публикациями и докладами на международных конференциях. За отчетный период опубликована 2 статьи в изданиях , рекомендуемый ККСОН, и 6 публикации в международных и республиканских научных конференциях. Опубликована 1 глава в книге зарубежного издательства и 5 публикации в рецензируемых научных изданиях, индексируемые международными базами данных Web of Science и(или) Scopus.

Жұмыстарды орындау нәтижесінде мынадай нәтижелер алынды:  Машиналық аударманы автоматты түрде постредакциялау арналған заманауи тәсілдер зерттелді;  Ағылшын-қазақ және орыс-қазақ терминологиялық сөздіктері әзірленді;  Ағылшын-қазақ және орыс-қазақ тілдері жұбы үшін күрделі сөйлемдердің онтологиялық моделі әзірленді;  «Sequence to sequence with Attention Mechanism» моделі негізінде Full post-editing модулінің архитектурасы әзірленді;  Постредакциялау моделі оқытылды және алынған нәтижелерге бағалау жүргізілді;  Жүйені оқыту үшін синтетикалық параллель орыс-қазақ және ағылшын-қазақ корпусын құру тәсілі әзірленді;  Қазақ тілінің қарапайым сөйлемдерін синтездеу алгоритмі әзірленді;  Қазақ-орыс және қазақ-ағылшын тіл жұбының параллель корпусын туралау алгоритмі әзірленді;  Үш тілді синтетикалық параллельді («ThreeBank») көлемі 1 млн. астам сөйлемдері бар орыс-қазақ және ағылшын-қазақ корпусы жиналып өңделді. Әзірленген алгоритмдер тәжірибелік эксперименттермен және сапаны бағалаумен тексерілді және жұмыстардың жаңалығы халықаралық конференцияларда жарияланымдар мен баяндамалармен сынақтан өткізілді. Есепті кезеңде БҒСҚК ұсынған басылымдарда 2 мақала, халықаралық және республикалық ғылыми конференцияларда 6 жарияланым жарияланды. Шетелдік баспаның кітабында 1 тарау жарияланды және Web of Science және (немесе) Scopus халықаралық дерекқорларымен индекстелетін рецензияланатын ғылыми басылымдарда 5 жарияланым жарияланды.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе текстовых материалов на казахском языке.

Қолдану саласы: ғылыми-техникалық қызметтің нәтижелерін әр түрлі салаларда қазақ тіліндегі мәтіндік материалдарды талдауда қолдануға болады.

UDC indices
004.421,004.912
International classifier codes
20.19.27; 16.31.21;
Key words in Russian
Постредактирование; машинный перевод; казахский; язык; технология;
Key words in Kazakh
Пост-редакциялау; машиналық аударма; қазақ; тіл; технология;
Head of the organization Рамазанов Тлеккабул Сабитович доктор физ.-мат.наук / профессор
Head of work Рахимова Диана Рамазановна PhD / Ассоциированный профессор