Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0321РК00803 | AP08052421-KC-21 | 0120РК00083 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 9 | ||||
International publications: 6 | Publications Web of science: 1 | Publications Scopus: 5 | ||
Patents | Amount of funding | Code of the program | ||
0 | 17335630.16 | AP08052421 | ||
Name of work | ||||
Исследование и разработка системы постредактирования казахского языка в машинном переводе | ||||
Type of work | Source of funding | Report authors | ||
Applied | Рахимова Диана Рамазановна | |||
0
0
3
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||||
Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |||
Abstract | ||||
Системы постредактирование машинного перевода казахского языка Қазақ тілінің машиналық аудармадағы постредакциялау жүйелері Целью данных исследований является разработка эффективных алгоритмов и моделей системы постредактирования с высоким качеством машинного перевода, адаптированной под особенности казахского языка. Бұл зерттеулердің мақсаты - қазақ тілінің ерекшеліктеріне бейімделген, жоғары сапалы машиналық аудармадағы постредакциялау жүйенің тиімді алгоритмдері мен модельдерін әзірлеу Модели, методы и программные средства по обработке естественного языка, формальные грамматики, семантический анализ естественного языка,машинное обучение. Формальды грамматика, табиғи тілді өңдеуге және семантикалық талдауға , машиналық оқытуға арналған модельдер, әдістер және бағдарламалық құралдар. В результате выполнения работ получены следующие результаты:- Исследованы современные подходы для автоматического постредактирования машинного перевода; - Разработаны терминологические англо-казахский и русско-казахский словари ;-Разработана онтологическая модель сложных предложении для англо-казахской и русско-казахской пары языков; -Разработана архитектура модуля Full post-editing на основе модели «Sequence to sequence with Attention Mechanism»; - Обучена модель постредактирования и проведена оценка полученных результатов;-Разработан подход по созданию синтетического параллельного русско-казахского и англо-казахского корпуса для обучения системы;-Разработан алгоритм синтеза простых предложении казахского языка; -Разработан алгоритм выравнивания параллельного корпуса казахско-русской и казахско-английской языковой пары; -Собран и обработан трехъязычный синтетический параллельный («Three Bank») русско-казахский и англо-казахский корпус объёмом более 1 млн. предложении. Разработанные алгоритмы были проверены практическими экспериментами и оценками качества, и новизна работ апробирована публикациями и докладами на международных конференциях. За отчетный период опубликована 2 статьи в изданиях , рекомендуемый ККСОН, и 6 публикации в международных и республиканских научных конференциях. Опубликована 1 глава в книге зарубежного издательства и 5 публикации в рецензируемых научных изданиях, индексируемые международными базами данных Web of Science и(или) Scopus. Жұмыстарды орындау нәтижесінде мынадай нәтижелер алынды: Машиналық аударманы автоматты түрде постредакциялау арналған заманауи тәсілдер зерттелді; Ағылшын-қазақ және орыс-қазақ терминологиялық сөздіктері әзірленді; Ағылшын-қазақ және орыс-қазақ тілдері жұбы үшін күрделі сөйлемдердің онтологиялық моделі әзірленді; «Sequence to sequence with Attention Mechanism» моделі негізінде Full post-editing модулінің архитектурасы әзірленді; Постредакциялау моделі оқытылды және алынған нәтижелерге бағалау жүргізілді; Жүйені оқыту үшін синтетикалық параллель орыс-қазақ және ағылшын-қазақ корпусын құру тәсілі әзірленді; Қазақ тілінің қарапайым сөйлемдерін синтездеу алгоритмі әзірленді; Қазақ-орыс және қазақ-ағылшын тіл жұбының параллель корпусын туралау алгоритмі әзірленді; Үш тілді синтетикалық параллельді («ThreeBank») көлемі 1 млн. астам сөйлемдері бар орыс-қазақ және ағылшын-қазақ корпусы жиналып өңделді. Әзірленген алгоритмдер тәжірибелік эксперименттермен және сапаны бағалаумен тексерілді және жұмыстардың жаңалығы халықаралық конференцияларда жарияланымдар мен баяндамалармен сынақтан өткізілді. Есепті кезеңде БҒСҚК ұсынған басылымдарда 2 мақала, халықаралық және республикалық ғылыми конференцияларда 6 жарияланым жарияланды. Шетелдік баспаның кітабында 1 тарау жарияланды және Web of Science және (немесе) Scopus халықаралық дерекқорларымен индекстелетін рецензияланатын ғылыми басылымдарда 5 жарияланым жарияланды. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.
Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе текстовых материалов на казахском языке. Қолдану саласы: ғылыми-техникалық қызметтің нәтижелерін әр түрлі салаларда қазақ тіліндегі мәтіндік материалдарды талдауда қолдануға болады. |
||||
UDC indices | ||||
004.421,004.912 | ||||
International classifier codes | ||||
20.19.27; 16.31.21; | ||||
Key words in Russian | ||||
Постредактирование; машинный перевод; казахский; язык; технология; | ||||
Key words in Kazakh | ||||
Пост-редакциялау; машиналық аударма; қазақ; тіл; технология; | ||||
Head of the organization | Рамазанов Тлеккабул Сабитович | доктор физ.-мат.наук / профессор | ||
Head of work | Рахимова Диана Рамазановна | PhD / Ассоциированный профессор |