Inventory number IRN Number of state registration
0324РК01959 AP23487816-KC-24 0124РК00676
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 3 Publications Web of science: 0 Publications Scopus: 2
Patents Amount of funding Code of the program
0 31509406 AP23487816
Name of work
Исследование нейронных моделей формирования стенограммы речи и протоколов совещаний на тюркских языках
Type of work Source of funding Report authors
Fundamental Тукеев Уалшер Ануарбекович
0
1
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Abbreviated name of the service recipient НАО "КазНУ им. аль-Фараби"
Abstract

В качестве объектов исследования берутся языки: казахский, азербайджанский, кыргызский, турецкий, туркменский, узбекский.

Зерттеу нысаны ретінде мына тілдер алынды: қазақ, әзірбайжан, қырғыз, түрік, түрікмен, өзбек.

Целью проекта является создание комплексной технологии нейронных моделей формирования стенограммы речи и протоколов совещаний на тюркских языках.

Жобаның мақсаты – түркі тілдерінде сөйлеу стенограммалары мен отырыстар хаттамаларын жасау үшін нейрондық модельдердің кешенді технологиясын жасау

В задаче проекта «Разработка (выбор) и исследование технологии распознавания речи тюркских языков в текст стенограммы» использован метод анализа существующих программных средств распознавания речи тюркских языков в текст на основе экспериментальных исследований. В задаче проекта «Разработка и исследование машинного перевода текста стенограмм тюркских языков на казахский язык» использованы технологии реляционных моделей машинного перевода, основанной на CSE морфологической модели языков; использованы предобученные трансформер нейронные модели с дообучением их на небольших корпусах рассматриваемых тюркских языков; использованы возможности известных программ-переводчиков, как Google Translate, разработан метод генерации параллельных корпусов словоформ языковых пар на основе CSE морфологической модели языков.

«Стенограмма мәтініне түркі тілде сөйлеуді тану технологиясын жасау (таңдау) және зерттеу» жобасының тапсырмасында мәтінге түркі тілде сөйлеуді тану үшін эксперименттік зерттеу негізінде қолданыстағы бағдарламалық құралдарды талдау әдісі қолданылды. «Түркі тілдерінің стенограммларының қазақ тіліне машиналық аудармасын жасау және зерттеу» жобасының тапсырмасында тілдердің CSE морфологиялық моделіне негізделген машиналық аударманың реляциялық үлгілері пайдаланылды; түркі тілдерінің шағын корпустарын оқытумен алдын ала дайындалған трансформерлік нейрондық модельдерді пайдаланды; Google Translate белгілі аударма бағдарламаларының мүмкіндіктерін пайдалана отырып, тілдердің CSE морфологиялық моделіне негізделген сөздік тіл жұптарының параллель корпустарын құру әдісі әзірленді.

Для каждого целевого тюркского языка выбрано наиболее подходящее средство распознавания речи, основанное на проведенных экспериментальных исследованиях, новизна которых заключается в том, что для этих целевых тюркских языков такие сравнительные исследования проводились впервые. Разработаны реляционные модели машинного перевода на основе CSE модели морфологии для турецко-казахской, узбекско-казахской, кыргызско-казахской, азербайджанско-казахской, туркменско-казахской пар языков, новизна которых заключается в том, что они разработаны впервые. Разработаны параллельные корпуса текстов турецко-казахской, узбекско-казахской, кыргызско-казахской пар языков разработаны с использованием реляционных моделей, CSE модели морфологии, возможностей известных программ-переводчиков, как Google Translate, новизна которых заключается в том, что создаются новые параллельные корпуса для указанных тюркских пар языков.

Жүргізілген тәжірибелік зерттеулер негізінде әрбір нысаналы түркі тілі үшін сөйлеуді танудың ең қолайлы құралы таңдалды, оның жаңалығы – осы нысаналы түркі тілдері үшін мұндай салыстырмалы зерттеулер алғаш рет жүргізілді. Түрік-қазақ, өзбек-қазақ, қырғыз-қазақ, әзірбайжан-қазақ, түрікмен-қазақ жұп тілдері үшін морфологияның CSE моделі негізінде машиналық аударманың реляциялық модельдері әзірленді, олардың жаңалығы алғаш рет жасалуы болып табылады. . Түрік-қазақ, өзбек-қазақ, қырғыз-қазақ тіл жұптарының параллель корпустары реляциялық модельдерді, морфологияның CSE моделін, Google Translate сияқты белгілі аудармашы бағдарламаларының мүмкіндіктерін пайдалана отырып әзірленді, оның жаңалығы көрсетілген түркі тілдері жұптары үшін жаңа параллель корпустардың жасалуы болып табылады.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

Область применения результатов: стенограммы речи и формирования протоколов совещаний на тюркских языках в самых различных областях, исследователи и разработчики систем машинного перевода речи и текстов естественных языков, именно, тюркских языков.

Нәтижелерді қолдану саласы: сөз стенограммалары және әртүрлі салалардағы түркі тілдеріндегі кездесулер хаттамаларын қалыптастыру, табиғи тілдердің, атап айтқанда түркі тілдерінің сөздері мен мәтіндерін машиналық аудару жүйесін зерттеушілер мен әзірлеушілер.

UDC indices
004.8
International classifier codes
20.19.27;
Key words in Russian
Искусственный интеллект; обработка естественного языка; распознавание речи; машинный перевод; тюркские языки;
Key words in Kazakh
Жасанды интеллект; табиғи тілді өңдеу; сөйлеуді тану; машиналық аударма; түркі тілдер;
Head of the organization Айтжанова Жамила Нурматовна Доктор экономических наук / ассоциированный профессор (доцент)
Head of work Тукеев Уалшер Ануарбекович Доктор технических наук / профессор