Inventory number IRN Number of state registration
0324РК01795 AP23488624-KC-24 0124РК00402
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 2
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 26922345.17 AP23488624
Name of work
Исследование автоматической генерации параллельных корпусов речи тюркских языков и их использование для нейронных моделей
Type of work Source of funding Report authors
Fundamental Кәрібаева Айдана Сейілғазықызы
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Abbreviated name of the service recipient НАО "КазНУ им. аль-Фараби"
Abstract

В качестве объектов исследования берутся три пары языков: казахский-татарский, казахский-турецкий, казахский-узбекский.

Зерттеу нысаны ретінде үш тілдік жұп алынды: қазақ-татар, қазақ-түрік, қазақ-өзбек.

Целью проекта является исследование технологии для формирования параллельных корпусов речи и использованием их для обучения нейронного машинного перевода речи тюркских языков.

Жобаның мақсаты – параллель сөйлеу корпусын құру технологиясын зерттеу және оларды түркі тілдеріндегі сөйлеудің нейромашиналық аудармасын үйрету үшін пайдалану.

Для каждой из планируемых основных задач проекта будут использоваться свои методы исследования и решения. Разработаны модели, основанные на морфологии каждого выбранной языковой пары, разработан алгоритм каскадной схемы на основе модели морфологии и прямого перевода. Для создания модели морфологии применялись статистические методы для определения вероятностей комбинирования типов аффиксов.

Жобаның жоспарланған негізгі есептерінің әрқайсысы үшін өзіндік зерттеу әдістері мен шешімдері қолданылады. Әрбір таңдалған тіл жұбының морфологиясы негізінде модельдер әзірленді, ал морфологиялық модель мен тікелей аударма негізінде каскадты схема алгоритмі әзірленді. Морфология моделін жасау үшін аффикс түрлерін біріктіру ықтималдығын анықтаудың статистикалық әдістері қолданылды.

Полученные результаты: Созданы реляционные модели морфологии языков, алгоритмы и программы машинного перевода текстов с казахского на татарский, турецкий и узбекский языки; Сделан анализ по инструментам распознавания речи в текст, выбраны средства распознавания речи в текст Whisper, Soyle для казахского языка. Проведены эксперименты по распознавания казахской речи.Разработана каскадная схема машинного перевода речи с казахского языка на татарский, турецкий и узбекский языки, состоящая из трех модулей. Новизна: Исследование нового подхода к машинному переводу речи в речь для тюркских языков на основе каскадной схемы и использованием модели морфологии предлагает решение проблемы ограниченного доступа к обучающим данным и ресурсам. Создание параллельных корпусов для обучения нейронных моделей машинного перевода речи станет более доступным благодаря предложенному методу автоматической генерации таких корпусов.

Қазақ тілінен татар, түрік және өзбек тілдеріне тіл морфологиясының реляциялық модельдері, мәтіндерді машиналық аударудың алгоритмдері мен бағдарламалары құрылды; Сөйлеуді мәтінге тану құралдарына талдау жасалды, қазақ тілі үшін Whisper және Soyle сөйлеуді мәтінге тану құралдары таңдалды. Қазақ тілін тану бойынша тәжірибелер жүргізілді, үш модульден тұратын қазақ тілінен сөйлеуді татар, түрік және өзбек тілдеріне машиналық аударудың каскадты схемасы жасалды. Жаңалылығы: Каскадтық схемаға негізделген және морфологиялық модельді пайдалана отырып, түркі тілдеріне арналған машиналық сөйлеуден сөйлеуге аударудың жаңа тәсілін зерттеу оқу деректері мен ресурстарына шектеулі қолжетімділік мәселесін шешуді ұсынады. Автоматты түрде осындай корпустарды құрудың ұсынылған әдісінің арқасында машиналық сөйлеуді аударудың нейрондық үлгілерін оқыту үшін параллель корпусты құру қолжетімді болады.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

нейронный машинный перевод речи

сөйлеудің нейронды машиналық аудармасы

UDC indices
004.934, 004.912
International classifier codes
28.23.37;
Key words in Russian
обработка естественного языка (NLP); речь; речевой корпус; казахский язык; тюркские языки;
Key words in Kazakh
табиғи тілді өңдеу (NLP); сөйлеу; сөйлеу корпусы; қазақ тілі; түркі тілдері;
Head of the organization Айтжанова Жамила Нурматовна Доктор экономических наук / ассоциированный профессор (доцент)
Head of work Кәрібаева Айдана Сейілғазықызы Phd / -