Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0324РК01795 | AP23488624-KC-24 | 0124РК00402 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 2 | ||||
International publications: 1 | Publications Web of science: 0 | Publications Scopus: 1 | ||
Patents | Amount of funding | Code of the program | ||
0 | 26922345.17 | AP23488624 | ||
Name of work | ||||
Исследование автоматической генерации параллельных корпусов речи тюркских языков и их использование для нейронных моделей | ||||
Type of work | Source of funding | Report authors | ||
Fundamental | Кәрібаева Айдана Сейілғазықызы | |||
0
0
0
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||||
Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |||
Abstract | ||||
В качестве объектов исследования берутся три пары языков: казахский-татарский, казахский-турецкий, казахский-узбекский. Зерттеу нысаны ретінде үш тілдік жұп алынды: қазақ-татар, қазақ-түрік, қазақ-өзбек. Целью проекта является исследование технологии для формирования параллельных корпусов речи и использованием их для обучения нейронного машинного перевода речи тюркских языков. Жобаның мақсаты – параллель сөйлеу корпусын құру технологиясын зерттеу және оларды түркі тілдеріндегі сөйлеудің нейромашиналық аудармасын үйрету үшін пайдалану. Для каждой из планируемых основных задач проекта будут использоваться свои методы исследования и решения. Разработаны модели, основанные на морфологии каждого выбранной языковой пары, разработан алгоритм каскадной схемы на основе модели морфологии и прямого перевода. Для создания модели морфологии применялись статистические методы для определения вероятностей комбинирования типов аффиксов. Жобаның жоспарланған негізгі есептерінің әрқайсысы үшін өзіндік зерттеу әдістері мен шешімдері қолданылады. Әрбір таңдалған тіл жұбының морфологиясы негізінде модельдер әзірленді, ал морфологиялық модель мен тікелей аударма негізінде каскадты схема алгоритмі әзірленді. Морфология моделін жасау үшін аффикс түрлерін біріктіру ықтималдығын анықтаудың статистикалық әдістері қолданылды. Полученные результаты: Созданы реляционные модели морфологии языков, алгоритмы и программы машинного перевода текстов с казахского на татарский, турецкий и узбекский языки; Сделан анализ по инструментам распознавания речи в текст, выбраны средства распознавания речи в текст Whisper, Soyle для казахского языка. Проведены эксперименты по распознавания казахской речи.Разработана каскадная схема машинного перевода речи с казахского языка на татарский, турецкий и узбекский языки, состоящая из трех модулей. Новизна: Исследование нового подхода к машинному переводу речи в речь для тюркских языков на основе каскадной схемы и использованием модели морфологии предлагает решение проблемы ограниченного доступа к обучающим данным и ресурсам. Создание параллельных корпусов для обучения нейронных моделей машинного перевода речи станет более доступным благодаря предложенному методу автоматической генерации таких корпусов. Қазақ тілінен татар, түрік және өзбек тілдеріне тіл морфологиясының реляциялық модельдері, мәтіндерді машиналық аударудың алгоритмдері мен бағдарламалары құрылды; Сөйлеуді мәтінге тану құралдарына талдау жасалды, қазақ тілі үшін Whisper және Soyle сөйлеуді мәтінге тану құралдары таңдалды. Қазақ тілін тану бойынша тәжірибелер жүргізілді, үш модульден тұратын қазақ тілінен сөйлеуді татар, түрік және өзбек тілдеріне машиналық аударудың каскадты схемасы жасалды. Жаңалылығы: Каскадтық схемаға негізделген және морфологиялық модельді пайдалана отырып, түркі тілдеріне арналған машиналық сөйлеуден сөйлеуге аударудың жаңа тәсілін зерттеу оқу деректері мен ресурстарына шектеулі қолжетімділік мәселесін шешуді ұсынады. Автоматты түрде осындай корпустарды құрудың ұсынылған әдісінің арқасында машиналық сөйлеуді аударудың нейрондық үлгілерін оқыту үшін параллель корпусты құру қолжетімді болады. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.
нейронный машинный перевод речи сөйлеудің нейронды машиналық аудармасы |
||||
UDC indices | ||||
004.934, 004.912 | ||||
International classifier codes | ||||
28.23.37; | ||||
Key words in Russian | ||||
обработка естественного языка (NLP); речь; речевой корпус; казахский язык; тюркские языки; | ||||
Key words in Kazakh | ||||
табиғи тілді өңдеу (NLP); сөйлеу; сөйлеу корпусы; қазақ тілі; түркі тілдері; | ||||
Head of the organization | Айтжанова Жамила Нурматовна | Доктор экономических наук / ассоциированный профессор (доцент) | ||
Head of work | Кәрібаева Айдана Сейілғазықызы | Phd / - |