| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00637 | AP23488624-KC-25 | 0124РК00402 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 2 | ||||
| International publications: 4 | Publications Web of science: 1 | Publications Scopus: 3 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 30489305.39 | AP23488624 | ||
| Name of work | ||||
| Исследование автоматической генерации параллельных корпусов речи тюркских языков и их использование для нейронных моделей | ||||
| Type of work | Source of funding | Report authors | ||
| Fundamental | Кәрібаева Айдана Сейілғазықызы | |||
|
0
0
0
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||||
| Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |||
| Abstract | ||||
|
В качестве объектов исследования берутся три пары языков: казахский-татарский, казахский-турецкий, казахский-узбекский. Зерттеу нысаны ретінде үш тілдік жұп алынды: қазақ-татар, қазақ-түрік, қазақ-өзбек. Целью работы является выбор аудио датасета, проведение экспериментов по распознаванию казахской речи и формирование параллельных корпусов речи с казахского на татарский, узбекский и турецкие языки. Жұмыстың мақсаты - аудио деректер жиынтығын таңдау, қазақ тілінде сөйлеуді тану бойынша эксперименттер жүргізу және қазақ тілінен татар, өзбек және түрік тілдеріне параллель сөйлеу корпустарын құру. В рамках данного исследования были применены комплексные методы обработки речевых данных, включающие технологии автоматического распознавания речи и синтеза речи на основе современных нейросетевых архитектур. Бұл зерттеуде заманауи нейрондық желі архитектураларына негізделген автоматты түрде сөйлеуді тану және сөйлеуді синтездеу технологияларын қоса алғанда, күрделі сөйлеу деректерін өңдеу әдістері қолданылды. Впервые разработан мультиязычный параллельный казахско-узбекский, казахско-татарский и казахско-турецкий аудио корпус общим обьемом 92082 аудиозаписей. Алғаш рет жалпы көлемі 92 082 аудиожазбаны құрайтын көптілді параллельді қазақ-өзбек, қазақ-татар және қазақ-түрік аудиокорпусы құрылды. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі. Проект находится в стадии активной реализации, полное завершение и достижение целевых показателей запланировано на третий год. Жоба қазіргі уақытта белсенді іске асыру кезеңінде, үшінші жылға толық аяқталып, мақсатты индикаторларға қол жеткізу жоспарлануда. Выполненная работа по задачам продемонстрировала высокую эффективность в решении задач мультиязычной обработки речи. Применённые методы автоматического распознавания и синтеза речи позволили сформировать уникальные параллельные аудиокорпуса для трёх языковых пар, что существенно расширяет ресурсы для дальнейших исследований в области тюркоязычной речевой обработки. Полученный корпус объёмом 92 082 аудиозаписей является масштабным, ранее отсутствующим ресурсом, повышающим качество и доступность моделей распознавания и перевода для тюркских языков. Орындалған жұмыс көптілді сөйлеуді өңдеу міндеттерін шешуде жоғары тиімділігін көрсетті. Қолданылған автоматты сөйлеуді тану және сөйлеу синтезі әдістері үш тілдік жұпқа арналған бірегей параллель аудио корпустарын қалыптастыруға мүмкіндік берді, бұл түркітілдес сөйлеуді өңдеу саласындағы әрі қарайғы зерттеулерге қажетті ресурстарды едәуір кеңейтеді. Алынған 92 082 аудиожазбадан тұратын корпус – бұрын болмаған ауқымды ресурс болып, түркі тілдеріне арналған тану және аудару модельдерінің сапасы мен қолжетімділігін арттырады. нейронный машинный перевод речи сөйлеудің нейронды машиналық аудармасы |
||||
| UDC indices | ||||
| 004.934, 004.912 | ||||
| International classifier codes | ||||
| 28.23.37; | ||||
| Key words in Russian | ||||
| обработка естественного языка (NLP); речь; речевой корпус; казахский язык; тюркские языки; | ||||
| Key words in Kazakh | ||||
| табиғи тілді өңдеу (NLP); сөйлеу; сөйлеу корпусы; қазақ тілі; түркі тілдері; | ||||
| Head of the organization | Ибраимов Маргулан Касенович | PhD / ассоциированный профессор | ||
| Head of work | Кәрібаева Айдана Сейілғазықызы | Phd / - | ||