Inventory number IRN Number of state registration
0224РК00109 AP13068635-OT-24 0122РК00023
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 3 Publications Web of science: 0 Publications Scopus: 3
Number of books Appendicies Sources
1 2 70
Total number of pages Patents Illustrations
61 0 13
Amount of funding Code of the program Table
22109892 AP13068635 15
Name of work
Разработка системы перевода речи для двух малоресурсных языков через некоторый промежуточный язык
Report title
Type of work Source of funding The product offerred for implementation
Applied Технология
Report authors
Кожирбаев Жанибек Мамбеткаримович , Исламгожаев Талгат Урюмкалиулы ,
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient National Laboratory Astana
Abstract

Объектами исследования данного проекта являются методы и алгоритмы для языков с низкими ресурсами казахского и татарского, использующих русский язык в качестве языка-посредника, а также аудио- и текстовые данные, наряду с предварительно обученными моделями.

Бұл жобаның зерттеу нысандары - орыс тілін делдал тілі ретінде пайдаланып, ресурстары төмен тілдерге, қазақ және татар тілдеріне, арналған әдістер мен алгоритмдер, сондай-ақ алдын ала дайындалған модельдермен қатар аудио және мәтіндік деректер болып табылады.

Целью данного проекта является разработка методов и алгоритмов перевода речи для двух языков с низкими ресурсами, а именно казахского и татарского, на основе немаркированных аудио- и текстовых данных, а также предварительно обученных моделей через некоторый промежуточный язык.

Бұл жобаның мақсаты - таңбаланбаған аудио және мәтіндік деректер, сондай - ақ кейбір аралық тіл арқылы алдын ала оқытылған модельдер негізінде ресурстары төмен екі тілге, атап айтқанда қазақ және татар тілдеріне арналған сөйлеуді аудару әдістері мен алгоритмдерін әзірлеу болып табылады.

В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети, каскадные и end-to-end методы перевода речи.

Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер, сөйлеуді аударудың каскадты және end-to-end әдістері қолданылады.

Значимость работы заключается в создании методов и алгоритмов перевода речи с использованием немаркированных аудио- и текстовых данных, а также предварительно обученных моделей.

Жұмыстың маңыздылығы таңбаланбаған аудио және мәтіндік деректерді, сондай - ақ алдын-ала дайындалған модельдерді қолдана отырып, сөйлеуді аудару әдістері мен алгоритмдерін құру болып табылады.

Мы собрали 640 часов аннотированных аудиоданных для казахского языка и 80 часов для татарского языка для распознавания речи. Кроме того, мы собрали 5 400 210 параллельных предложений (241 818 810 слов) для казахско-русского и 692 359 параллельных предложений (22 403 424 слова) для татарско-русского языка для машинного перевода. Мы также создали набор данных ST-kk-ru, который состоит из 318,73 часов для речевого перевода с казахского на русский.

Сөйлеуді тану үшін қазақ тілі үшін 640 сағат, татар тілі үшін 80 сағат аннотацияланған аудио деректер жинадық. Сонымен қатар, қазақша-орысша 5 400 210 параллель сөйлем (241 818 810 сөз) және машиналық аударма үшін татар-орыс тіліне 692 359 параллель сөйлем (22 403 424 сөз) жинадық. Сондай-ақ біз ST-kk-ru деректер жинағын жасадық, ол 318,73 сағаттық сөйлеуді қазақ тілінен орыс тіліне аударудан тұрады.

Полученные результаты и разработанные программы могут быть внедрены в системах автоматического распознавания речи и перевода речи.

Алынған нәтижелер мен әзірленген бағдарламаларды автоматты түрде сөйлеуді тану және сөйлеуді аудару жүйелерінде енгізуге болады.

Для демонстрации эффективности разработанных методов мы создали программный модуль в виде веб-приложения. Он позволяет пользователям загружать аудио на казахском языке и переводить его на татарский язык каскадным или end-to-end методом. Переведенный вывод может быть представлен в текстовом или аудиоформате, а также могут быть отображены промежуточные результаты.

Әзірленген әдістердің тиімділігін көрсету үшін біз веб-қосымша түрінде бағдарламалық модуль жасадық. Бұл пайдаланушыларға қазақ тіліндегі аудионы жүктеуге және оны татар тіліне каскадты немесе end-to-end әдіспен аударуға мүмкіндік береді. Аударылған нәтиже мәтіндік немесе аудио форматта ұсынылуы мүмкін және аралық нәтижелер де көрсетілуі мүмкін.

Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи.

Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін.

UDC indices
004.912; 004.93'1; 004.932; 004.934; 81'322
International classifier codes
16.31.21; 28.23.15;
Readiness of the development for implementation
Key words in Russian
перевод речи; обработка речи; машинный перевод; каскадный перевод речи; сквозной перевод речи;
Key words in Kazakh
сөйлеу аудармасы; сөйлеуді өңдеу; машиналық аударма; каскадты сөйлеу аудармасы; сөйлеуді басынан аяғына дейін аудару;
Head of the organization Сарбасов Дос Джурмаханбет Ph.D. Биохимия и молекулярная биология / Профессор
Head of work Кожирбаев Жанибек Мамбеткаримович Phd / PhD
Native executive in charge