Inventory number | IRN | Number of state registration |
---|---|---|
0224РК00109 | AP13068635-OT-24 | 0122РК00023 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 0 | ||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 3 |
Number of books | Appendicies | Sources |
1 | 2 | 70 |
Total number of pages | Patents | Illustrations |
61 | 0 | 13 |
Amount of funding | Code of the program | Table |
22109892 | AP13068635 | 15 |
Name of work | ||
Разработка системы перевода речи для двух малоресурсных языков через некоторый промежуточный язык | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Технология | |
Report authors | ||
Кожирбаев Жанибек Мамбеткаримович , Исламгожаев Талгат Урюмкалиулы , | ||
0
0
0
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | Нет | |
Full name of the service recipient | ||
Частное учреждение "National Laboratory Astana" | ||
Abbreviated name of the service recipient | National Laboratory Astana | |
Abstract | ||
Объектами исследования данного проекта являются методы и алгоритмы для языков с низкими ресурсами казахского и татарского, использующих русский язык в качестве языка-посредника, а также аудио- и текстовые данные, наряду с предварительно обученными моделями. Бұл жобаның зерттеу нысандары - орыс тілін делдал тілі ретінде пайдаланып, ресурстары төмен тілдерге, қазақ және татар тілдеріне, арналған әдістер мен алгоритмдер, сондай-ақ алдын ала дайындалған модельдермен қатар аудио және мәтіндік деректер болып табылады. Целью данного проекта является разработка методов и алгоритмов перевода речи для двух языков с низкими ресурсами, а именно казахского и татарского, на основе немаркированных аудио- и текстовых данных, а также предварительно обученных моделей через некоторый промежуточный язык. Бұл жобаның мақсаты - таңбаланбаған аудио және мәтіндік деректер, сондай - ақ кейбір аралық тіл арқылы алдын ала оқытылған модельдер негізінде ресурстары төмен екі тілге, атап айтқанда қазақ және татар тілдеріне арналған сөйлеуді аудару әдістері мен алгоритмдерін әзірлеу болып табылады. В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети, каскадные и end-to-end методы перевода речи. Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер, сөйлеуді аударудың каскадты және end-to-end әдістері қолданылады. Значимость работы заключается в создании методов и алгоритмов перевода речи с использованием немаркированных аудио- и текстовых данных, а также предварительно обученных моделей. Жұмыстың маңыздылығы таңбаланбаған аудио және мәтіндік деректерді, сондай - ақ алдын-ала дайындалған модельдерді қолдана отырып, сөйлеуді аудару әдістері мен алгоритмдерін құру болып табылады. Мы собрали 640 часов аннотированных аудиоданных для казахского языка и 80 часов для татарского языка для распознавания речи. Кроме того, мы собрали 5 400 210 параллельных предложений (241 818 810 слов) для казахско-русского и 692 359 параллельных предложений (22 403 424 слова) для татарско-русского языка для машинного перевода. Мы также создали набор данных ST-kk-ru, который состоит из 318,73 часов для речевого перевода с казахского на русский. Сөйлеуді тану үшін қазақ тілі үшін 640 сағат, татар тілі үшін 80 сағат аннотацияланған аудио деректер жинадық. Сонымен қатар, қазақша-орысша 5 400 210 параллель сөйлем (241 818 810 сөз) және машиналық аударма үшін татар-орыс тіліне 692 359 параллель сөйлем (22 403 424 сөз) жинадық. Сондай-ақ біз ST-kk-ru деректер жинағын жасадық, ол 318,73 сағаттық сөйлеуді қазақ тілінен орыс тіліне аударудан тұрады. Полученные результаты и разработанные программы могут быть внедрены в системах автоматического распознавания речи и перевода речи. Алынған нәтижелер мен әзірленген бағдарламаларды автоматты түрде сөйлеуді тану және сөйлеуді аудару жүйелерінде енгізуге болады. Для демонстрации эффективности разработанных методов мы создали программный модуль в виде веб-приложения. Он позволяет пользователям загружать аудио на казахском языке и переводить его на татарский язык каскадным или end-to-end методом. Переведенный вывод может быть представлен в текстовом или аудиоформате, а также могут быть отображены промежуточные результаты. Әзірленген әдістердің тиімділігін көрсету үшін біз веб-қосымша түрінде бағдарламалық модуль жасадық. Бұл пайдаланушыларға қазақ тіліндегі аудионы жүктеуге және оны татар тіліне каскадты немесе end-to-end әдіспен аударуға мүмкіндік береді. Аударылған нәтиже мәтіндік немесе аудио форматта ұсынылуы мүмкін және аралық нәтижелер де көрсетілуі мүмкін. Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи. Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін. |
||
UDC indices | ||
004.912; 004.93'1; 004.932; 004.934; 81'322 | ||
International classifier codes | ||
16.31.21; 28.23.15; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
перевод речи; обработка речи; машинный перевод; каскадный перевод речи; сквозной перевод речи; | ||
Key words in Kazakh | ||
сөйлеу аудармасы; сөйлеуді өңдеу; машиналық аударма; каскадты сөйлеу аудармасы; сөйлеуді басынан аяғына дейін аудару; | ||
Head of the organization | Сарбасов Дос Джурмаханбет | Ph.D. Биохимия и молекулярная биология / Профессор |
Head of work | Кожирбаев Жанибек Мамбеткаримович | Phd / PhD |
Native executive in charge |