| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0224РК00109 | AP13068635-OT-24 | 0122РК00023 |
| Document type | Terms of distribution | Availability of implementation |
| Заключительный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 0 | ||
| International publications: 3 | Publications Web of science: 0 | Publications Scopus: 3 |
| Number of books | Appendicies | Sources |
| 1 | 2 | 70 |
| Total number of pages | Patents | Illustrations |
| 61 | 0 | 13 |
| Amount of funding | Code of the program | Table |
| 22109892 | AP13068635 | 15 |
| Name of work | ||
| Разработка системы перевода речи для двух малоресурсных языков через некоторый промежуточный язык | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Applied | Технология | |
| Report authors | ||
| Кожирбаев Жанибек Мамбеткаримович , Исламгожаев Талгат Урюмкалиулы , | ||
|
0
0
0
0
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | Нет | |
| Full name of the service recipient | ||
| Частное учреждение "National Laboratory Astana" | ||
| Abbreviated name of the service recipient | National Laboratory Astana | |
| Abstract | ||
|
Объектами исследования данного проекта являются методы и алгоритмы для языков с низкими ресурсами казахского и татарского, использующих русский язык в качестве языка-посредника, а также аудио- и текстовые данные, наряду с предварительно обученными моделями. Бұл жобаның зерттеу нысандары - орыс тілін делдал тілі ретінде пайдаланып, ресурстары төмен тілдерге, қазақ және татар тілдеріне, арналған әдістер мен алгоритмдер, сондай-ақ алдын ала дайындалған модельдермен қатар аудио және мәтіндік деректер болып табылады. Целью данного проекта является разработка методов и алгоритмов перевода речи для двух языков с низкими ресурсами, а именно казахского и татарского, на основе немаркированных аудио- и текстовых данных, а также предварительно обученных моделей через некоторый промежуточный язык. Бұл жобаның мақсаты - таңбаланбаған аудио және мәтіндік деректер, сондай - ақ кейбір аралық тіл арқылы алдын ала оқытылған модельдер негізінде ресурстары төмен екі тілге, атап айтқанда қазақ және татар тілдеріне арналған сөйлеуді аудару әдістері мен алгоритмдерін әзірлеу болып табылады. В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети, каскадные и end-to-end методы перевода речи. Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер, сөйлеуді аударудың каскадты және end-to-end әдістері қолданылады. Значимость работы заключается в создании методов и алгоритмов перевода речи с использованием немаркированных аудио- и текстовых данных, а также предварительно обученных моделей. Жұмыстың маңыздылығы таңбаланбаған аудио және мәтіндік деректерді, сондай - ақ алдын-ала дайындалған модельдерді қолдана отырып, сөйлеуді аудару әдістері мен алгоритмдерін құру болып табылады. Мы собрали 640 часов аннотированных аудиоданных для казахского языка и 80 часов для татарского языка для распознавания речи. Кроме того, мы собрали 5 400 210 параллельных предложений (241 818 810 слов) для казахско-русского и 692 359 параллельных предложений (22 403 424 слова) для татарско-русского языка для машинного перевода. Мы также создали набор данных ST-kk-ru, который состоит из 318,73 часов для речевого перевода с казахского на русский. Сөйлеуді тану үшін қазақ тілі үшін 640 сағат, татар тілі үшін 80 сағат аннотацияланған аудио деректер жинадық. Сонымен қатар, қазақша-орысша 5 400 210 параллель сөйлем (241 818 810 сөз) және машиналық аударма үшін татар-орыс тіліне 692 359 параллель сөйлем (22 403 424 сөз) жинадық. Сондай-ақ біз ST-kk-ru деректер жинағын жасадық, ол 318,73 сағаттық сөйлеуді қазақ тілінен орыс тіліне аударудан тұрады. Полученные результаты и разработанные программы могут быть внедрены в системах автоматического распознавания речи и перевода речи. Алынған нәтижелер мен әзірленген бағдарламаларды автоматты түрде сөйлеуді тану және сөйлеуді аудару жүйелерінде енгізуге болады. Для демонстрации эффективности разработанных методов мы создали программный модуль в виде веб-приложения. Он позволяет пользователям загружать аудио на казахском языке и переводить его на татарский язык каскадным или end-to-end методом. Переведенный вывод может быть представлен в текстовом или аудиоформате, а также могут быть отображены промежуточные результаты. Әзірленген әдістердің тиімділігін көрсету үшін біз веб-қосымша түрінде бағдарламалық модуль жасадық. Бұл пайдаланушыларға қазақ тіліндегі аудионы жүктеуге және оны татар тіліне каскадты немесе end-to-end әдіспен аударуға мүмкіндік береді. Аударылған нәтиже мәтіндік немесе аудио форматта ұсынылуы мүмкін және аралық нәтижелер де көрсетілуі мүмкін. Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи. Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін. |
||
| UDC indices | ||
| 004.912; 004.93'1; 004.932; 004.934; 81'322 | ||
| International classifier codes | ||
| 16.31.21; 28.23.15; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| перевод речи; обработка речи; машинный перевод; каскадный перевод речи; сквозной перевод речи; | ||
| Key words in Kazakh | ||
| сөйлеу аудармасы; сөйлеуді өңдеу; машиналық аударма; каскадты сөйлеу аудармасы; сөйлеуді басынан аяғына дейін аудару; | ||
| Head of the organization | Сарбасов Дос Джурмаханбет | Ph.D. Биохимия и молекулярная биология / Профессор |
| Head of work | Кожирбаев Жанибек Мамбеткаримович | Phd / PhD |
| Native executive in charge | ||