Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0224РК00109	AP13068635-OT-24	0122РК00023
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 3	Publications Web of science: 0	Publications Scopus: 3
Number of books	Appendicies	Sources
1	2	70
Total number of pages	Patents	Illustrations
61	0	13
Amount of funding	Code of the program	Table
22109892	AP13068635	15
Name of work
Разработка системы перевода речи для двух малоресурсных языков через некоторый промежуточный язык
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Технология
Report authors
Кожирбаев Жанибек Мамбеткаримович , Исламгожаев Талгат Урюмкалиулы ,
Engineers from production 0 Undergraduates 0 Doctoral students 0 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient		National Laboratory Astana
Abstract
The object of research, development or design (in Russian) : Объектами исследования данного проекта являются методы и алгоритмы для языков с низкими ресурсами казахского и татарского, использующих русский язык в качестве языка-посредника, а также аудио- и текстовые данные, наряду с предварительно обученными моделями. The object of research, development or design (in Kazakh) : Бұл жобаның зерттеу нысандары - орыс тілін делдал тілі ретінде пайдаланып, ресурстары төмен тілдерге, қазақ және татар тілдеріне, арналған әдістер мен алгоритмдер, сондай-ақ алдын ала дайындалған модельдермен қатар аудио және мәтіндік деректер болып табылады. Aim of work (in Russian) : Целью данного проекта является разработка методов и алгоритмов перевода речи для двух языков с низкими ресурсами, а именно казахского и татарского, на основе немаркированных аудио- и текстовых данных, а также предварительно обученных моделей через некоторый промежуточный язык. Aim of work (in Kazakh) : Бұл жобаның мақсаты - таңбаланбаған аудио және мәтіндік деректер, сондай - ақ кейбір аралық тіл арқылы алдын ала оқытылған модельдер негізінде ресурстары төмен екі тілге, атап айтқанда қазақ және татар тілдеріне арналған сөйлеуді аудару әдістері мен алгоритмдерін әзірлеу болып табылады. Методы исследования (на русском) : В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети, каскадные и end-to-end методы перевода речи. Методы исследования (на казахском) : Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер, сөйлеуді аударудың каскадты және end-to-end әдістері қолданылады. Obtained results and novelty (in Russian) : Значимость работы заключается в создании методов и алгоритмов перевода речи с использованием немаркированных аудио- и текстовых данных, а также предварительно обученных моделей. Obtained results and novelty (in Kazakh) : Жұмыстың маңыздылығы таңбаланбаған аудио және мәтіндік деректерді, сондай - ақ алдын-ала дайындалған модельдерді қолдана отырып, сөйлеуді аудару әдістері мен алгоритмдерін құру болып табылады. The main constructive and technical economic indicators (in Russian) : Мы собрали 640 часов аннотированных аудиоданных для казахского языка и 80 часов для татарского языка для распознавания речи. Кроме того, мы собрали 5 400 210 параллельных предложений (241 818 810 слов) для казахско-русского и 692 359 параллельных предложений (22 403 424 слова) для татарско-русского языка для машинного перевода. Мы также создали набор данных ST-kk-ru, который состоит из 318,73 часов для речевого перевода с казахского на русский. The main constructive and technical economic indicators (in Kazakh) : Сөйлеуді тану үшін қазақ тілі үшін 640 сағат, татар тілі үшін 80 сағат аннотацияланған аудио деректер жинадық. Сонымен қатар, қазақша-орысша 5 400 210 параллель сөйлем (241 818 810 сөз) және машиналық аударма үшін татар-орыс тіліне 692 359 параллель сөйлем (22 403 424 сөз) жинадық. Сондай-ақ біз ST-kk-ru деректер жинағын жасадық, ол 318,73 сағаттық сөйлеуді қазақ тілінен орыс тіліне аударудан тұрады. Level of implementation (in Russian) : Полученные результаты и разработанные программы могут быть внедрены в системах автоматического распознавания речи и перевода речи. Level of implementation (in Kazakh) : Алынған нәтижелер мен әзірленген бағдарламаларды автоматты түрде сөйлеуді тану және сөйлеуді аудару жүйелерінде енгізуге болады. Efficiency (in Russian) : Для демонстрации эффективности разработанных методов мы создали программный модуль в виде веб-приложения. Он позволяет пользователям загружать аудио на казахском языке и переводить его на татарский язык каскадным или end-to-end методом. Переведенный вывод может быть представлен в текстовом или аудиоформате, а также могут быть отображены промежуточные результаты. Efficiency (in Kazakh) : Әзірленген әдістердің тиімділігін көрсету үшін біз веб-қосымша түрінде бағдарламалық модуль жасадық. Бұл пайдаланушыларға қазақ тіліндегі аудионы жүктеуге және оны татар тіліне каскадты немесе end-to-end әдіспен аударуға мүмкіндік береді. Аударылған нәтиже мәтіндік немесе аудио форматта ұсынылуы мүмкін және аралық нәтижелер де көрсетілуі мүмкін. Field of application (in Russian) : Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи. Field of application (in Kazakh) : Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін.
UDC indices
004.912; 004.93'1; 004.932; 004.934; 81'322
International classifier codes
16.31.21; 28.23.15;
Readiness of the development for implementation
Key words in Russian
перевод речи; обработка речи; машинный перевод; каскадный перевод речи; сквозной перевод речи;
Key words in Kazakh
сөйлеу аудармасы; сөйлеуді өңдеу; машиналық аударма; каскадты сөйлеу аудармасы; сөйлеуді басынан аяғына дейін аудару;
Head of the organization	Сарбасов Дос Джурмаханбет	Academic degree/title: Ph.D. Биохимия и молекулярная биология / Профессор
Head of work	Кожирбаев Жанибек Мамбеткаримович	Academic degree/title : Phd / PhD
Native executive in charge		Academic degree/title:

Eng

Қаз

Рус