Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0323РК00389	AP13068635-KC-23	0122РК00023
Document type	Terms of distribution	Availability of implementation
Краткие сведения	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 1
International publications: 5	Publications Web of science: 1	Publications Scopus: 3
Patents	Amount of funding	Code of the program
0	22123716	AP13068635
Name of work
Разработка системы перевода речи для двух малоресурсных языков через некоторый промежуточный язык
Type of work	Source of funding	Report authors
Applied		Кожирбаев Жанибек Мамбеткаримович
Engineers from production 2 Undergraduates 0 Doctoral students 0 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient		National Laboratory Astana
Abstract
The object of research, development or design (in Russian) : Объектом исследования является процесс перевода речи для двух малоресурсных языков на основе предварительно обученных моделей с использованием некоторого промежуточного языка. The object of research, development or design (in Kazakh) : Зерттеу объектісі болып кейбір аралық тілді пайдалана отырып, алдын ала дайындалған модельдер негізінде ресурстары аз екі тілге сөйлеуді аудару процесі табылады. Aim of work (in Russian) : Целью проекта является разработка методов и алгоритмов перевода речи для двух малоресурсных языков, а именно казахского и татарского, на основе предварительно обученных моделей с использованием некоторого промежуточного языка. Aim of work (in Kazakh) : Жобаның мақсаты таңбаланбаған аудио және мәтіндік деректерге, сондай-ақ кейбір аралық тіл арқылы алдын ала дайындалған модельдерге негізделген екі аз ресурсты қазақ және татар тілдеріне сөйлеуді аударудың әдістері мен алгоритмдерін әзірлеу болып табылады. Методы исследования (на русском) : В данной работе используются методы машинного обучения, искусственные нейронные сети и методы для анализа и обработки аудио и текстовых данных. Методы исследования (на казахском) : Бұл жұмыста машиналық оқыту әдістері, жасанды нейрондық желілер және аудио және мәтіндік деректерді талдау және өңдеу әдістері қолданылады. Obtained results and novelty (in Russian) : За отчетный период были собраны акустические и текстовые данные. Были собраны размеченные аудиоданные продолжительностью 640 часов для казахского языка. А также был собран речевой корпус татарского языка продолжительностью 80 часов. Параллельный корпус для казахско-русской языковой пары составляет 5400210 предложений (241818810 слов), а для русско-татарской языковой пары составляет 692359 предложений (22403424 слов). Далее, мы разработали предварительно обученные модели для текстовых данных на основе mBART. Исследования для языковых пар KZ-RU и RU-TA проводились с использованием набора данных, полученного в задании 2. Оценка BLEU, достигнутая для пары KZ-RU (наборы данных NLA и КазНУ), составила 47,60, а пара RU-TA дала оценку BLEU 31,65. А также были разработаны системы машинного перевода с казахского на промежуточный язык и с промежуточного языка на татарский язык. В качестве промежуточного языка был выбран русский язык. Также мы разработали модель и программный модуль системы сквозного перевода речи. Obtained results and novelty (in Kazakh) : Есепті кезеңде акустикалық және мәтіндік деректер жинақталды. Қазақ тілі бойынша 640 сағат таңбаланған аудио деректер жиналды. Сондай-ақ 80 сағаттық татар тілінің сөйлеу корпусы жинақталды. Қазақ-орыс тілі жұбы бойынша параллельді корпус 5400210 сөйлем (241818810 сөз), ал орыс-татар тілі жұбы үшін 692359 сөйлем (22403424 сөз). Әрі қарай, біз mBART негізінде мәтіндік деректер үшін алдын ала дайындалған модельдерді әзірледік. KZ-RU және RU-TA тіл жұптары үшін зерттеу 2-тапсырмада алынған деректер жиынтығын пайдалана отырып жүргізілді. KZ-RU жұбы (NLA және KazNU деректер жинақтары) үшін қол жеткізілген BLEU ұпайы 47,60 болды, ал RU-TA жұбы 31,65 BLEU ұпайын берді. Сондай-ақ қазақ тілінен аралық тілге, аралық тілден татар тіліне машиналық аударма жүйелері жасалды. Аралық тіл ретінде орыс тілі таңдалды. Сондай-ақ біз сөйлеуді басынан аяғына дейін аудару жүйесіне арналған модель мен бағдарламалық модуль әзірледік. The main constructive and technical economic indicators (in Russian) : Объем размеченных аудиоданных для казахского языка составил 640 часов, а для татарского языка 80 часов. Объем текстовых данных – более 1 млрд словоформ для казахского и татарского языков. Расходование средств финансирования производится согласно утвержденной смете. The main constructive and technical economic indicators (in Kazakh) : Таңбаланған аудиомәліметтердің көлемі қазақ тілі үшін 640 сағатты құраса, татар тілі үшін 80 сағатты құрады. Мәтіндік деректердің көлемі қазақ және татар тілдері үшін 1 миллиардтан астам сөз формасын құрады. Қаражат бекітілген бюджетке сәйкес жұмсалуда. Level of implementation (in Russian) : Программный модуль сквозной системы речевого перевода доступен в виде демонстрационного веб-сервиса, обладающего функциональностью перевода речи, машинного перевода и синтеза речи. Опубликованы научные статьи в рецензируемые издания. Level of implementation (in Kazakh) : Сөйлеуді басынан аяғына дейін аудару жүйесінің бағдарламалық модулі сөйлеуді аудару, машиналық аударма және сөйлеу синтезі функционалдығы бар демонстрациялық веб-қызмет ретінде қол жетімді. Рецензияланған басылымдарда ғылыми мақалалар жарияланды. Efficiency (in Russian) : Исследования, выполняемые в рамках настоящего научного проекта, обладают высокой экономической, социальной и индустриальной важностью, поскольку при дальнейшем изучении и внедрении результаты могут быть использованы для решения прикладных задач, связанных с разработкой систем перевода речи для родственных языков (узбекский, кыргызский) и других языков с ограниченными ресурсами. Efficiency (in Kazakh) : Осы ғылыми жоба аясында жүргізілген зерттеулердің жоғары экономикалық, әлеуметтік және өндірістік маңызы бар, өйткені одан әрі зерттеу және енгізу кезінде алынған нәтижелер туыстас тілдер (өзбек, қырғыз) және басқа да ресурстары шектеулі тілдер үшін сөйлеуді аудару жүйесін дамытуға қатысты қолданбалы мәселелерді шешу үшін пайдаланылуы мүмкін. Field of application (in Russian) : Собранные акустические и текстовые данные, а также разработанные модули могут быть использованы в любой сфере, где востребована задача автоматического распознавания казахского языка и задача перевода казахского текста и речи. Field of application (in Kazakh) : Жиналған акустикалық және мәтіндік деректер, сондай-ақ әзірленген модульдер қазақ тілін автоматты түрде тану және қазақ мәтіні мен сөйлеуін аудару міндеті сұранысқа ие кез келген салада қолданылуы мүмкін.
UDC indices
81'322; 004.934; 004.912; 004.93'1; 004.932
International classifier codes
16.31.21; 28.23.15;
Key words in Russian
перевод речи; обработка речи; машинный перевод; каскадный перевод речи; сквозной перевод речи;
Key words in Kazakh
сөйлеу аудармасы; сөйлеуді өңдеу; машиналық аударма; каскадты сөйлеу аудармасы; сөйлеуді басынан аяғына дейін аудару;
Head of the organization	Сарбасов Дос Джурмаханбет	Academic degree/title: Ph.D. Biochemistry and Molecular Biology / Ph.D.
Head of work	Кожирбаев Жанибек Мамбеткаримович	Academic degree/title : Phd / PhD

Eng

Қаз

Рус