Inventory number IRN Number of state registration
0325РК00283 AP23489529-KC-25 0124РК00280
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 3 Publications Web of science: 2 Publications Scopus: 2
Patents Amount of funding Code of the program
0 42997078.4 AP23489529
Name of work
Разработка методов и алгоритмов многоязычного и мультимодального преобразования речи в речь для академических лекций и докладов
Type of work Source of funding Report authors
Applied Кожирбаев Жанибек Мамбеткаримович
0
0
1
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient National Laboratory Astana
Abstract

Объектом исследования является процесс разработка многоязычных и мультимодальных методов и алгоритмов преобразования речи в речь для академических лекций и бесед.

Зерттеу объектісі академиялық лекциялар мен баяндамалар үшін сөйлеуді сөйлеуге түрлендірудің көптілді және мультимодальды әдістері мен алгоритмдерін әзірлеу процесі болып табылады.

Целью проекта является разработка многоязычных и мультимодальных методов и алгоритмов преобразования речи в речь для академических лекций и бесед. В качестве исходного предположения мы рассматриваем ситуацию, когда презентация или слайды представлены на казахском, русском или английском языке, а речь докладчика – на казахском языке.

Жобаның мақсаты – академиялық лекциялар мен баяндамалар үшін көптілді және мультимодальды сөйлеуді сөйлеуге түрлендіру әдістері мен алгоритмдерін әзірлеу. Бастапқы болжам ретінде презентация немесе слайдтар қазақ, орыс немесе ағылшын тілдерінде ұсынылып, баяндамашының сөзі қазақ тілінде болған жағдайды қарастырамыз.

В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети.

Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер қолданылады.

Разработаны алгоритмы и модели для мультимодальной обработки академических лекций, включающие автоматическую сегментацию и синхронизацию аудио- и видеопотоков, а также интеграцию OCR и ASR в единую систему. Создана и оптимизирована многоязычная модель перевода (казахский–русский–английский) на основе NLLB-200, обеспечивающая высокую точность в ИТ-домене. Разработаны OCR-модели для трёх языков и мультимодальная модель распознавания казахской речи, сочетающая визуальный и аудиоконтекст, что позволило снизить WER до 14%. Новизна работы заключается в комплексном подходе к мультимодальной обработке лекционных данных и интеграции визуальной информации в процесс распознавания речи.

Академиялық дәрістерді мультимодальды өңдеуге арналған алгоритмдер мен модельдер, соның ішінде аудио және бейне ағындарын автоматты сегменттеу және синхрондау, сондай-ақ OCR және ASR бірыңғай жүйеге интеграциялау жасалды. NLLB-200 негізінде көптілді аударма моделі (қазақ-орыс-ағылшын) жасалды және оңтайландырылды, бұл IT саласында жоғары дәлдікті қамтамасыз етеді. Үш тілге арналған OCR модельдері және көрнекі және аудио контекстті біріктіретін көпмодальды қазақ сөйлеуін тану моделі жасалды, бұл WER-ді 14%-ға дейін төмендетті. Бұл жұмыстың жаңалығы дәріс деректерін мультимодальды өңдеуге және көрнекі ақпаратты сөйлеуді тану процесіне біріктіруге кешенді тәсілде жатыр.

Разработанные решения реализованы в виде модульной системы, включающей подсистемы обработки видео, аудио, OCR и перевода, обеспечивающей полную автоматизацию мультимодальной обработки лекций. Использованы современные библиотеки и фреймворки, обеспечивающие высокую производительность и масштабируемость. Модели достигают высокой точности при распознавании текста и снижения WER до 14% при распознавании речи, демонстрируя возможность работы в реальном времени. Полученные результаты обеспечивают повышение эффективности обработки академического контента и снижают трудозатраты на его аннотирование и перевод.

Әзірленген шешімдер бейне, аудио, OCR және аударма ішкі жүйелерін қамтитын модульдік жүйе ретінде жүзеге асырылады, бұл дәрістерді толығымен автоматтандырылған мультимодальды өңдеуге мүмкіндік береді. Жоғары өнімділік пен масштабталуды қамтамасыз ету үшін заманауи кітапханалар мен фреймворктер қолданылады. Модельдер мәтінді тануда жоғары дәлдікке және сөйлеуді тануда WER-ді 14%-ға дейін төмендетуге қол жеткізеді, бұл нақты уақыт режимінде жұмыс істеу мүмкіндігін көрсетеді. Алынған нәтижелер академиялық мазмұнды өңдеудің тиімділігін арттырады және оны аннотациялау мен аударудың еңбек шығындарын азайтады.

На данном этапе внедрение не предусмотрено

Бұл кезеңде ендіру жоспарланбаған

Исследования, выполняемые в рамках настоящего научного проекта, обладают высокой экономической, социальной и индустриальной важностью, поскольку при дальнейшем изучении и внедрении результаты могут быть использованы для решения прикладных задач, связанных с разработкой систем перевода речи для родственных языков (узбекский, кыргызский) и других языков с ограниченными ресурсами.

Осы ғылыми жоба аясында жүргізілген зерттеулердің жоғары экономикалық, әлеуметтік және өндірістік маңызы бар, өйткені одан әрі зерттеу және енгізу кезінде алынған нәтижелер туыстас тілдер (өзбек, қырғыз) және басқа да ресурстары шектеулі тілдер үшін сөйлеуді аудару жүйесін дамытуға қатысты қолданбалы мәселелерді шешу үшін пайдаланылуы мүмкін.

Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи.

Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін.

UDC indices
81'322; 004.934; 004.912; 004.93'1; 004.932
International classifier codes
28.23.15; 16.31.21;
Key words in Russian
свозной перевод речи; оптическое распознавание символов; обработка речи; машинный перевод; переключение кода;
Key words in Kazakh
интегралдық сөйлеуді аудару; оптикалық таңбаны тану; сөйлеуді өңдеу; машиналық аударма; кодты ауыстыру;
Head of the organization Сарбасов Дос Джурмаханбет Ph.D. Биохимия и молекулярная биология / Профессор
Head of work Кожирбаев Жанибек Мамбеткаримович Phd / PhD