| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00283 | AP23489529-KC-25 | 0124РК00280 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 1 | ||||
| International publications: 3 | Publications Web of science: 2 | Publications Scopus: 2 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 42997078.4 | AP23489529 | ||
| Name of work | ||||
| Разработка методов и алгоритмов многоязычного и мультимодального преобразования речи в речь для академических лекций и докладов | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Кожирбаев Жанибек Мамбеткаримович | |||
|
0
0
1
1
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | Нет | |||
| Full name of the service recipient | ||||
| Частное учреждение "National Laboratory Astana" | ||||
| Abbreviated name of the service recipient | National Laboratory Astana | |||
| Abstract | ||||
|
Объектом исследования является процесс разработка многоязычных и мультимодальных методов и алгоритмов преобразования речи в речь для академических лекций и бесед. Зерттеу объектісі академиялық лекциялар мен баяндамалар үшін сөйлеуді сөйлеуге түрлендірудің көптілді және мультимодальды әдістері мен алгоритмдерін әзірлеу процесі болып табылады. Целью проекта является разработка многоязычных и мультимодальных методов и алгоритмов преобразования речи в речь для академических лекций и бесед. В качестве исходного предположения мы рассматриваем ситуацию, когда презентация или слайды представлены на казахском, русском или английском языке, а речь докладчика – на казахском языке. Жобаның мақсаты – академиялық лекциялар мен баяндамалар үшін көптілді және мультимодальды сөйлеуді сөйлеуге түрлендіру әдістері мен алгоритмдерін әзірлеу. Бастапқы болжам ретінде презентация немесе слайдтар қазақ, орыс немесе ағылшын тілдерінде ұсынылып, баяндамашының сөзі қазақ тілінде болған жағдайды қарастырамыз. В работе используются контролируемые и неконтролируемые методы машинного обучения, искусственные нейронные сети. Жұмыста машиналық оқытудың бақыланатын және бақыланбайтын әдістері, жасанды нейрондық желілер қолданылады. Разработаны алгоритмы и модели для мультимодальной обработки академических лекций, включающие автоматическую сегментацию и синхронизацию аудио- и видеопотоков, а также интеграцию OCR и ASR в единую систему. Создана и оптимизирована многоязычная модель перевода (казахский–русский–английский) на основе NLLB-200, обеспечивающая высокую точность в ИТ-домене. Разработаны OCR-модели для трёх языков и мультимодальная модель распознавания казахской речи, сочетающая визуальный и аудиоконтекст, что позволило снизить WER до 14%. Новизна работы заключается в комплексном подходе к мультимодальной обработке лекционных данных и интеграции визуальной информации в процесс распознавания речи. Академиялық дәрістерді мультимодальды өңдеуге арналған алгоритмдер мен модельдер, соның ішінде аудио және бейне ағындарын автоматты сегменттеу және синхрондау, сондай-ақ OCR және ASR бірыңғай жүйеге интеграциялау жасалды. NLLB-200 негізінде көптілді аударма моделі (қазақ-орыс-ағылшын) жасалды және оңтайландырылды, бұл IT саласында жоғары дәлдікті қамтамасыз етеді. Үш тілге арналған OCR модельдері және көрнекі және аудио контекстті біріктіретін көпмодальды қазақ сөйлеуін тану моделі жасалды, бұл WER-ді 14%-ға дейін төмендетті. Бұл жұмыстың жаңалығы дәріс деректерін мультимодальды өңдеуге және көрнекі ақпаратты сөйлеуді тану процесіне біріктіруге кешенді тәсілде жатыр. Разработанные решения реализованы в виде модульной системы, включающей подсистемы обработки видео, аудио, OCR и перевода, обеспечивающей полную автоматизацию мультимодальной обработки лекций. Использованы современные библиотеки и фреймворки, обеспечивающие высокую производительность и масштабируемость. Модели достигают высокой точности при распознавании текста и снижения WER до 14% при распознавании речи, демонстрируя возможность работы в реальном времени. Полученные результаты обеспечивают повышение эффективности обработки академического контента и снижают трудозатраты на его аннотирование и перевод. Әзірленген шешімдер бейне, аудио, OCR және аударма ішкі жүйелерін қамтитын модульдік жүйе ретінде жүзеге асырылады, бұл дәрістерді толығымен автоматтандырылған мультимодальды өңдеуге мүмкіндік береді. Жоғары өнімділік пен масштабталуды қамтамасыз ету үшін заманауи кітапханалар мен фреймворктер қолданылады. Модельдер мәтінді тануда жоғары дәлдікке және сөйлеуді тануда WER-ді 14%-ға дейін төмендетуге қол жеткізеді, бұл нақты уақыт режимінде жұмыс істеу мүмкіндігін көрсетеді. Алынған нәтижелер академиялық мазмұнды өңдеудің тиімділігін арттырады және оны аннотациялау мен аударудың еңбек шығындарын азайтады. На данном этапе внедрение не предусмотрено Бұл кезеңде ендіру жоспарланбаған Исследования, выполняемые в рамках настоящего научного проекта, обладают высокой экономической, социальной и индустриальной важностью, поскольку при дальнейшем изучении и внедрении результаты могут быть использованы для решения прикладных задач, связанных с разработкой систем перевода речи для родственных языков (узбекский, кыргызский) и других языков с ограниченными ресурсами. Осы ғылыми жоба аясында жүргізілген зерттеулердің жоғары экономикалық, әлеуметтік және өндірістік маңызы бар, өйткені одан әрі зерттеу және енгізу кезінде алынған нәтижелер туыстас тілдер (өзбек, қырғыз) және басқа да ресурстары шектеулі тілдер үшін сөйлеуді аудару жүйесін дамытуға қатысты қолданбалы мәселелерді шешу үшін пайдаланылуы мүмкін. Полученные результаты и разработанные модели нейронных сетей, а также программы могут быть использованы при разработке систем перевода речи. Алынған нәтижелер мен әзірленген нейрондық желі үлгілері, сондай-ақ бағдарламалар сөйлеуді аудару жүйелерін әзірлеуде пайдаланылуы мүмкін. |
||||
| UDC indices | ||||
| 81'322; 004.934; 004.912; 004.93'1; 004.932 | ||||
| International classifier codes | ||||
| 28.23.15; 16.31.21; | ||||
| Key words in Russian | ||||
| свозной перевод речи; оптическое распознавание символов; обработка речи; машинный перевод; переключение кода; | ||||
| Key words in Kazakh | ||||
| интегралдық сөйлеуді аудару; оптикалық таңбаны тану; сөйлеуді өңдеу; машиналық аударма; кодты ауыстыру; | ||||
| Head of the organization | Сарбасов Дос Джурмаханбет | Ph.D. Биохимия и молекулярная биология / Профессор | ||
| Head of work | Кожирбаев Жанибек Мамбеткаримович | Phd / PhD | ||