Inventory number IRN Number of state registration
0225РК00608 AP19678995-OT-25 0123РК00712
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 2
International publications: 2 Publications Web of science: 0 Publications Scopus: 2
Number of books Appendicies Sources
1 4 52
Total number of pages Patents Illustrations
178 0 23
Amount of funding Code of the program Table
31573226 AP19678995 4
Code of the program's task under which the job is done
9.2.5
Name of work
Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Report title
Type of work Source of funding The product offerred for implementation
Applied Модель
Report authors
Ахмедиярова Айнур Танатаровна , Медетов Бекболат Жаксылыкович , Жетписбаева Айнур Турсынкановна , Сериков Тансауле Габдыманапович , Алибиева Жибек Мейрамбековна , Албанбай Нұртай , Нурланкызы Айгуль , Үрістимбек Гүлжазира Қайратбекқызы , Намазбаев Тимур Адильканович , Ысқақ Әсет Ерікұлы ,
1
1
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

речевые сигналы человека и их цифровые представления, используемые для идентификации дикторов по ультракоротким звуковым фрагментам

адамның сөйлеу сигналдары және оларды ультрақысқа дыбыстық фрагменттер бойынша дикторды сәйкестендіру үшін пайдаланылатын олардың цифрлық бейнелері

разработка метода распознавания дикторов на основе глубоких нейронных сетей при ультракороткой продолжительности чистой речи и создание цифровой модели голоса человека с высокой точностью идентификации

таза сөйлеудің ультрақысқа ұзақтығында терең нейрондық желілер негізінде дикторларды тану әдісін әзірлеу және жоғары дәлдікті адам дауысының цифрлық моделін жасау

В исследовании использованы методы машинного обучения и ИИ (CNN, RNN, LSTM, гибридные модели), спектральный и временной анализ речи, MFCC, нормализация, фильтрация шумов и аугментация; реализация — Python, TensorFlow, PyTorch

Зерттеуде машиналық оқыту және ЖИ әдістері (CNN, RNN, LSTM, гибридті үлгілер), сөйлеудің спектрлік және уақыттық талдауы, MFCC, қалыпқа келтіру, шуылдарды сүзу және деректерді аугментациялау пайдаланылды; іске асыру — Python, TensorFlow, PyTorch

разработаны и обучены модели искусственных нейронных сетей для выделения вокализованных фрагментов и распознавания отдельных фонем речи; создана цифровая модель голоса человека, обеспечивающая точность идентификации диктора свыше 96%. Установлены закономерности влияния размера обучающей выборки и языковой специфики на качество распознавания. Научная новизна заключается в применении гибридной архитектуры CNN–LSTM для анализа ультракоротких речевых фрагментов и в построении модели, способной работать при длительности менее одной секунды

вокализацияланған фрагменттерді бөліп алу және жеке фонемаларды тану үшін жасанды нейрондық желілердің модельдері әзірленіп, оқытылды. Адамның цифрлық дауыс моделі құрылып, дикторды сәйкестендірудің 96%-дан жоғары дәлдігін қамтамасыз етті. Оқыту жиынтығының көлемі мен тілдік ерекшеліктердің тану сапасына әсер ету заңдылықтары анықталды. Ғылыми жаңалығы — ультрақысқа сөйлеу фрагменттерін талдау үшін CNN–LSTM гибридтік архитектурасын қолдану және бір секундтан аз ұзақтықтағы сигналдармен жұмыс істей алатын модель құру

Разработана математическая и программная модель распознавания ультракороткой речи с точностью более 90 %, временем отклика до 0,3 с и возможностью интеграции в существующие ИТ-системы при низких затратах на внедрение

Ультрақысқа сөйлеуді 90 %-дан жоғары дәлдікпен тануға арналған математикалық және бағдарламалық модель әзірленді. Жауап беру уақыты – 0,3 с дейін, қолданыстағы IT-жүйелерге төмен енгізу шығындарымен біріктіруге мүмкіндік бар

результаты могут быть интегрированы в системы речевой биометрии и цифровой идентификации, а также использованы в разработке интеллектуальных платформ судебной экспертизы и безопасности данных

Нәтижелерді сөйлеу биометриясы мен цифрлық сәйкестендіру жүйелеріне интеграциялауға, сондай-ақ сот сараптамасы мен деректер қауіпсіздігіне арналған интеллектуалды платформаларды әзірлеуде қолдануға болады

внедрение предложенных методов позволит повысить эффективность и надежность биометрических систем, сократить потребность в длительных речевых записях и обеспечить применение отечественных алгоритмов в задачах цифровой безопасности и идентификации

Ұсынылған әдістерді енгізу биометриялық жүйелердің тиімділігі мен сенімділігін арттыруға, ұзақ сөйлеу жазбаларына деген қажеттілікті азайтуға және отандық алгоритмдерді цифрлық қауіпсіздік пен сәйкестендіру міндеттерінде қолдануға мүмкіндік береді

органы национальной безопасности, судебно-экспертные подразделения, информационно-аналитические системы и коммерческие организации, использующие биометрические методы многофакторной аутентификации пользователей

ұлттық қауіпсіздік органдары, сот-сараптамалық бөлімшелер, ақпараттық-талдамалық жүйелер және пайдаланушылардың көпфакторлы биометриялық аутентификациясын қолданатын коммерциялық ұйымдар

UDC indices
004.934
International classifier codes
50.43.19; 50.49.00;
Readiness of the development for implementation
Key words in Russian
распознавание образов; распознавание дикторов; нейронные сети; спектр речевого сигнала; фонема; биометрическая идентификация; речевые технологии;
Key words in Kazakh
үлгіні тану; дикторды тану; нейрондық желілер; сөйлеу сигналының спектрі; фонема; биометриялық сәйкестендіру; сөйлеу технологиялары;
Head of the organization Кульдеев Ержан Итеменович Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work Ахмедиярова Айнур Танатаровна Доктор PhD / ассоциированный профессор
Native executive in charge