Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0225РК00608	AP19678995-OT-25	0123РК00712
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 2
International publications: 2	Publications Web of science: 0	Publications Scopus: 2
Number of books	Appendicies	Sources
1	4	52
Total number of pages	Patents	Illustrations
178	0	23
Amount of funding	Code of the program	Table
31573226	AP19678995	4
Code of the program's task under which the job is done
9.2.5
Name of work
Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Модель
Report authors
Ахмедиярова Айнур Танатаровна , Медетов Бекболат Жаксылыкович , Жетписбаева Айнур Турсынкановна , Сериков Тансауле Габдыманапович , Алибиева Жибек Мейрамбековна , Албанбай Нұртай , Нурланкызы Айгуль , Үрістимбек Гүлжазира Қайратбекқызы , Намазбаев Тимур Адильканович , Ысқақ Әсет Ерікұлы ,
Engineers from production 1 Undergraduates 1 Doctoral students 1 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient		НАО «КазНИТУ им. К.И. Сатпаева»
Abstract
The object of research, development or design (in Russian) : речевые сигналы человека и их цифровые представления, используемые для идентификации дикторов по ультракоротким звуковым фрагментам The object of research, development or design (in Kazakh) : адамның сөйлеу сигналдары және оларды ультрақысқа дыбыстық фрагменттер бойынша дикторды сәйкестендіру үшін пайдаланылатын олардың цифрлық бейнелері Aim of work (in Russian) : разработка метода распознавания дикторов на основе глубоких нейронных сетей при ультракороткой продолжительности чистой речи и создание цифровой модели голоса человека с высокой точностью идентификации Aim of work (in Kazakh) : таза сөйлеудің ультрақысқа ұзақтығында терең нейрондық желілер негізінде дикторларды тану әдісін әзірлеу және жоғары дәлдікті адам дауысының цифрлық моделін жасау Методы исследования (на русском) : В исследовании использованы методы машинного обучения и ИИ (CNN, RNN, LSTM, гибридные модели), спектральный и временной анализ речи, MFCC, нормализация, фильтрация шумов и аугментация; реализация — Python, TensorFlow, PyTorch Методы исследования (на казахском) : Зерттеуде машиналық оқыту және ЖИ әдістері (CNN, RNN, LSTM, гибридті үлгілер), сөйлеудің спектрлік және уақыттық талдауы, MFCC, қалыпқа келтіру, шуылдарды сүзу және деректерді аугментациялау пайдаланылды; іске асыру — Python, TensorFlow, PyTorch Obtained results and novelty (in Russian) : разработаны и обучены модели искусственных нейронных сетей для выделения вокализованных фрагментов и распознавания отдельных фонем речи; создана цифровая модель голоса человека, обеспечивающая точность идентификации диктора свыше 96%. Установлены закономерности влияния размера обучающей выборки и языковой специфики на качество распознавания. Научная новизна заключается в применении гибридной архитектуры CNN–LSTM для анализа ультракоротких речевых фрагментов и в построении модели, способной работать при длительности менее одной секунды Obtained results and novelty (in Kazakh) : вокализацияланған фрагменттерді бөліп алу және жеке фонемаларды тану үшін жасанды нейрондық желілердің модельдері әзірленіп, оқытылды. Адамның цифрлық дауыс моделі құрылып, дикторды сәйкестендірудің 96%-дан жоғары дәлдігін қамтамасыз етті. Оқыту жиынтығының көлемі мен тілдік ерекшеліктердің тану сапасына әсер ету заңдылықтары анықталды. Ғылыми жаңалығы — ультрақысқа сөйлеу фрагменттерін талдау үшін CNN–LSTM гибридтік архитектурасын қолдану және бір секундтан аз ұзақтықтағы сигналдармен жұмыс істей алатын модель құру The main constructive and technical economic indicators (in Russian) : Разработана математическая и программная модель распознавания ультракороткой речи с точностью более 90 %, временем отклика до 0,3 с и возможностью интеграции в существующие ИТ-системы при низких затратах на внедрение The main constructive and technical economic indicators (in Kazakh) : Ультрақысқа сөйлеуді 90 %-дан жоғары дәлдікпен тануға арналған математикалық және бағдарламалық модель әзірленді. Жауап беру уақыты – 0,3 с дейін, қолданыстағы IT-жүйелерге төмен енгізу шығындарымен біріктіруге мүмкіндік бар Level of implementation (in Russian) : результаты могут быть интегрированы в системы речевой биометрии и цифровой идентификации, а также использованы в разработке интеллектуальных платформ судебной экспертизы и безопасности данных Level of implementation (in Kazakh) : Нәтижелерді сөйлеу биометриясы мен цифрлық сәйкестендіру жүйелеріне интеграциялауға, сондай-ақ сот сараптамасы мен деректер қауіпсіздігіне арналған интеллектуалды платформаларды әзірлеуде қолдануға болады Efficiency (in Russian) : внедрение предложенных методов позволит повысить эффективность и надежность биометрических систем, сократить потребность в длительных речевых записях и обеспечить применение отечественных алгоритмов в задачах цифровой безопасности и идентификации Efficiency (in Kazakh) : Ұсынылған әдістерді енгізу биометриялық жүйелердің тиімділігі мен сенімділігін арттыруға, ұзақ сөйлеу жазбаларына деген қажеттілікті азайтуға және отандық алгоритмдерді цифрлық қауіпсіздік пен сәйкестендіру міндеттерінде қолдануға мүмкіндік береді Field of application (in Russian) : органы национальной безопасности, судебно-экспертные подразделения, информационно-аналитические системы и коммерческие организации, использующие биометрические методы многофакторной аутентификации пользователей Field of application (in Kazakh) : ұлттық қауіпсіздік органдары, сот-сараптамалық бөлімшелер, ақпараттық-талдамалық жүйелер және пайдаланушылардың көпфакторлы биометриялық аутентификациясын қолданатын коммерциялық ұйымдар
UDC indices
004.934
International classifier codes
50.43.19; 50.49.00;
Readiness of the development for implementation
Key words in Russian
распознавание образов; распознавание дикторов; нейронные сети; спектр речевого сигнала; фонема; биометрическая идентификация; речевые технологии;
Key words in Kazakh
үлгіні тану; дикторды тану; нейрондық желілер; сөйлеу сигналының спектрі; фонема; биометриялық сәйкестендіру; сөйлеу технологиялары;
Head of the organization	Кульдеев Ержан Итеменович	Academic degree/title: Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work	Ахмедиярова Айнур Танатаровна	Academic degree/title : Доктор PhD / ассоциированный профессор
Native executive in charge		Academic degree/title:

Eng

Қаз

Рус