Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0323РК00673	AP19678995-KC-23	0123РК00712
Document type	Terms of distribution	Availability of implementation
Краткие сведения	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 0	Publications Web of science: 0	Publications Scopus: 0
Patents	Amount of funding	Code of the program
0	27454798	AP19678995
Name of work
Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Type of work	Source of funding	Report authors
Applied		Ахмедиярова Айнур Танатаровна
Engineers from production 0 Undergraduates 0 Doctoral students 0 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient		НАО «КазНИТУ им. К.И. Сатпаева»
Abstract
The object of research, development or design (in Russian) : Массив речевых данных на разных языках с целью построения нейресетевого классификатора фонем, пауз речи и дикторов The object of research, development or design (in Kazakh) : Фонемалардың, сөйлеу кідірістерінің және дикторлардың нейрондық желілік классификаторын құру мақсатында әртүрлі тілдердегі сөйлеу деректерінің массиві Aim of work (in Russian) : Цель проекта – это исследование возможности реализации и обучения глубоких нейронных сетей для идентификации дикторов по ультракоротким фразам, когда стандартные статистические методы не работают Aim of work (in Kazakh) : Жобаның мақсаты - стандартты статистикалық әдістер жұмыс істемей тұрған кезде ультра қысқа фразалар арқылы дикторларды анықтау үшін терең нейрондық желілерді енгізу және оқыту мүмкіндігін зерттеу Методы исследования (на русском) : Методы исследования данного этапа: - сбор звуковых данных (файлов) на разных языках, используемых для обучения нейронных сетей; - ручная и программная разметка звуковых данных на сегменты, содержащие или не содержащие человеческую речь; - проектирование и обучение нейронных сетей типа RNN/MLP/CNN для распознавания речевых фрагментов в потоке звуковых данных; - проведение сравнительного анализа обученных нейронных сетей с целью определения наиболее эффективной сети, пригодной для распознавания человеческого голоса; - исследование способности обученных сетей к языконезависимому распознаванию человеческого голоса; - сбор речевых данных, содержащих короткие высказывания с фонемами «А», «О» и «Е»; - проектирование нейронных сетей для распознавания фонем «А», «О» и «Е» в потоке речевых данных. Методы исследования (на казахском) : Бұл кезеңдегі зерттеу әдістері: - нейрондық желілерді оқыту үшін қолданылатын әртүрлі тілдердегі дыбыстық мәліметтерді (файлдарды) жинау; - дыбыстық мәліметтерді адам сөзін қамтитын немесе қамтымайтын сегменттерге қолмен және бағдарламалық таңбалау; - дыбыстық деректер ағынындағы сөйлеу фрагменттерін тану үшін RNN/MLP/CNN сияқты нейрондық желілерді жобалау және оқыту; - адам дауысын тану үшін қолайлы тиімді желіні анықтау мақсатында оқытылған нейрондық желілерге салыстырмалы талдау жүргізу; - оқытылған желілердің тілден тәуелсіз адам дауысын тану мүмкіндігін зерттеу; - «А», «О» және «Е» фонемалары бар қысқа сөздерді қамтитын сөйлеу деректерін жинау; - сөйлеу деректері ағынындағы «А», «О» және «Е» фонемаларын тану үшін нейрондық желілерді жобалау. Obtained results and novelty (in Russian) : Собрана база речевых данных, состоящая из голосов 175 дикторов разного пола и возраста. Подготовлена база данных шумов, наиболее часто встречаемых как фоновый шум при разговоре. Разработано программное обеспечение для создания и обучения различных структур нейронных сетей типа CNN/RNN/LSTM для выделения вокализованных фонем из звукового сигнала. Реализована программа для вычисления мелкоскептральных коэффициентов фрагментов звукового сигнала, которые будут использованы как обучающие данные для нейронных сетей. Новизна: впервые показана, что нейронная сеть, обученная на ограниченном наборе фонем, обладает способностью распознавания человеческого голоса в независимости от языка разговора. А также впервые установлена закономерность в виде функциональной зависимости точности распознавания нейронной сети от количества дикторов, участвовавших при обучении данной сети. Obtained results and novelty (in Kazakh) : Әртүрлі жыныстағы және жастағы 175 дикторлардың дауысынан тұратын сөйлеу базасы жинақталды. Әңгімелесу кезінде фондық шу ретінде жиі кездесетін шулардың дерекқоры дайындалды. Дыбыстық сигналдан дауысты фонемаларды алу үшін CNN/RNN/LSTM сияқты нейрондық желілердің әртүрлі құрылымдарын құру және оқыту үшін бағдарламалық қамтамасыз ету әзірленді. Нейрондық желілер үшін оқу деректері ретінде пайдаланылатын дыбыстық сигнал фрагменттерінің жұқа скептрлік коэффициенттерін есептеу бағдарламасы жүзеге асырылды. Жаңалығы: алғаш рет фонемалардың шектеулі жиынтығында оқытылған нейрондық желінің сөйлеу тіліне тәуелсіз адам дауысын тану қабілеті бар екенін көрсетті. Сондай-ақ, нейрондық желіні тану дәлдігінің осы желіні оқытуға қатысқан дикторлар санына функционалды тәуелділігі түріндегі заңдылық алғаш рет анықталды. The main constructive and technical economic indicators (in Russian) : Основной научный эффект в том, что будет реализован новый нейросетевой способ создания голосовой модели человека на основе очень коротких фраз. Данный метод осуществления биометрии может расширить применение речевых технологий во многих сферах жизнедеятельности и ускорить некоторые производственные и технологические процессы. The main constructive and technical economic indicators (in Kazakh) : Негізгі ғылыми нәтиже - өте қысқа фразалар негізінде адам дауысының моделін жасау үшін жаңа нейрондық желі әдісі жүзеге асырылады. Биометрияны жүзеге асырудың бұл әдісі өмірдің көптеген салаларында сөйлеу технологияларын қолдануды кеңейтіп, кейбір өндірістік және технологиялық процестерді жеделдете алады. Level of implementation (in Russian) : Внедрение полученных на данном этапе результатов не предусмотрено. Level of implementation (in Kazakh) : Осы кезеңде алынған нәтижелерді енгізу қарастырылмаған. Efficiency (in Russian) : Результаты проекта имеют значительный потенциал коммерциализации, т.к. планируется создание совершенно нового алгоритма и метода создания голосовой модели человека на основе ультракоротких фраз. Предлагаемые решения, при успешном получении результатов, могут быть очень востребованы в системах, предлагающих различные речевые сервисы. Efficiency (in Kazakh) : Жобаның нәтижелері коммерцияландырудың айтарлықтай әлеуетіне ие, өйткені ультра қысқа фразалар негізінде адамның дауыстық моделін құрудың мүлдем жаңа алгоритмі мен әдісін құру жоспарлануда. Нәтижелерді сәтті алған кезде ұсынылған шешімдер әртүрлі сөйлеу қызметтерін ұсынатын жүйелерде өте қажет болуы мүмкін. Field of application (in Russian) : Органы, обеспечивающие национальную безопасность, коммерческие и государственные организации, заинтересованные в реализации методов многофакторной безопасности данных на основе биометрии Field of application (in Kazakh) : Ұлттық қауіпсіздікті қамтамасыз ететін органдар, биометрия негізінде деректердің көп факторлы қауіпсіздігі әдістерін іске асыруға мүдделі коммерциялық және мемлекеттік ұйымдар
UDC indices
004.934
International classifier codes
50.43.19; 50.49.00;
Key words in Russian
распознавание образов; распознавание дикторов; нейронные сети; спектр речевого сигнала; фонема; биометрическая идентификация; речевые технологии;
Key words in Kazakh
үлгіні тану; дикторды тану; нейрондық желілер; сөйлеу сигналының спектрі; фонема; биометриялық сәйкестендіру; сөйлеу технологиялары;
Head of the organization	Кульдеев Ержан Итеменович	Academic degree/title: Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work	Ахмедиярова Айнур Танатаровна	Academic degree/title : Доктор PhD / ассоциированный профессор

Eng

Қаз

Рус