Inventory number IRN Number of state registration
0323РК00673 AP19678995-KC-23 0123РК00712
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 27454798 AP19678995
Name of work
Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Type of work Source of funding Report authors
Applied Ахмедиярова Айнур Танатаровна
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

Массив речевых данных на разных языках с целью построения нейресетевого классификатора фонем, пауз речи и дикторов

Фонемалардың, сөйлеу кідірістерінің және дикторлардың нейрондық желілік классификаторын құру мақсатында әртүрлі тілдердегі сөйлеу деректерінің массиві

Цель проекта – это исследование возможности реализации и обучения глубоких нейронных сетей для идентификации дикторов по ультракоротким фразам, когда стандартные статистические методы не работают

Жобаның мақсаты - стандартты статистикалық әдістер жұмыс істемей тұрған кезде ультра қысқа фразалар арқылы дикторларды анықтау үшін терең нейрондық желілерді енгізу және оқыту мүмкіндігін зерттеу

Методы исследования данного этапа: - сбор звуковых данных (файлов) на разных языках, используемых для обучения нейронных сетей; - ручная и программная разметка звуковых данных на сегменты, содержащие или не содержащие человеческую речь; - проектирование и обучение нейронных сетей типа RNN/MLP/CNN для распознавания речевых фрагментов в потоке звуковых данных; - проведение сравнительного анализа обученных нейронных сетей с целью определения наиболее эффективной сети, пригодной для распознавания человеческого голоса; - исследование способности обученных сетей к языконезависимому распознаванию человеческого голоса; - сбор речевых данных, содержащих короткие высказывания с фонемами «А», «О» и «Е»; - проектирование нейронных сетей для распознавания фонем «А», «О» и «Е» в потоке речевых данных.

Бұл кезеңдегі зерттеу әдістері: - нейрондық желілерді оқыту үшін қолданылатын әртүрлі тілдердегі дыбыстық мәліметтерді (файлдарды) жинау; - дыбыстық мәліметтерді адам сөзін қамтитын немесе қамтымайтын сегменттерге қолмен және бағдарламалық таңбалау; - дыбыстық деректер ағынындағы сөйлеу фрагменттерін тану үшін RNN/MLP/CNN сияқты нейрондық желілерді жобалау және оқыту; - адам дауысын тану үшін қолайлы тиімді желіні анықтау мақсатында оқытылған нейрондық желілерге салыстырмалы талдау жүргізу; - оқытылған желілердің тілден тәуелсіз адам дауысын тану мүмкіндігін зерттеу; - «А», «О» және «Е» фонемалары бар қысқа сөздерді қамтитын сөйлеу деректерін жинау; - сөйлеу деректері ағынындағы «А», «О» және «Е» фонемаларын тану үшін нейрондық желілерді жобалау.

Собрана база речевых данных, состоящая из голосов 175 дикторов разного пола и возраста. Подготовлена база данных шумов, наиболее часто встречаемых как фоновый шум при разговоре. Разработано программное обеспечение для создания и обучения различных структур нейронных сетей типа CNN/RNN/LSTM для выделения вокализованных фонем из звукового сигнала. Реализована программа для вычисления мелкоскептральных коэффициентов фрагментов звукового сигнала, которые будут использованы как обучающие данные для нейронных сетей. Новизна: впервые показана, что нейронная сеть, обученная на ограниченном наборе фонем, обладает способностью распознавания человеческого голоса в независимости от языка разговора. А также впервые установлена закономерность в виде функциональной зависимости точности распознавания нейронной сети от количества дикторов, участвовавших при обучении данной сети.

Әртүрлі жыныстағы және жастағы 175 дикторлардың дауысынан тұратын сөйлеу базасы жинақталды. Әңгімелесу кезінде фондық шу ретінде жиі кездесетін шулардың дерекқоры дайындалды. Дыбыстық сигналдан дауысты фонемаларды алу үшін CNN/RNN/LSTM сияқты нейрондық желілердің әртүрлі құрылымдарын құру және оқыту үшін бағдарламалық қамтамасыз ету әзірленді. Нейрондық желілер үшін оқу деректері ретінде пайдаланылатын дыбыстық сигнал фрагменттерінің жұқа скептрлік коэффициенттерін есептеу бағдарламасы жүзеге асырылды. Жаңалығы: алғаш рет фонемалардың шектеулі жиынтығында оқытылған нейрондық желінің сөйлеу тіліне тәуелсіз адам дауысын тану қабілеті бар екенін көрсетті. Сондай-ақ, нейрондық желіні тану дәлдігінің осы желіні оқытуға қатысқан дикторлар санына функционалды тәуелділігі түріндегі заңдылық алғаш рет анықталды.

Основной научный эффект в том, что будет реализован новый нейросетевой способ создания голосовой модели человека на основе очень коротких фраз. Данный метод осуществления биометрии может расширить применение речевых технологий во многих сферах жизнедеятельности и ускорить некоторые производственные и технологические процессы.

Негізгі ғылыми нәтиже - өте қысқа фразалар негізінде адам дауысының моделін жасау үшін жаңа нейрондық желі әдісі жүзеге асырылады. Биометрияны жүзеге асырудың бұл әдісі өмірдің көптеген салаларында сөйлеу технологияларын қолдануды кеңейтіп, кейбір өндірістік және технологиялық процестерді жеделдете алады.

Внедрение полученных на данном этапе результатов не предусмотрено.

Осы кезеңде алынған нәтижелерді енгізу қарастырылмаған.

Результаты проекта имеют значительный потенциал коммерциализации, т.к. планируется создание совершенно нового алгоритма и метода создания голосовой модели человека на основе ультракоротких фраз. Предлагаемые решения, при успешном получении результатов, могут быть очень востребованы в системах, предлагающих различные речевые сервисы.

Жобаның нәтижелері коммерцияландырудың айтарлықтай әлеуетіне ие, өйткені ультра қысқа фразалар негізінде адамның дауыстық моделін құрудың мүлдем жаңа алгоритмі мен әдісін құру жоспарлануда. Нәтижелерді сәтті алған кезде ұсынылған шешімдер әртүрлі сөйлеу қызметтерін ұсынатын жүйелерде өте қажет болуы мүмкін.

Органы, обеспечивающие национальную безопасность, коммерческие и государственные организации, заинтересованные в реализации методов многофакторной безопасности данных на основе биометрии

Ұлттық қауіпсіздікті қамтамасыз ететін органдар, биометрия негізінде деректердің көп факторлы қауіпсіздігі әдістерін іске асыруға мүдделі коммерциялық және мемлекеттік ұйымдар

UDC indices
004.934
International classifier codes
50.43.19; 50.49.00;
Key words in Russian
распознавание образов; распознавание дикторов; нейронные сети; спектр речевого сигнала; фонема; биометрическая идентификация; речевые технологии;
Key words in Kazakh
үлгіні тану; дикторды тану; нейрондық желілер; сөйлеу сигналының спектрі; фонема; биометриялық сәйкестендіру; сөйлеу технологиялары;
Head of the organization Кульдеев Ержан Итеменович Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work Ахмедиярова Айнур Танатаровна Доктор PhD / ассоциированный профессор