Inventory number IRN Number of state registration
0324РК01985 AP19678995-KC-24 0123РК00712
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 3
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 31206106 AP19678995
Name of work
Разработка метода распознавания дикторов с применением глубоких нейронных сетей при ультракороткой продолжительности чистой речи
Type of work Source of funding Report authors
Applied Ахмедиярова Айнур Танатаровна
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

Массив речевых данных на разных языках с целью построения нейресетевого классификатора фонем, пауз речи и дикторов

Фонемалардың, сөйлеу кідірістерінің және дикторлардың нейрондық желілік классификаторын құру мақсатында әртүрлі тілдердегі сөйлеу деректерінің массиві

Цель проекта – это исследование возможности реализации и обучения глубоких нейронных сетей для идентификации дикторов по ультракоротким фразам, когда стандартные статистические методы не работают

Жобаның мақсаты - стандартты статистикалық әдістер жұмыс істемей тұрған кезде ультра қысқа фразалар арқылы дикторларды анықтау үшін терең нейрондық желілерді енгізу және оқыту мүмкіндігін зерттеу

Методы исследования данного этапа: - Сравнение трех типов нейронных сетей (MLP, CNN, RNN) для распознавания фонем и звуков на основе обучающих данных с разным количеством дикторов; - Оценка влияния объема обучающих данных на точность распознавания, показавшая, что RNN демонстрирует лучшую производительность, хотя незначительно превосходит CNN; - Тестирование моделей на разных языках, что позволило выявить снижение точности на новых языках и использовать эту разницу для оценки фонетической близости языков; - Разработка комбинированного подхода для повышения точности VAD-системы, который снижает потребность в большом объеме обучающих данных за счет минимизации отдельных ошибок.

Осы кезеңдегі зерттеу әдістері: - Әр түрлі дикторлармен оқыту деректеріне негізделген фонемалар мен дыбыстарды тану үшін нейрондық желілердің үш түрін (MLP, CNN, RNN) салыстыру; - Оқу деректерінің көлемінің тану дәлдігіне әсерін бағалау, бұл RNN CNN-ден сәл асып түссе де, жақсы өнімділікті көрсететінін көрсетті; - Жаңа тілдердегі дәлдіктің төмендеуін анықтайтын және осы айырмашылықты тілдердің фонетикалық жақындығын бағалау үшін қолдануға мүмкіндік беретін әртүрлі тілдердегі модельдерді тестілеу; - Vad жүйесінің дәлдігін жақсарту үшін біріктірілген тәсілді әзірлеу, бұл жеке қателерді азайту арқылы оқыту деректерінің үлкен көлеміне қажеттілікті азайтады.

Исследование показало, что точность распознавания звуков нейронными сетями типа MLP, CNN и RNN зависит от числа дикторов в обучающих данных и наилучшие результаты демонстрирует RNN, хотя её преимущество над CNN составляет лишь 1%. Модель RNN, обученная на одном языке, снижает точность распознавания на других, что позволяет использовать разницу как показатель фонетической близости языков. Удивительно, но русский язык оказался ближе к казахскому по звучанию, чем некоторые тюркские языки, что может быть связано с билингвизмом в Казахстане. Основным выводом исследования стало то, что для достижения высокой точности в системах VAD необходимо комбинировать нейросетевые и традиционные методы. Применение RNN с настройкой на минимизацию ошибки False Negative позволяет значительно сократить требуемое число дикторов для обучения, обеспечивая высокую точность даже при относительно небольшом объеме данных. Новизна: Подход с использованием ошибки False Negative для оптимизации моделей VAD позволяет повысить точность при меньших затратах на сбор данных. Кроме того, методика оценки фонетической близости языков на основе межъязыковой переносимости нейросетей представляет новый способ анализа языков.

Зерттеу нәтижесінде MLP, CNN және RNN үлгісіндегі нейрондық желілердің дыбыстарды тану дәлдігі үйрету деректеріндегі дикторлар санына байланысты екені анықталды, ал ең жоғары нәтижені RNN желісі көрсетті, бірақ оның CNN желісінен артықшылығы тек 1%-ды құрайды. Бір тілге үйретілген RNN үлгісі басқа тілдерде тану дәлдігін төмендететіні байқалды, бұл айырмашылықты тілдердің фонетикалық жақындығын бағалауда қолдануға мүмкіндік береді. Қызығы, қазақ тіліне фонетикалық тұрғыдан кейбір түркі тілдеріне қарағанда орыс тілі жақын болып шықты, бұл Қазақстандағы қос тілділікпен байланысты болуы мүмкін. Зерттеудің негізгі қорытындысы – VAD жүйелерінде жоғары дәлдікке қол жеткізу үшін нейрондық желі әдістері мен дәстүрлі әдістерді біріктіру қажеттілігі. False Negative қатесін азайтуға бағытталған RNN қолдану оқытуға қажетті дикторлар санын айтарлықтай қысқартады, бұл деректер көлемі аз болса да жоғары дәлдікке қол жеткізуге мүмкіндік береді. Жаңалығы: False Negative қатесін пайдалану арқылы VAD үлгілерін оңтайландыру деректерді жинауға кететін шығынды азайта отырып, дәлдікті арттыруға мүмкіндік береді. Сонымен қатар, нейрондық желілердің тілдер арасындағы бейімделу мүмкіндігі негізінде тілдердің фонетикалық жақындығын бағалау әдісі тілдерді талдаудың жаңа тәсілін ұсынады.

Основной научный эффект в том, что будет реализован новый нейросетевой способ создания голосовой модели человека на основе очень коротких фраз. Данный метод осуществления биометрии может расширить применение речевых технологий во многих сферах жизнедеятельности и ускорить некоторые производственные и технологические процессы.

Негізгі ғылыми нәтиже - өте қысқа фразалар негізінде адам дауысының моделін жасау үшін жаңа нейрондық желі әдісі жүзеге асырылады. Биометрияны жүзеге асырудың бұл әдісі өмірдің көптеген салаларында сөйлеу технологияларын қолдануды кеңейтіп, кейбір өндірістік және технологиялық процестерді жеделдете алады.

Внедрение полученных на данном этапе результатов не предусмотрено.

Осы кезеңде алынған нәтижелерді енгізу қарастырылмаған.

Результаты проекта имеют значительный потенциал коммерциализации, т.к. планируется создание совершенно нового алгоритма и метода создания голосовой модели человека на основе ультракоротких фраз. Предлагаемые решения, при успешном получении результатов, могут быть очень востребованы в системах, предлагающих различные речевые сервисы.

Жобаның нәтижелері коммерцияландырудың айтарлықтай әлеуетіне ие, өйткені ультра қысқа фразалар негізінде адамның дауыстық моделін құрудың мүлдем жаңа алгоритмі мен әдісін құру жоспарлануда. Нәтижелерді сәтті алған кезде ұсынылған шешімдер әртүрлі сөйлеу қызметтерін ұсынатын жүйелерде өте қажет болуы мүмкін.

Органы, обеспечивающие национальную безопасность, коммерческие и государственные организации, заинтересованные в реализации методов многофакторной безопасности данных на основе биометрии

Ұлттық қауіпсіздікті қамтамасыз ететін органдар, биометрия негізінде деректердің көп факторлы қауіпсіздігі әдістерін іске асыруға мүдделі коммерциялық және мемлекеттік ұйымдар

UDC indices
004.934
International classifier codes
50.43.19; 50.49.00;
Key words in Russian
распознавание образов; распознавание дикторов; нейронные сети; спектр речевого сигнала; фонема; биометрическая идентификация; речевые технологии;
Key words in Kazakh
үлгіні тану; дикторды тану; нейрондық желілер; сөйлеу сигналының спектрі; фонема; биометриялық сәйкестендіру; сөйлеу технологиялары;
Head of the organization Кульдеев Ержан Итеменович Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work Ахмедиярова Айнур Танатаровна Доктор PhD / ассоциированный профессор