Inventory number IRN Number of state registration
0323РК01310 AP19676744-KC-23 0123РК00750
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 27697530 AP19676744
Name of work
Иерархические самообучающиеся алгоритмы для обнаружения смены диктора
Type of work Source of funding Report authors
Applied Жұмажанов Бағашар Жұмажанұлы
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования являются вычислительные модели и алгоритмы, построенные на основе методов машинного обучения с применением оптимизации параметров и гиперпараметров модели для работы с речевыми сигналами.

Зерттеу нысаны – сөйлеу сигналдарымен жұмыс істеуге арналған модельдік параметрлер мен гиперпараметрлерді оңтайландыруды пайдалана отырып, машиналық оқыту әдістері негізінде құрастырылған есептеу модельдері мен алгоритмдері.

Цель работы – разработать новый способ решения задачи обнаружения смены диктора при помощи машинного обучения на большом корпусе аудиоданных. Построить технику, способную давать эффективные результаты по метрикам DER, JER и реализовать в виде программной библиотеке.

Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. DER және JER көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу.

Для достижения цели и решения задач данного исследования на каждом этапе работ применяются различные методы и подходы, такие как: анализ различных концепций и методов построения векторных представлений аудиосигнала, теории настройки и оптимизации параметров вычислительно моделей, выбор и выделение целевых функций.

Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау және таңдау.

Изучены концепции и методы более общей задачи диаризации. Подготовлены корпуса аудиоданных с размеченным речевым сигналом для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и признаков речи как векторных представлений звукового сигнала. Все полученные результаты обладают достаточной новизной.

Диаризация мәселесінің тұжырымдамалары мен әдістері зерттеледі. Үлгілерді құрастыруды және оқытуды жеңілдету үшін таңбаланған сөйлеу сигналдары бар аудио деректер корпустары дайындалды. Дыбыстық сигналдың векторлық көрінісі ретінде сөйлеудің қасиеттері мен ерекшеліктерін талдауды зерттеу нәтижелері алынды. Барлық алынған нәтижелер жаңа.

Основными показателями являются построенные техники и сравнительные метрики DER, JER для определения качества получаемых решений, новые концепции, алгоритмы машинного обучения и оптимизации.

Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы метрика DER, JER нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері.

Все выполненные работы направлены на получение единого конечного результата в виде разработанной программного библиотеки, решающей задачу SCD.

Барлық орындалған жұмыстар SCD мәселесін шешетін әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған.

Разработанные методы были экспериментально апробированы на сформированном наборе данных аудикорпусов. Получены численные оценки, подтверждают применимость разработанных концепций и метрик для задачи SCD.

Әзірленген әдістер генерацияланған аудио корпус деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды.

Разработанные алгоритмы и модели, обученные на подготовленных наборах аудиоданных, будут применяться в составе программной библиотеки для эффективного обнаружения смены дикторов.

Дайындалған аудио деректер жинақтарында оқытылған әзірленген алгоритмдер мен модельдер спикердің өзгерістерін тиімді анықтау үшін бағдарламалық кітапханасының бөлігі ретінде пайдаланылады.

UDC indices
004.85
International classifier codes
20.01.00; 20.00.00; 20.53.00;
Key words in Russian
Обнаружение смены диктора; Иерархические алгоритмы самообучения; Векторное представление звукового сигнала; Кластеризация; Диаризация; Эвристическая оптимизация; LIMA;
Key words in Kazakh
Сөйлеушінің өзгеруін анықтау; Иерархиялық өзін-өзі оқыту алгоритмдері; Дыбыстық сигналдың векторлық көрінісі; Кластерлеу; Диаризация; Эвристикалық оңтайландыру; LIMA;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Жұмажанов Бағашар Жұмажанұлы Кандидат технических наук / нет