Inventory number IRN Number of state registration
0324РК00302 AP19676744-KC-24 0123РК00750
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 35773192 AP19676744
Name of work
Иерархические самообучающиеся алгоритмы для обнаружения смены диктора
Type of work Source of funding Report authors
Applied Жұмажанов Бағашар Жұмажанұлы
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования являются вычислительные модели и алгоритмы, построенные на основе методов машинного обучения с применением оптимизации параметров и гиперпараметров модели для работы с речевыми сигналами.

Зерттеу нысаны – сөйлеу сигналдарымен жұмыс істеуге арналған модельдік параметрлер мен гиперпараметрлерді оңтайландыруды пайдалана отырып, машиналық оқыту әдістері негізінде құрастырылған есептеу модельдері мен алгоритмдері.

Цель работы – разработать новый способ решения задачи обнаружения смены диктора при помощи машинного обучения на большом корпусе аудиоданных. Построить технику, способную давать эффективные результаты по метрикам и реализовать в виде программной библиотеке.

Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. Дәлдік көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу.

Для достижения цели и решения задач данного исследования на каждом этапе работ применяются различные методы и подходы, такие как: анализ различных концепций и методов построения векторных представлений аудиосигнала, теории настройки и оптимизации параметров вычислительно моделей, выбор и выделение целевых функций.

Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау және таңдау.

Исследование достигло следующих результатов: (1) извлечение десяти различных признаков речевого сигнала из аудиодатасетов и проведение экспериментов для их сравнения, с выявлением одного из оптимальных признаков для задачи SCD, (2) анализ различных методов измерения расстояний в пространстве признаков для сравнения речевых характеристик и определение наиболее подходящей метрики для этой задачи, (3) проведение дополнительных экспериментов для оценки эффективности методов, основанных на метриках и моделях, и исследование и разработка эвристических алгоритмов кластеризации для обнаружения смены говорящего (SCD) с получением соответствующих экспериментальных результатов. Все полученные результаты обладают достаточной новизной.

Зерттеу келесі нәтижелерге қол жеткізді: (1) аудио деректер жиындарынан он түрлі сөйлеу сигналдарының сипаттамаларын шығару және салыстыру үшін эксперименттер жүргізу, соның ішінде SCD үшін оңтайлы сипаттамалардың бірін анықтау, (2) сөйлеу сипаттамаларын салыстыру үшін сипаттамалар кеңістігінде әртүрлі қашықтық өлшеу тәсілдерін талдау және осы тапсырмаға ең қолайлы қашықтық өлшемін анықтау, (3) метрикалық және модельдік әдістердің тиімділігін бағалау үшін қосымша эксперименттер жүргізу, және сөйлеушінің ауысуын анықтауға (SCD) арналған эвристикалық кластерлеу алгоритмдерін зерттеу және дамыту және сәйкес эксперименттік нәтижелерге қол жеткізу. Барлық алынған нәтижелер жеткілікті жаңашылдыққа ие.

Основными показателями являются построенные техники и сравнительные метрики для определения качества получаемых решений, новые концепции, алгоритмы машинного обучения и оптимизации.

Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы дәлдік метрика нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері.

Все выполненные работы направлены на получение единого конечного результата в виде разработанной программного библиотеки, решающей задачу SCD.

Барлық орындалған жұмыстар SCD мәселесін шешетін әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған.

Разработанные методы были экспериментально апробированы на сформированном наборе данных аудикорпусов. Получены численные оценки, подтверждают применимость разработанных концепций и метрик для задачи SCD.

Әзірленген әдістер генерацияланған аудио корпус деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды.

Разработанные алгоритмы и модели, обученные на подготовленных наборах аудиоданных, будут применяться в составе программной библиотеки для эффективного обнаружения смены дикторов.

Дайындалған аудио деректер жинақтарында оқытылған әзірленген алгоритмдер мен модельдер спикердің өзгерістерін тиімді анықтау үшін бағдарламалық кітапханасының бөлігі ретінде пайдаланылады.

UDC indices
004.85
International classifier codes
20.01.00; 20.00.00; 20.53.00;
Key words in Russian
обнаружение смены диктора; иерархические алгоритмы самообучения; векторное представление звукового сигнала; кластеризация; диаризация; эвристическая оптимизация;
Key words in Kazakh
сөйлеушінің өзгеруін анықтау; иерархиялық өзін-өзі оқыту алгоритмдері; дыбыстық сигналдың векторлық көрінісі; кластерлеу; диаризация; эвристикалық оңтайландыру;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Жұмажанов Бағашар Жұмажанұлы Кандидат технических наук / нет