Inventory number IRN Number of state registration
0225РК00496 AP19676744-OT-25 0123РК00750
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 3 Publications Web of science: 0 Publications Scopus: 0
Number of books Appendicies Sources
1 4 50
Total number of pages Patents Illustrations
92 0 23
Amount of funding Code of the program Table
35743845 AP19676744 26
Name of work
Иерархические самообучающиеся алгоритмы для обнаружения смены диктора
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ,Модель
Report authors
Жұмажанов Бағашар Жұмажанұлы , Төлеу Алымжан , Төлеген Гүлмира , Мусабаев Рустам Рафикович , Пак Александр Александрович , Джаксылыкова Асель Булатовна , Красовицкий Александр Михайлович ,
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Существующие алгоритмы и подходы для временных рядов и для задачи обнаружения смены диктора (SCD). Аудиокорпус для SCD. Свойства и особенности речи как векторных представлений звуковых сигналов. Речевой сигнал и характеристики дикторов, получаемые из аудиоданных. Метрическое пространство для анализа особенностей речи. Алгоритмы эвристической кластеризации для SCD. Алгоритмы самообучения, с оптимизацией их графовых представлений. Технологии оптимизации самообучающихся алгоритмов.

Уақыт қатардағы SCD-ге арналған алгоритмдер мен тәсілдер. SCD тапсырмасына арналған корпус. Аудио сигналының репрезентациясы мен ерекшеліктерін зерттеу және талдау. Аудио деректер жиынынан алынған дыбыс сигналы және динамик сипаттамалары. Дыбысты талдауға арналған метрикалық кеңістік. SCD үшін эвристикалық кластерлеу алгоритмдері. Дыбыстық сигналдардың графикалық көріністерін оңтайландыратын өз-өзін оқыту үйрену алгоритмдері. Өз-өзін оқыту алгоритмдерін оңтайландыру технологиялары.

Цель работы — разработка нового метода решения задачи обнаружения смены спикера с использованием машинного обучения на большом корпусе аудиоданных. Создание метода, способного выдавать эффективные результаты на основе оценочных показателей, и его реализация в виде программной библиотеки.

Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. Бағалау көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу.

Для выполнения цели и задач исследования на каждом этапе работы применяются различные методы и подходы, например: анализ различных концепций и методов формирования векторных представлений речевого сигнала, теории настройки и оптимизации параметров вычислительных моделей, выбор функций потерь, сравнение классических методов, анализ аудио признаков, подготовка новых алгоритмов и сравнение их результатов.

Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау, Классикалық әдістерді салыстыру, аудио ерекшеліктерін талдау, жаңа алгоритмдер дайындау және нәтижелерін салыстыру.

Полученные результаты и новизна: Исследованы концепции и методы задачи обнаружения смены спикера. Подготовлены корпуса аудиоданных с размеченными речевыми сигналами для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и особенностей речи в качестве векторного представления речевого сигнала. Создана библиотека на Python, состоящая из новых алгоритмов и моделей для обнаружения смены спикера, на основе которой опубликованы соответствующие научные статьи. Все полученные результаты являются новыми.

Сөйлеушінің өзгерістерін анықтау мәселесінің тұжырымдамалары мен әдістері зерттеледі. Үлгілерді құрастыруды және оқытуды жеңілдету үшін таңбаланған сөйлеу сигналдары бар аудио деректер корпустары дайындалды. Дыбыстық сигналдың векторлық көрінісі ретінде сөйлеудің қасиеттері мен ерекшеліктерін талдауды зерттеу нәтижелері алынды. Сөйлеушінің өзгерістерін анықтау үшін жаңа алгоритмдер мен модельдерден тұратын python кітапхана жасалды, соның негізінде қатысты ғылыми мақалалар жарияланды. Барлық алынған нәтижелер жаңа.

Основные показатели — определение качества полученных решений в результате применения разработанных методов и сравнительных результатов, новые концепции, алгоритмы машинного обучения и оптимизации.

Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері.

Результаты проекта были представлены в виде общедоступной библиотеки программного обеспечения с открытым исходным кодом на платформе GitHub. Разработанные методы и подходы были опубликованы в виде открытых исследовательских статей, а их результаты также были распространены в научном сообществе посредством публикаций и участия в международных конференциях.

Жобаның нәтижелері GitHub платформасында жалпыға қолжетімді ашық бастапқы кодты бағдарламалық кітапхана ретінде енгізілді. Әзірленген әдістер мен тәсілдер ғылыми зерттеулер мен оның нәтижелері ашық мақала ретінде жарық көрді, сондай-ақ ғылыми қауымдастық арасында басылымдар мен халықаралық конференцияларға қатысу арқылы таратылды.

Разработанные методы экспериментально проверены на корпусе аудиоданных. Получены количественные оценки, подтверждающие применимость разработанных концепций и показателей для задачи SCD.

Әзірленген әдістер деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды.

Теоретические результаты данного проекта могут быть широко использованы другими исследователями: они эффективны не только при обработке аудиосигналов, но и в других задачах, связанных с временными рядами и машинным обучением. Алгоритмы, реализованные в библиотеке с открытым исходным кодом, доступны разработчикам программного обеспечения в научной и промышленной сфере. Предлагаемая библиотека готова к практическому применению в задачах обработки аудиозаписей многоканальных совещаний.

Осы жобаның ғылыми-теориялық нәтижелерін өзге зерттеушілер де кеңінен пайдалана алады: олар тек дыбыстық сигналдарды өңдеуде ғана емес, сондай-ақ басқа уақыттық қатарлар мен машиналық оқытуға қатысты міндеттерде де тиімді. Ашық бастапқы кодты кітапханада іске асырылған алгоритмдер ғылым мен өнеркәсіп салаларындағы бағдарлама әзірлеушілеріне қолжетімді. Ұсынылған кітапхана көп сөйлеушілі жиналыс аудиосын өңдеу міндеттерінде практикалық қолдануға дайын.

UDC indices
004.89
International classifier codes
20.01.00; 20.00.00; 20.53.00;
Readiness of the development for implementation
Key words in Russian
Обнаружение смены диктора; Иерархические алгоритмы самообучения; Векторное представление звукового сигнала; Кластеризация; Диаризация; Эвристическая оптимизация;
Key words in Kazakh
Сөйлеуші ауысуын анықтау; Иерархиялық өзін-өзі оқыту алгоритмдері; Дыбыстық сигналдың векторлық көрінісі; Кластерлеу; Диаризация; Эвристикалық оңтайландыру;
Head of the organization Бектемесов Мактагали Абдимажитович Доктор физико-математических наук / профессор
Head of work Жұмажанов Бағашар Жұмажанұлы Кандидат технических наук / нет
Native executive in charge Төлеу Алымжан Researcher