| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0225РК00496 | AP19676744-OT-25 | 0123РК00750 |
| Document type | Terms of distribution | Availability of implementation |
| Заключительный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 0 | ||
| International publications: 3 | Publications Web of science: 0 | Publications Scopus: 0 |
| Number of books | Appendicies | Sources |
| 1 | 4 | 50 |
| Total number of pages | Patents | Illustrations |
| 92 | 0 | 23 |
| Amount of funding | Code of the program | Table |
| 35743845 | AP19676744 | 26 |
| Name of work | ||
| Иерархические самообучающиеся алгоритмы для обнаружения смены диктора | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Applied | Метод, способ,Модель | |
| Report authors | ||
| Жұмажанов Бағашар Жұмажанұлы , Төлеу Алымжан , Төлеген Гүлмира , Мусабаев Рустам Рафикович , Пак Александр Александрович , Джаксылыкова Асель Булатовна , Красовицкий Александр Михайлович , | ||
|
0
0
1
0
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | МНВО РК | |
| Full name of the service recipient | ||
| РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||
| Abbreviated name of the service recipient | ИИВТ | |
| Abstract | ||
|
Существующие алгоритмы и подходы для временных рядов и для задачи обнаружения смены диктора (SCD). Аудиокорпус для SCD. Свойства и особенности речи как векторных представлений звуковых сигналов. Речевой сигнал и характеристики дикторов, получаемые из аудиоданных. Метрическое пространство для анализа особенностей речи. Алгоритмы эвристической кластеризации для SCD. Алгоритмы самообучения, с оптимизацией их графовых представлений. Технологии оптимизации самообучающихся алгоритмов. Уақыт қатардағы SCD-ге арналған алгоритмдер мен тәсілдер. SCD тапсырмасына арналған корпус. Аудио сигналының репрезентациясы мен ерекшеліктерін зерттеу және талдау. Аудио деректер жиынынан алынған дыбыс сигналы және динамик сипаттамалары. Дыбысты талдауға арналған метрикалық кеңістік. SCD үшін эвристикалық кластерлеу алгоритмдері. Дыбыстық сигналдардың графикалық көріністерін оңтайландыратын өз-өзін оқыту үйрену алгоритмдері. Өз-өзін оқыту алгоритмдерін оңтайландыру технологиялары. Цель работы — разработка нового метода решения задачи обнаружения смены спикера с использованием машинного обучения на большом корпусе аудиоданных. Создание метода, способного выдавать эффективные результаты на основе оценочных показателей, и его реализация в виде программной библиотеки. Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. Бағалау көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу. Для выполнения цели и задач исследования на каждом этапе работы применяются различные методы и подходы, например: анализ различных концепций и методов формирования векторных представлений речевого сигнала, теории настройки и оптимизации параметров вычислительных моделей, выбор функций потерь, сравнение классических методов, анализ аудио признаков, подготовка новых алгоритмов и сравнение их результатов. Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау, Классикалық әдістерді салыстыру, аудио ерекшеліктерін талдау, жаңа алгоритмдер дайындау және нәтижелерін салыстыру. Полученные результаты и новизна: Исследованы концепции и методы задачи обнаружения смены спикера. Подготовлены корпуса аудиоданных с размеченными речевыми сигналами для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и особенностей речи в качестве векторного представления речевого сигнала. Создана библиотека на Python, состоящая из новых алгоритмов и моделей для обнаружения смены спикера, на основе которой опубликованы соответствующие научные статьи. Все полученные результаты являются новыми. Сөйлеушінің өзгерістерін анықтау мәселесінің тұжырымдамалары мен әдістері зерттеледі. Үлгілерді құрастыруды және оқытуды жеңілдету үшін таңбаланған сөйлеу сигналдары бар аудио деректер корпустары дайындалды. Дыбыстық сигналдың векторлық көрінісі ретінде сөйлеудің қасиеттері мен ерекшеліктерін талдауды зерттеу нәтижелері алынды. Сөйлеушінің өзгерістерін анықтау үшін жаңа алгоритмдер мен модельдерден тұратын python кітапхана жасалды, соның негізінде қатысты ғылыми мақалалар жарияланды. Барлық алынған нәтижелер жаңа. Основные показатели — определение качества полученных решений в результате применения разработанных методов и сравнительных результатов, новые концепции, алгоритмы машинного обучения и оптимизации. Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері. Результаты проекта были представлены в виде общедоступной библиотеки программного обеспечения с открытым исходным кодом на платформе GitHub. Разработанные методы и подходы были опубликованы в виде открытых исследовательских статей, а их результаты также были распространены в научном сообществе посредством публикаций и участия в международных конференциях. Жобаның нәтижелері GitHub платформасында жалпыға қолжетімді ашық бастапқы кодты бағдарламалық кітапхана ретінде енгізілді. Әзірленген әдістер мен тәсілдер ғылыми зерттеулер мен оның нәтижелері ашық мақала ретінде жарық көрді, сондай-ақ ғылыми қауымдастық арасында басылымдар мен халықаралық конференцияларға қатысу арқылы таратылды. Разработанные методы экспериментально проверены на корпусе аудиоданных. Получены количественные оценки, подтверждающие применимость разработанных концепций и показателей для задачи SCD. Әзірленген әдістер деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды. Теоретические результаты данного проекта могут быть широко использованы другими исследователями: они эффективны не только при обработке аудиосигналов, но и в других задачах, связанных с временными рядами и машинным обучением. Алгоритмы, реализованные в библиотеке с открытым исходным кодом, доступны разработчикам программного обеспечения в научной и промышленной сфере. Предлагаемая библиотека готова к практическому применению в задачах обработки аудиозаписей многоканальных совещаний. Осы жобаның ғылыми-теориялық нәтижелерін өзге зерттеушілер де кеңінен пайдалана алады: олар тек дыбыстық сигналдарды өңдеуде ғана емес, сондай-ақ басқа уақыттық қатарлар мен машиналық оқытуға қатысты міндеттерде де тиімді. Ашық бастапқы кодты кітапханада іске асырылған алгоритмдер ғылым мен өнеркәсіп салаларындағы бағдарлама әзірлеушілеріне қолжетімді. Ұсынылған кітапхана көп сөйлеушілі жиналыс аудиосын өңдеу міндеттерінде практикалық қолдануға дайын. |
||
| UDC indices | ||
| 004.89 | ||
| International classifier codes | ||
| 20.01.00; 20.00.00; 20.53.00; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| Обнаружение смены диктора; Иерархические алгоритмы самообучения; Векторное представление звукового сигнала; Кластеризация; Диаризация; Эвристическая оптимизация; | ||
| Key words in Kazakh | ||
| Сөйлеуші ауысуын анықтау; Иерархиялық өзін-өзі оқыту алгоритмдері; Дыбыстық сигналдың векторлық көрінісі; Кластерлеу; Диаризация; Эвристикалық оңтайландыру; | ||
| Head of the organization | Бектемесов Мактагали Абдимажитович | Доктор физико-математических наук / профессор |
| Head of work | Жұмажанов Бағашар Жұмажанұлы | Кандидат технических наук / нет |
| Native executive in charge | Төлеу Алымжан | Researcher |