Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0323РК01310 | AP19676744-KC-23 | 0123РК00750 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 0 | ||||
International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 | ||
Patents | Amount of funding | Code of the program | ||
0 | 27697530 | AP19676744 | ||
Name of work | ||||
Иерархические самообучающиеся алгоритмы для обнаружения смены диктора | ||||
Type of work | Source of funding | Report authors | ||
Applied | Жұмажанов Бағашар Жұмажанұлы | |||
0
0
0
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||||
Abbreviated name of the service recipient | ИИВТ | |||
Abstract | ||||
Объектом исследования являются вычислительные модели и алгоритмы, построенные на основе методов машинного обучения с применением оптимизации параметров и гиперпараметров модели для работы с речевыми сигналами. Зерттеу нысаны – сөйлеу сигналдарымен жұмыс істеуге арналған модельдік параметрлер мен гиперпараметрлерді оңтайландыруды пайдалана отырып, машиналық оқыту әдістері негізінде құрастырылған есептеу модельдері мен алгоритмдері. Цель работы – разработать новый способ решения задачи обнаружения смены диктора при помощи машинного обучения на большом корпусе аудиоданных. Построить технику, способную давать эффективные результаты по метрикам DER, JER и реализовать в виде программной библиотеке. Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. DER және JER көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу. Для достижения цели и решения задач данного исследования на каждом этапе работ применяются различные методы и подходы, такие как: анализ различных концепций и методов построения векторных представлений аудиосигнала, теории настройки и оптимизации параметров вычислительно моделей, выбор и выделение целевых функций. Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау және таңдау. Изучены концепции и методы более общей задачи диаризации. Подготовлены корпуса аудиоданных с размеченным речевым сигналом для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и признаков речи как векторных представлений звукового сигнала. Все полученные результаты обладают достаточной новизной. Диаризация мәселесінің тұжырымдамалары мен әдістері зерттеледі. Үлгілерді құрастыруды және оқытуды жеңілдету үшін таңбаланған сөйлеу сигналдары бар аудио деректер корпустары дайындалды. Дыбыстық сигналдың векторлық көрінісі ретінде сөйлеудің қасиеттері мен ерекшеліктерін талдауды зерттеу нәтижелері алынды. Барлық алынған нәтижелер жаңа. Основными показателями являются построенные техники и сравнительные метрики DER, JER для определения качества получаемых решений, новые концепции, алгоритмы машинного обучения и оптимизации. Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы метрика DER, JER нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері. Все выполненные работы направлены на получение единого конечного результата в виде разработанной программного библиотеки, решающей задачу SCD. Барлық орындалған жұмыстар SCD мәселесін шешетін әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған. Разработанные методы были экспериментально апробированы на сформированном наборе данных аудикорпусов. Получены численные оценки, подтверждают применимость разработанных концепций и метрик для задачи SCD. Әзірленген әдістер генерацияланған аудио корпус деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды. Разработанные алгоритмы и модели, обученные на подготовленных наборах аудиоданных, будут применяться в составе программной библиотеки для эффективного обнаружения смены дикторов. Дайындалған аудио деректер жинақтарында оқытылған әзірленген алгоритмдер мен модельдер спикердің өзгерістерін тиімді анықтау үшін бағдарламалық кітапханасының бөлігі ретінде пайдаланылады. |
||||
UDC indices | ||||
004.85 | ||||
International classifier codes | ||||
20.01.00; 20.00.00; 20.53.00; | ||||
Key words in Russian | ||||
Обнаружение смены диктора; Иерархические алгоритмы самообучения; Векторное представление звукового сигнала; Кластеризация; Диаризация; Эвристическая оптимизация; LIMA; | ||||
Key words in Kazakh | ||||
Сөйлеушінің өзгеруін анықтау; Иерархиялық өзін-өзі оқыту алгоритмдері; Дыбыстық сигналдың векторлық көрінісі; Кластерлеу; Диаризация; Эвристикалық оңтайландыру; LIMA; | ||||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор | ||
Head of work | Жұмажанов Бағашар Жұмажанұлы | Кандидат технических наук / нет |