Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0225РК00496	AP19676744-OT-25	0123РК00750
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 3	Publications Web of science: 0	Publications Scopus: 0
Number of books	Appendicies	Sources
1	4	50
Total number of pages	Patents	Illustrations
92	0	23
Amount of funding	Code of the program	Table
35743845	AP19676744	26
Name of work
Иерархические самообучающиеся алгоритмы для обнаружения смены диктора
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Метод, способ,Модель
Report authors
Жұмажанов Бағашар Жұмажанұлы , Төлеу Алымжан , Төлеген Гүлмира , Мусабаев Рустам Рафикович , Пак Александр Александрович , Джаксылыкова Асель Булатовна , Красовицкий Александр Михайлович ,
Engineers from production 0 Undergraduates 0 Doctoral students 1 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : Существующие алгоритмы и подходы для временных рядов и для задачи обнаружения смены диктора (SCD). Аудиокорпус для SCD. Свойства и особенности речи как векторных представлений звуковых сигналов. Речевой сигнал и характеристики дикторов, получаемые из аудиоданных. Метрическое пространство для анализа особенностей речи. Алгоритмы эвристической кластеризации для SCD. Алгоритмы самообучения, с оптимизацией их графовых представлений. Технологии оптимизации самообучающихся алгоритмов. The object of research, development or design (in Kazakh) : Уақыт қатардағы SCD-ге арналған алгоритмдер мен тәсілдер. SCD тапсырмасына арналған корпус. Аудио сигналының репрезентациясы мен ерекшеліктерін зерттеу және талдау. Аудио деректер жиынынан алынған дыбыс сигналы және динамик сипаттамалары. Дыбысты талдауға арналған метрикалық кеңістік. SCD үшін эвристикалық кластерлеу алгоритмдері. Дыбыстық сигналдардың графикалық көріністерін оңтайландыратын өз-өзін оқыту үйрену алгоритмдері. Өз-өзін оқыту алгоритмдерін оңтайландыру технологиялары. Aim of work (in Russian) : Цель работы — разработка нового метода решения задачи обнаружения смены спикера с использованием машинного обучения на большом корпусе аудиоданных. Создание метода, способного выдавать эффективные результаты на основе оценочных показателей, и его реализация в виде программной библиотеки. Aim of work (in Kazakh) : Жұмыстың мақсаты - дыбыстық деректердің үлкен корпусында машиналық оқытуды пайдалана отырып, спикердің өзгерістерін анықтау мәселесін шешудің жаңа әдісін әзірлеу. Бағалау көрсеткіштеріне негізделген тиімді нәтижелерді шығаруға қабілетті әдісті құрастыру және оны бағдарламалық кітапханасы түрінде енгізу. Методы исследования (на русском) : Для выполнения цели и задач исследования на каждом этапе работы применяются различные методы и подходы, например: анализ различных концепций и методов формирования векторных представлений речевого сигнала, теории настройки и оптимизации параметров вычислительных моделей, выбор функций потерь, сравнение классических методов, анализ аудио признаков, подготовка новых алгоритмов и сравнение их результатов. Методы исследования (на казахском) : Осы зерттеудің мақсаты мен міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылады, мысалы: дыбыстық сигналдың векторлық көріністерін құрудың әртүрлі тұжырымдамалары мен әдістерін талдау, параметрлерді баптау және оңтайландыру теориялары. есептеу модельдері, шығын функцияларды таңдау, Классикалық әдістерді салыстыру, аудио ерекшеліктерін талдау, жаңа алгоритмдер дайындау және нәтижелерін салыстыру. Obtained results and novelty (in Russian) : Полученные результаты и новизна: Исследованы концепции и методы задачи обнаружения смены спикера. Подготовлены корпуса аудиоданных с размеченными речевыми сигналами для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и особенностей речи в качестве векторного представления речевого сигнала. Создана библиотека на Python, состоящая из новых алгоритмов и моделей для обнаружения смены спикера, на основе которой опубликованы соответствующие научные статьи. Все полученные результаты являются новыми. Obtained results and novelty (in Kazakh) : Сөйлеушінің өзгерістерін анықтау мәселесінің тұжырымдамалары мен әдістері зерттеледі. Үлгілерді құрастыруды және оқытуды жеңілдету үшін таңбаланған сөйлеу сигналдары бар аудио деректер корпустары дайындалды. Дыбыстық сигналдың векторлық көрінісі ретінде сөйлеудің қасиеттері мен ерекшеліктерін талдауды зерттеу нәтижелері алынды. Сөйлеушінің өзгерістерін анықтау үшін жаңа алгоритмдер мен модельдерден тұратын python кітапхана жасалды, соның негізінде қатысты ғылыми мақалалар жарияланды. Барлық алынған нәтижелер жаңа. The main constructive and technical economic indicators (in Russian) : Основные показатели — определение качества полученных решений в результате применения разработанных методов и сравнительных результатов, новые концепции, алгоритмы машинного обучения и оптимизации. The main constructive and technical economic indicators (in Kazakh) : Негізгі көрсеткіштер - құрастырылған әдістер мен салыстырмалы нәтижесінде алынған шешімдердің сапасын анықтау, жаңа тұжырымдамалар, машиналық оқыту және оңтайландыру алгоритмдері. Level of implementation (in Russian) : Результаты проекта были представлены в виде общедоступной библиотеки программного обеспечения с открытым исходным кодом на платформе GitHub. Разработанные методы и подходы были опубликованы в виде открытых исследовательских статей, а их результаты также были распространены в научном сообществе посредством публикаций и участия в международных конференциях. Level of implementation (in Kazakh) : Жобаның нәтижелері GitHub платформасында жалпыға қолжетімді ашық бастапқы кодты бағдарламалық кітапхана ретінде енгізілді. Әзірленген әдістер мен тәсілдер ғылыми зерттеулер мен оның нәтижелері ашық мақала ретінде жарық көрді, сондай-ақ ғылыми қауымдастық арасында басылымдар мен халықаралық конференцияларға қатысу арқылы таратылды. Efficiency (in Russian) : Разработанные методы экспериментально проверены на корпусе аудиоданных. Получены количественные оценки, подтверждающие применимость разработанных концепций и показателей для задачи SCD. Efficiency (in Kazakh) : Әзірленген әдістер деректер жинағында эксперименталды түрде тексерілді. SCD мәселесі үшін әзірленген тұжырымдамалар мен көрсеткіштердің қолданылуын растайтын сандық бағалаулар алынды. Field of application (in Russian) : Теоретические результаты данного проекта могут быть широко использованы другими исследователями: они эффективны не только при обработке аудиосигналов, но и в других задачах, связанных с временными рядами и машинным обучением. Алгоритмы, реализованные в библиотеке с открытым исходным кодом, доступны разработчикам программного обеспечения в научной и промышленной сфере. Предлагаемая библиотека готова к практическому применению в задачах обработки аудиозаписей многоканальных совещаний. Field of application (in Kazakh) : Осы жобаның ғылыми-теориялық нәтижелерін өзге зерттеушілер де кеңінен пайдалана алады: олар тек дыбыстық сигналдарды өңдеуде ғана емес, сондай-ақ басқа уақыттық қатарлар мен машиналық оқытуға қатысты міндеттерде де тиімді. Ашық бастапқы кодты кітапханада іске асырылған алгоритмдер ғылым мен өнеркәсіп салаларындағы бағдарлама әзірлеушілеріне қолжетімді. Ұсынылған кітапхана көп сөйлеушілі жиналыс аудиосын өңдеу міндеттерінде практикалық қолдануға дайын.
UDC indices
004.89
International classifier codes
20.01.00; 20.00.00; 20.53.00;
Readiness of the development for implementation
Key words in Russian
Обнаружение смены диктора; Иерархические алгоритмы самообучения; Векторное представление звукового сигнала; Кластеризация; Диаризация; Эвристическая оптимизация;
Key words in Kazakh
Сөйлеуші ауысуын анықтау; Иерархиялық өзін-өзі оқыту алгоритмдері; Дыбыстық сигналдың векторлық көрінісі; Кластерлеу; Диаризация; Эвристикалық оңтайландыру;
Head of the organization	Бектемесов Мактагали Абдимажитович	Academic degree/title: Доктор физико-математических наук / профессор
Head of work	Жұмажанов Бағашар Жұмажанұлы	Academic degree/title : Кандидат технических наук / нет
Native executive in charge	Төлеу Алымжан	Academic degree/title: Researcher

Eng

Қаз

Рус