Inventory number IRN Number of state registration
0321РК00224 AP08053085-KC-21 0120РК00134
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 18715774.16 AP08053085
Name of work
Разработка неконтролируемых методов и алгоритмов распознавания речи на основе не выровненных аудио и текстовых данных
Type of work Source of funding Report authors
Applied Есенбаев Жандос Аманбаевич
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient National Laboratory Astana
Abstract

Объектами исследования данного проекта являются аудио и текстовые данные на казахском и английском языках, а также современные методы и алгоритмы их обработки и анализа.

Бұл жобаның зерттеу нысандары - қазақ және ағылшын тілдеріндегі аудио және мәтіндік мәліметтер, сондай-ақ оларды өңдеу мен талдаудың заманауи әдістері мен алгоритмдері.

Целью данного проекта является разработка неконтролируемых методов и алгоритмов для распознавания речи на основе не выровненных аудио и текстовых данных.

Бұл жобаның мақсаты - реттелмеген аудио және мәтіндік деректер негізінде сөйлеуді танудың бақыланбайтын әдістері мен алгоритмдерін құру.

В данной работе используются методы машинного обучения без учителя, искусственные нейронные сети и топологические методы для анализа и обработки аудио и текстовых данных.

Бұл жұмыста аудио және мәтіндік деректерді талдау және өңдеу үшін бақыланбайтын машиналық оқыту әдістер, жасанды нейрондық желілер және топологиялық әдістер қолданылады.

За отчетный период мы провели предварительную работу по топологическому анализу аудио и текстовых данных для неконтролируемой обработки аудио и текстов. Работа основана на предположении, что частоты и контекстные отношения фонем аналогичны в акустической и текстовой областях для одного и того же языка. Соответственно, это позволило создать отображение между этими пространствами, которое учитывает их геометрическую структуру. В качестве первого этапа были выбраны генеративные методы, основанные на вариационных автокодерах, для отображения аудио и текстовые данные в скрытое векторное пространство. На следующем этапе использованы методы персистентной гомологий для анализа топологической структуры двух пространств. Хотя полученные результаты подтверждают идею сходства двух пространств, необходимы дальнейшие исследования, чтобы правильно сопоставить акустические и текстовые пространства, а также оценить реальный эффект включения топологической информации в процесс обучения автокодировщика. Кроме того, нами было разработано программное обеспечение в виде веб-приложения для визуализации акустических и текстовых данных.

Есеп беру кезеңінде аудио мен мәтінді бақылаусыз өңдеу үшін аудио және мәтіндік деректерді топологиялық талдау бойынша алдын ала жұмыстар жүргіздік. Жұмыс фонемалардың жиіліктері мен контекстік байланыстары бір тілге арналған акустикалық және мәтіндік домендерде ұқсас деген болжамға негізделген. Тиісінше, бұл олардың геометриялық құрылымын ескеретін осы кеңістіктер арасында карта құруға мүмкіндік берді. Бірінші қадам ретінде дыбыстық және мәтіндік деректерді жасырын векторлық кеңістікке салыстыру үшін вариациялық автоматты кодерлерге негізделген генеративті әдістер таңдалды. Келесі кезеңде екі кеңістіктің топологиялық құрылымын талдау үшін тұрақты гомология әдістері қолданылады. Алынған нәтижелер екі кеңістіктің ұқсастығы туралы идеяны растағанымен, акустикалық және мәтіндік кеңістіктерді дұрыс сәйкестендіру үшін, сонымен қатар топологиялық ақпаратты автокодердің оқу процесіне қосудың нақты әсерін бағалау үшін қосымша зерттеулер қажет. Сонымен қатар, біз акустикалық және мәтіндік деректерді визуализациялауға арналған веб-қосымша түрінде бағдарламалық қамтамасыз етуді әзірледік.

Процесс вычисления занимает для аудио данных до 3 часов, а для тестовых данных – до 1.5 часа.

Есептеу процесі аудио деректер үшін 3 сағатқа дейін және сынақ деректері үшін 1,5 сағатқа дейін созылады.

Полученные результаты и разработанные программы могут быть востребованы в разработке систем автоматического распознавания речи и анализа многомерных данных.

Алынған нәтижелер мен әзірленген бағдарламалар сөйлеуді автоматты түрде тану мен көпөлшемді деректерді талдаудың жүйесін жасауда сұранысқа ие болуы мүмкін.

UDC indices
519.765
International classifier codes
16.31.21; 28.23.37;
Key words in Russian
акустическое моделирование; языковое моделирование; вложения слов; топологический анализ данных; симплициальные комплексы; персистентные гомологии; персистентные диаграммы;
Key words in Kazakh
акустикалық модельдеу; тілдік модельдеу; сөздердің ендірілуі; топологиялық деректерді талдау; симплициалдық комплекстер; персистентті гомологиялар; персистентті диаграммалар;
Head of the organization Сарбасов Дос Джурмаханбет Ph.D. / профессор
Head of work Есенбаев Жандос Аманбаевич PhD in Computer Science / нет