Inventory number IRN Number of state registration
0322РК00690 AP09259324-KC-22 0121РК00399
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 3 Publications Web of science: 1 Publications Scopus: 1
Patents Amount of funding Code of the program
0 22126881.36 AP09259324
Name of work
Прогрессивное тематическое моделирование на основе кластеризации с применением поиска с чередующимися окрестностями
Type of work Source of funding Report authors
Applied Мусабаев Рустам Рафикович
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования являются тематические модели построенные на основе на основе методов кластеризации с применением поиска с чередующимися окрестностями.

Зерттеу объектісі – өзгермелі көршілес аймақты іздеу (VNS) амалын пайдалана отырып, кластерлік әдістер негізінде құрастырылған тематикалық модельдер.

Цель работы – найти способы решения задач тематического моделирования в форме прогрессивной кластеризации на основе VNS, которая способна давать эффективные результаты при поиске наилучшего локального оптимума среди всех допустимых. Полученные результаты будут независимы как от текстовой разметки, так и от языка, и будут направлены на решение прикладных проблем NLP.

Бұл жобаның мақсаты – тематикалық модельдеу жұмысын VNS негізіндегі (барлық минимумдардың ішіндегі ең жақсы жергілікті минимумды іздестіре алатын қабылетке ие) озық калыстерлеу әдістерімен шешу және соған байланысты жұмыстың тұжырымдамасын қайта құру. Әзірленген алгоритмдер мен модельдер unsupervised learningге жатады және тілге тәуелді болмайды, сонымен қатар тематикалық модельдеу мәселелерін шешеді.

Для достижения цели и решения задач исследования на каждом этапе работ применялись различные методы и подходы, такие как: тематическое моделирование, кластерный анализ, корпусная лингвистика, методы глобальной оптимизации, поиск с чередующимися окрестностями.

Мақсатқа жету және жұмыстың әрбір кезеңінде зерттеу мәселелерін шешу үшін әртүрлі әдістер мен тәсілдер қолданылды, мысалы: тематикалық модельдеу, кластерлік талдау, корпус лингвистикасы, жаһандық оңтайландыру әдістері, – өзгермелі көршілес аймақты іздеу.

Разработаны новые концепции и методы расширенного тематического моделирования. Получены результаты вычислительных экспериментов, направленных на сокращение пространства поиска тематических представлений. Получены результаты исследования и разработки метаэвристических алгоритмов глобальной̆ оптимизации на основе поиска с чередующимися окрестностями внутри предложенной̆ модели. Получены результаты исследования и разработки метаэвристических алгоритмов глобальной̆ оптимизации на основе поиска с чередующимися окрестностями внутри предложенной̆ модели. Проведён сравнительный анализ существующих стандартных алгоритмов кластеризации для тематического моделирования с векторизованными текстовыми представлениями и предложенными прогрессивными моделями. Получены результаты применения интерпретируемых векторных представлений слов/предложений для изучения эффективности векторизации для тематического моделирования. Получены результаты сравнения различных критериев оптимизации и показателей̆ оценки в задаче тематическою моделирования. Все полученные результаты обладают новизной.

Жетілдірілген тақырыпты модельдеудің жаңа тұжырымдамалары мен әдістері әзірленді. Тақырыптық бейнелерді іздеу кеңістігін азайтуға бағытталған есептеу эксперименттерінің нәтижелері алынды. Ұсынылған модель шеңберінде ауыспалы аудандармен іздеу негізінде ғаламдық оңтайландырудың метаэвристикалық алгоритмдерін зерттеу және әзірлеу нәтижелері алынды. Ұсынылған модель шеңберінде ауыспалы аудандармен іздеу негізінде ғаламдық оңтайландырудың метаэвристикалық алгоритмдерін зерттеу және әзірлеу нәтижелері алынды. Векторланған мәтіндік көріністермен тақырыптық модельдеуге арналған қолданыстағы стандартты кластерлеу алгоритмдеріне және ұсынылған прогрессивті модельдерге салыстырмалы талдау жүргізілді. Тақырыптық модельдеу үшін векторизацияның тиімділігін зерттеу үшін сөздердің/сөйлемдердің түсіндірілетін векторлық бейнелерін пайдалану нәтижелері алынды. Тақырыптық модельдеу мәселесінде әртүрлі оңтайландыру критерийлері мен бағалау көрсеткіштерін салыстыру нәтижелері алынды. Барлық алынған нәтижелер жаңа.

Основными показателями являются новые концепции расширенного тематического моделирования, которые включают в себя векторное представление слова/фразы распределительную семантику и n-граммы.

Негізгі көрсеткіштері кеңейтілген тематикалық модельдеудің жаңа тұжырымдамалары, ол сөз/фразаның векторлық ендірмесін, дистрибьюторлық семантиканы және n-граммаларды қамтитын.

Все выполненные работы направлены на получение единого конечного результата в виде разработанной программной библиотеки.

Барлық орындалған жұмыстар бағдарламалық кітапхана түрінде, біртұтас соңғы нәтиже алуға бағытталған.

Все разработанные методы были экспериментально апробированы на сформированном наборе больших текстовых данных. Получены численные оценки, подтверждающие эффективность разработанных концепций расширенного тематического моделирования.

Барлық әзірленген әдістер үлкен мәтіндік деректердің жиынында эксперименталды түрде тексерілді. Кеңейтілген тематикалық модельдеудің әзірленген тұжырымдамаларының тиімділігін бағалайтын сандық бағалар алынды.

Разработанные алгоритмы применяются в составе информационных систем тематического моделирования.

Әзірленген алгоритмдер ақпараттық жүйелердің тематикалық модельдеу бөлігі ретінде пайдаланылады.

UDC indices
004.93
International classifier codes
28.23.13;
Key words in Russian
компьютерная лингвистика; дистрибутивная семантика; обучение без учителя; кластерный анализ; большие данные; высокопроизводительные вычисления; глобальная оптимизация; поиск с чередующимися окрестностями;
Key words in Kazakh
есептеу тіл білімі; дистрибутивтік семантика; бақыланбайтын оқыту; кластерлік талдау; үлкен мәліметтер; жоғары өнімділікті есептеу; глобалдық оптимизациялау; Өзгермелі аймақты іздеу;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Мусабаев Рустам Рафикович Кандидат технических наук / ассоциированный профессор (доцент)