Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0321РК00210 | AP09259324-KC-21 | 0121РК00399 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 1 | ||||
International publications: 1 | Publications Web of science: 1 | Publications Scopus: 1 | ||
Patents | Amount of funding | Code of the program | ||
0 | 18587746.6 | AP09259324 | ||
Name of work | ||||
Прогрессивное тематическое моделирование на основе кластеризации с применением поиска с чередующимися окрестностями | ||||
Type of work | Source of funding | Report authors | ||
Applied | Мусабаев Рустам Рафикович | |||
0
0
0
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||||
Abbreviated name of the service recipient | ИИВТ | |||
Abstract | ||||
Объектом исследования являются тематические модели построенные на основе на основе методов кластеризации с применением поиска с чередующимися окрестностями. Зерттеу объектісі – өзгермелі көршілес аймақты іздеу (VNS) амалын пайдалана отырып, кластерлік әдістер негізінде құрастырылған тематикалық модельдер. Цель работы – найти способы решения задач тематического моделирования в форме прогрессивной кластеризации на основе VNS, которая способна давать эффективные результаты при поиске наилучшего локального оптимума среди всех допустимых. Полученные результаты будут независимы как от текстовой разметки, так и от языка, и будут направлены на решение прикладных проблем NLP. Бұл жобаның мақсаты – тематикалық модельдеу жұмысын VNS негізіндегі (барлық минимумдардың ішіндегі ең жақсы жергілікті минимумды іздестіре алатын қабылетке ие) озық калыстерлеу әдістерімен шешу және соған байланысты жұмыстың тұжырымдамасын қайта құру. Әзірленген алгоритмдер мен модельдер unsupervised learningге жатады және тілге тәуелді болмайды, сонымен қатар тематикалық модельдеу мәселелерін шешеді. Для достижения цели и решения задач исследования на каждом этапе работ применялись различные методы и подходы, такие как: тематическое моделирование, кластерный анализ, корпусная лингвистика, методы глобальной оптимизации, поиск с чередующимися окрестностями. Мақсатқа жету және жұмыстың әрбір кезеңінде зерттеу мәселелерін шешу үшін әртүрлі әдістер мен тәсілдер қолданылды, мысалы: тематикалық модельдеу, кластерлік талдау, корпус лингвистикасы, жаһандық оңтайландыру әдістері, – өзгермелі көршілес аймақты іздеу. Получены следующие основные результаты: 1) Разработаны концепции расширенного тематического моделирования, которые включают в себя векторное представление слова/фразы распределительную семантику и n-граммы. 2) Получены результаты исследования алгоритмов обучения интерпретируемым, контекстуализированным векторным представлениям слов/фраз. 3) Подготовлены большие наборы неразмеченных текстовых данных, подходящие для тематического анализа. Получены результаты исследования по сравнению существующих программных инструментов для извлечения тематик из больших корпусов. 4) Получены результаты исследования применения контекстно-зависимых эмбеддингов слов, с последующим анализом структуры данных при помощи подходов кластеризации. 5) Получены результаты концептуального сравнения предложенного метода с существующими. 6) Получены новые алгоритмы обучения на неразмеченных данных (без учителя) для тематического моделирования с помощью кластеризации. 7) Получены предварительные результаты вычислительных экспериментов, направленных на сокращение пространства поиска тематических представлений. 8) Опубликована статья или обзор в рецензируемом зарубежном или отечественном издании, рекомендованном КОКСОН: Kozbagarov, O.; Mussabayev, R.; Mladenovic, N. A New Sentence-Based Interpretative Topic Modeling and Automatic Topic Labeling. Symmetry 2021, 13, 837. https://doi.org/10.3390/sym13050837, (Q2; Impact Factor: 2.713; Percentile = 77) Төмендегі нәтижелерге қол жеткізілді: 1) Кеңейтілген тематикалық модельдеу концепциялары әзірленді, олардың ішінде сөздің/фразаның векторлық ендірмесі, дистрибутивтік семантикасы және n-граммасы қамтиды. 2) Сөздердің/сөз тіркестерінің интерпретацияланған, контекстіктендірілген векторлық ендірмелерін оқыту алгоритмдерін зерттеу бойынша нәтижелері алынды. 3) Тематикалық талдауға жарамды, таңбаланбаған үлкен мәтіндік деректері жинақталып дайындалды. Қолданыстағы бағдарламалық құралдарды салыстыру мақсатында осы дайындалған корпустарда олардың нәтижелері алынды. 4) Контекске тәуелді болып келетін сөздердің эмбеддингін қолдану бойынша зерттеу нәтижелері алынды, сонымен қатар кластерлік тәсілдер арқылы деректер құрылымына талдау жүргізілді. 5) Ұсынылған әдісті қолданыстағы әдістермен тұжырымдамалық жағынан салыстыру бойынша нәтижелері алынды. 6) Unsupervised learning тәсілдерін пайдалынып кластерлеу арқылы тематикалық модельдеудің жаңа алгоритмдерін зерттеліп және әзірленді. 7) Тематикалық бейнелердің іздеу кеңістігін қысқартуға бағытталған есептеу эксперименттері жүргізіліп алғашқы нәтижелер алынды. 8) БҒСБҚК ұсынған рецензияланатын шетелдік және (немесе) отандық басылымда жарйаланға мақала: Kozbagarov, O.; Mussabayev, R.; Mladenovic, N. A New Sentence-Based Interpretative Topic Modeling and Automatic Topic Labeling. Symmetry 2021, 13, 837. https://doi.org/10.3390/sym13050837, (Q2; Impact Factor: 2.713; Percentile = 77) Основными показателями являются новые концепции расширенного тематического моделирования, которые включают в себя векторное представление слова/фразы распределительную семантику и n-граммы. Негізгі көрсеткіштері кеңейтілген тематикалық модельдеудің жаңа тұжырымдамалары, ол сөз/фразаның векторлық ендірмесін, дистрибьюторлық семантиканы және n-граммаларды қамтитын. Все выполненные работы направлены на получение единого конечного результата в виде разработанной программной библиотеки. Барлық орындалған жұмыстар бағдарламалық кітапхана түрінде, біртұтас соңғы нәтиже алуға бағытталған. Все разработанные методы были экспериментально апробированы на сформированном наборе больших текстовых данных. Получены численные оценки, подтверждающие эффективность разработанных концепций расширенного тематического моделирования. Барлық әзірленген әдістер үлкен мәтіндік деректердің жиынында эксперименталды түрде тексерілді. Кеңейтілген тематикалық модельдеудің әзірленген тұжырымдамаларының тиімділігін бағалайтын сандық бағалар алынды. Разработанные алгоритмы применяются в составе информационных систем тематического моделирования. Әзірленген алгоритмдер ақпараттық жүйелердің тематикалық модельдеу бөлігі ретінде пайдаланылады. |
||||
UDC indices | ||||
004.93 | ||||
International classifier codes | ||||
28.23.13; | ||||
Key words in Russian | ||||
компьютерная лингвистика; дистрибутивная семантика; обучение без учителя; кластерный анализ; большие данные; высокопроизводительные вычисления; глобальная оптимизация; поиск с чередующимися окрестностями; | ||||
Key words in Kazakh | ||||
есептеу тіл білімі; дистрибутивтік семантика; бақыланбайтын оқыту; кластерлік талдау; үлкен мәліметтер; жоғары өнімділікті есептеу; глобалдық оптимизациялау; Өзгермелі аймақты іздеу; | ||||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор | ||
Head of work | Мусабаев Рустам Рафикович | Кандидат технических наук / ассоциированный профессор (доцент) |