Inventory number IRN Number of state registration
0321РК00702 AP09058174-KC-21 0121РК00396
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 17059470.2 AP09058174
Name of work
Разработка языконезависимых самообучающихся методов смыслового анализа больших массивов текстовых данных
Type of work Source of funding Report authors
Applied Мусабаев Рустам Рафикович
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования является корпус больших текстовых данных на естественном языке и методы машинного самообучения, применяемые для его смыслового анализа.

Зерттеу обьектісі – табиғи тілдегі үлкен ауқымды мәтіндік корпустер және оны семантикалық талдау үшін қолданылатын машиналық өзін-өзі оқыту (self-learning) әдістері.

Целью данной работы является разработка высокоэффективных самообучающихся алгоритмов смыслового анализа текстовых данных, оптимизированных для применения к Big Data и High Performance Computing.

Бұл жұмыстың мақсаты - Big Data және High Performance Computing қолданбасы реттінде мәтіндік деректерді семантикалық талдау жасайтын, тиімділігі жоғары және оңтайландырылған өзін-өзі оқыту алгоритмдерін әзірлеу.

Для достижения цели и решения задач исследования на каждом этапе работ применялись различные методы и подходы, такие как: компьютерная лингвистика, дистрибутивная семантика, корпусная лингвистика, методы распознавания образов, машинное обучение.

Жұмыстың мақсаты мен оның әр кезеңіндегі зерттеу мәселелерін шешу үшін әртүрлі әдістер мен тәсілдер қолданылды, мысалы: есептеу лингвистикасы, дистрибутивтік семантика, корпус лингвистикасы, үлгіні тану әдістері, машиналық оқыту.

Получены следующие основные результаты: 1) Исследован и разработан метод автоматической идентификации оптимального состава базовых лексических единиц или подсловных единиц для формирования эмбеддингов и решения различных прикладных задач NLP; 2) Получены результаты исследования и разработки новых языконезависимых самообучающихся алгоритмов построения контекстно-зависимых эмбеддингов для слов, предложений и документов на основе методов дистрибутивной семантики в рамках концепции Big Data. 3) Разработан метод автоматической идентификации и самоорганизующейся категоризации смыслов анализируемого языка, представленного большим неразмеченным текстовым корпусом. 4) Разработан метод автоматической идентификации оптимального количества смысловых категорий, представленных в анализируемом текстовом корпусе. 5) Получены результаты по оптимизации разработанных алгоритмов на основе передовых технологий высокопроизводительных вычислений и их инкапсуляция в единую open source библиотеку. Полученные результаты обладают новизной, соответствуют текущему уровню научно-технического развития и основаны на последних достижениях в области обработки данных на естественном языке, дистрибутивной семантики.

Алынған негізгі нәтижелер: 1) Енгізуді қалыптастыру және әртүрлі қолданбалы NLP мәселелерін шешу үшін негізгі лексикалық бірліктердің немесе қосалқы сөз бірліктерінің оңтайлы құрамын автоматты түрде анықтау әдісі зерттелді және әзірленді; 2) Үлкен деректер тұжырымдамасы шеңберінде дистрибутивтік семантика әдістеріне негізделген сөздерге, сөйлемдерге және құжаттарға контекстке тәуелді кірістірулерді құрудың жаңа тілден тәуелсіз өздігінен білім алу алгоритмдерін зерттеу және әзірлеу нәтижелері алынды; 3) Үлкен таңбаланбаған мәтіндік корпуспен ұсынылған талданатын тілдің мағыналарын автоматты түрде анықтау және өздігінен ұйымдастыру категориясына бөлу әдісі әзірленді; 4) Талданатын мәтіндік корпуста ұсынылған семантикалық категориялардың оңтайлы санын автоматты түрде анықтау әдісі әзірленді; 5) Жетілдірілген жоғары өнімді есептеу технологиялары негізінде әзірленген алгоритмдерді оңтайландыру және оларды бір ашық бастапқы кітапханаға инкапсуляциялау бойынша нәтижелер алынды; Алынған нәтижелер жаңа, ғылыми-техникалық дамудың қазіргі деңгейіне сәйкес келеді және табиғи тілде деректерді өңдеу, дистрибутивтік семантика саласындағы соңғы жетістіктерге негізделген.

Основными показателями являются новые эффективные языконезависимые самообучающиеся алгоритмы построения контекстно-зависимых эмбеддингов для слов, предложений и документов на основе методов дистрибутивной семантики в рамках концепции Big Data. Осуществлена программная реализация разработанных алгоритмов на языке программирования Python и библиотеки для высокопроизводительных вычислений Numba.

Негізгі көрсеткіштер – жаңа, тиімді, және тілге тәуелсіз өзін-өзі оқыту алгоритмдері. Ол Big Data тұжырымдамасы аясында дистрибутивтік семантика әдістеріне негізделген сөздер, сөйлемдер және құжаттар үшін контекстке сезімтал эмбеддинг құруға арналған. Бағдарламалық қамтамасыз ету жағы, Python бағдарламалау тілінде және Numba атты өнімділігі жоғары есептеулер кітапханасында жүзеге асырылды.

Результаты НИР использованы при разработке единого Unsupervised Natural Language Processing Pipeline. Все выполненные работы направлены на получение единого конечного результата в виде разработанной программной библиотеки.

Ғылыми зерттеудің нәтижелері біртұтас Unsupervised Natural Language Processing Pipeline әзірлеуде пайдаланылды. Барлық орындалған жұмыстар әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған.

Все разработанные методы были экспериментально апробированы на сформированном наборе больших текстовых данных. Получены численные оценки, подтверждающие эффективность разработанных алгоритмов формирования контекстных эмбеддингов.

Барлық әзірленген әдістер үлкен мәтіндік деректердің генерацияланған жиынында эксперименталды түрде тексерілді. Контекстік эмбеддинг қалыптастыру үшін әзірленген алгоритмдердің тиімділігін растайтын сандық тексерулер жасалды.

Разработанные алгоритмы применяются в составе информационных систем автоматического смыслового анализа больших текстовых данных.

Әзірленген алгоритмдер үлкен мәтіндік мәліметтерді автоматты түрде семантикалық талдауға арналған ақпараттық жүйелердің бөлігі ретінде пайдаланылады.

UDC indices
004.93
International classifier codes
28.23.13;
Key words in Russian
компьютерная лингвистика; дистрибутивная семантика; обучение без учителя; кластерный анализ; Big Data; высокопроизводительные вычисления;
Key words in Kazakh
есептеу тіл білімі; дистрибутивтік семантика; бақыланбайтын оқыту; кластерлік талдау; үлкен мәліметтер; жоғары өнімділікті есептеу;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Мусабаев Рустам Рафикович Кандидат технических наук / ассоциированный профессор (доцент)