Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0322РК00614	AP09058174-KC-22	0121РК00396
Document type	Terms of distribution	Availability of implementation
Краткие сведения	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 0	Publications Web of science: 0	Publications Scopus: 0
Patents	Amount of funding	Code of the program
0	17421947.2	AP09058174
Name of work
Разработка языконезависимых самообучающихся методов смыслового анализа больших массивов текстовых данных
Type of work	Source of funding	Report authors
Applied		Мусабаев Рустам Рафикович
Engineers from production 0 Undergraduates 0 Doctoral students 1 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : Объектом исследования является корпус больших текстовых данных на естественном языке и методы машинного самообучения, применяемые для его смыслового анализа. The object of research, development or design (in Kazakh) : Зерттеу обьектісі – табиғи тілдегі үлкен ауқымды мәтіндік корпустер және оны семантикалық талдау үшін қолданылатын машиналық өзін-өзі оқыту (self-learning) әдістері. Aim of work (in Russian) : Целью данной работы является разработка высокоэффективных самообучающихся алгоритмов смыслового анализа текстовых данных, оптимизированных для применения к Big Data и High Performance Computing. Aim of work (in Kazakh) : Бұл жұмыстың мақсаты - Big Data және High Performance Computing қолданбасы реттінде мәтіндік деректерді семантикалық талдау жасайтын, тиімділігі жоғары және оңтайландырылған өзін-өзі оқыту алгоритмдерін әзірлеу. Методы исследования (на русском) : Для достижения цели и решения задач исследования на каждом этапе работ применялись различные методы и подходы, такие как: компьютерная лингвистика, дистрибутивная семантика, корпусная лингвистика, методы распознавания образов, машинное обучение. Методы исследования (на казахском) : Жұмыстың мақсаты мен оның әр кезеңіндегі зерттеу мәселелерін шешу үшін әртүрлі әдістер мен тәсілдер қолданылды, мысалы: есептеу лингвистикасы, дистрибутивтік семантика, корпус лингвистикасы, үлгіні тану әдістері, машиналық оқыту. Obtained results and novelty (in Russian) : Разработан эффективный алгоритм кластеризации смыслов слов и документов с использованием контекстуализированных представлений. Получены результаты автоматического комбинаторного анализа сочетаемости различных смысловых категорий в рамках документов анализируемого текстового корпуса в режиме самообучения. Разработаны методы анализа динамических характеристик смысловых категорий в рамках анализируемого большого текстового корпуса. Obtained results and novelty (in Kazakh) : Мәтінмәндік бейнелерді пайдалана отырып, сөздер мен құжаттардың мағыналарын кластерлеудің тиімді алгоритмі әзірленді. Өздігінен оқу режимінде талданатын мәтіндік корпустың құжаттарының ішіндегі әртүрлі семантикалық категориялардың үйлесімділігін автоматты түрде комбинаторлық талдау нәтижелері алынды. Талданатын үлкен мәтіндік корпус ішіндегі семантикалық категориялардың динамикалық сипаттамаларын талдау әдістері әзірленді. The main constructive and technical economic indicators (in Russian) : Основными показателями являются новые эффективные языконезависимые самообучающиеся алгоритмы построения контекстно-зависимых эмбеддингов для слов, предложений и документов на основе методов дистрибутивной семантики в рамках концепции Big Data. Осуществлена программная реализация разработанных алгоритмов на языке программирования Python и библиотеки для высокопроизводительных вычислений Numba. The main constructive and technical economic indicators (in Kazakh) : Негізгі көрсеткіштер – жаңа, тиімді, және тілге тәуелсіз өзін-өзі оқыту алгоритмдері. Ол Big Data тұжырымдамасы аясында дистрибутивтік семантика әдістеріне негізделген сөздер, сөйлемдер және құжаттар үшін контекстке сезімтал эмбеддинг құруға арналған. Бағдарламалық қамтамасыз ету жағы, Python бағдарламалау тілінде және Numba атты өнімділігі жоғары есептеулер кітапханасында жүзеге асырылды. Level of implementation (in Russian) : Результаты НИР использованы при разработке единого Unsupervised Natural Language Processing Pipeline. Все выполненные работы направлены на получение единого конечного результата в виде разработанной программной библиотеки. Level of implementation (in Kazakh) : Ғылыми зерттеудің нәтижелері біртұтас Unsupervised Natural Language Processing Pipeline әзірлеуде пайдаланылды. Барлық орындалған жұмыстар әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған. Efficiency (in Russian) : Все разработанные методы были экспериментально апробированы на сформированном наборе больших текстовых данных. Получены численные оценки, подтверждающие эффективность разработанных алгоритмов формирования контекстных эмбеддингов. Efficiency (in Kazakh) : Барлық әзірленген әдістер үлкен мәтіндік деректердің генерацияланған жиынында эксперименталды түрде тексерілді. Контекстік эмбеддинг қалыптастыру үшін әзірленген алгоритмдердің тиімділігін растайтын сандық тексерулер жасалды. Field of application (in Russian) : Разработанные алгоритмы применяются в составе информационных систем автоматического смыслового анализа больших текстовых данных. Field of application (in Kazakh) : Әзірленген алгоритмдер үлкен мәтіндік мәліметтерді автоматты түрде семантикалық талдауға арналған ақпараттық жүйелердің бөлігі ретінде пайдаланылады.
UDC indices
004.93
International classifier codes
28.23.13;
Key words in Russian
компьютерная лингвистика; дистрибутивная семантика; обучение без учителя; кластерный анализ; Big Data; высокопроизводительные вычисления;
Key words in Kazakh
есептеу тіл білімі; дистрибутивтік семантика; бақыланбайтын оқыту; кластерлік талдау; үлкен мәліметтер; жоғары өнімділікті есептеу;
Head of the organization	Мутанов Галимкаир Мутанович	Academic degree/title: Доктор технических наук / профессор
Head of work	Мусабаев Рустам Рафикович	Academic degree/title : Кандидат технических наук / ассоциированный профессор (доцент)

Eng

Қаз

Рус