Inventory number IRN Number of state registration
0324РК01285 AP23486904-KC-24 0124РК01023
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 33940771 AP23486904
Name of work
Информационно-контекстный поиск в больших текстовых данных со слабой разметкой.
Type of work Source of funding Report authors
Fundamental Красовицкий Александр Михайлович
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования выступают вычислительные модели и алгоритмы, основанные на методах машинного обучения, с применением оптимизации параметров и гиперпараметров модели для обработки текстовых данных на естественном языке.

Зерттеу объектісі ретінде мәтіндік деректерді табиғи тілде өңдеуге арналған параметрлер мен гиперпараметрлерді оңтайландыруды қолдана отырып, машиналық оқыту әдістеріне негізделген есептеу модельдері мен алгоритмдер қарастырылады.

Цель работы — разработка нового подхода к решению задачи эффективного информационно-контекстного поиска на большом корпусе текстовых данных с помощью машинного обучения. Создание техники, способную давать эффективные результаты по сравнительным метрикам и ее реализация в виде программной библиотеке.

Жұмыстың мақсаты, машиналық оқыту әдістемесінің көмегімен үлкен мәтіндік деректер корпусында тиімді ақпараттық-контекстуалды іздеу мәселесін шешудің жаңа тәсілін әзірлеу. Салыстырмалы метрикалар бойынша тиімді нәтижелер бере алатын әдісті құру және оны бағдарламалық кітапхана түрінде жүзеге асыру.

Для достижения цели и решения задач данного исследования на каждом этапе работ применяются различные методы и подходы, такие как: анализ различных концепций и методов построения векторных представлений текстовых токенов, теории настройки и оптимизации параметров вычислительно моделей, выбор и выделение целевых функций.

Бұл зерттеудің мақсатына қол жеткізу және тапсырмаларды шешу үшін әрбір жұмыс кезеңінде түрлі әдістер мен тәсілдер қолданылады, мысалы: мәтіндік токендердің векторлық көріністерін құрудың әртүрлі концепциялары мен әдістерін талдау, есептеу модельдерінің параметрлерін реттеу және оңтайландыру теориясы, мақсатты функцияларды таңдау және белгілеу.

Изучены концепции и методы общей задачи информационного поиска. Подготовлены корпуса текстовых данных с размеченными ключевыми фразами и слабой разметкой для упрощения построения и обучения моделей. Получены результаты исследования анализа свойств и признаков текстовых токенов как векторных представлений текстовой информации на естественном языке. Все полученные результаты обладают достаточной новизной.

Ақпараттық іздеу жалпы тапсырмасының концепциялары мен әдістері зерттелді. Модельдерді құруды және үйретуді жеңілдету үшін негізгі тіркестер және әлсіз белгілеулермен таңбаланған мәтіндік деректер корпустары дайындалды. Табиғи тілдегі мәтіндік ақпараттың векторлық көріністері ретінде мәтіндік токендердің қасиеттері мен белгілерін талдау нәтижелері алынды. Барлық алынған нәтижелер жеткілікті жаңашылдыққа ие.

Основными показателями являются построенные техники и сравнительные метрики для определения качества получаемых решений, новые концепции, алгоритмы машинного обучения и оптимизации.

Негізгі көрсеткіштер ретінде алынған шешімдердің сапасын анықтау үшін құрылған әдістер мен салыстырмалы метрикалар, жаңа концепциялар, машиналық оқыту және оңтайландыру алгоритмдері болып табылады.

Все выполненные работы направлены на получение единого конечного результата в виде разработанной программного библиотеки, решающей задачу информационно-контекстного поиска.

Барлық орындалған жұмыстар ақпараттық-контекстуалды іздеу мәселесін шешетін әзірленген бағдарламалық кітапхана түріндегі бірыңғай соңғы нәтижені алуға бағытталған.

Разработанные методы были экспериментально апробированы на сформированном наборе данных текстовых корпусов. Имеющиеся численные оценки, подтверждают применимость разработанных концепций и метрик для задачи информационно-контекстного поиска.

Әзірленген әдістер мәтіндік корпустар деректерінің жиынтығында эксперименттік сынақтан өтті. Алынған сандық бағалар әзірленген концепциялар мен метрикалардың ақпараттық-контекстуалды іздеу тапсырмасына қолдануға жарамдылығын растайды.

Разработанные алгоритмы и модели, обученные на подготовленных наборах данных, будут применяться в составе программной библиотеки для эффективного информационно-контекстного поиска.

Дайындалған деректер жиынтықтарында әзірленген алгоритмдер мен модельдерді тиімді ақпараттық-контекстуалды іздеу үшін бағдарламалық кітапхана құрамында қолданылатын болады.

UDC indices
004.82, 004.89
International classifier codes
20.00.00; 20.01.00; 20.53.00; 20.23.00; 20.53.01;
Key words in Russian
кластеризация; обработка естественных языков; машинное обучение; теория оптимизации; LIMA; алгоритмы самообучения;
Key words in Kazakh
кластеризация; тілдің өрлеуі; машин ленинг; оңтайландыру теориясы; LIMA; өзін-өзі қадағалайтын оқыту;
Head of the organization Мутанов Галимкаир Доктор технических наук / профессор
Head of work Красовицкий Александр Михайлович PhD / senior researcher