Inventory number IRN Number of state registration
0325РК00807 AP23486904-KC-25 0124РК01023
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 1 Publications Scopus: 1
Patents Amount of funding Code of the program
0 42950338 AP23486904
Name of work
Информационно-контекстный поиск в больших текстовых данных со слабой разметкой.
Type of work Source of funding Report authors
Fundamental Красовицкий Александр Михайлович
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования являются методы, алгоритмы и вычислительные модели машинного обучения, направленные на извлечение интерпретируемых признаков, построение эвристических алгоритмов и разработку средств визуализации в задачах информационно-контекстного поиска в больших текстовых корпусах со слабой разметкой. Особое внимание уделяется исследованию свойств векторных представлений текстов, их структурной и семантической организации, а также возможностям интерпретации этих представлений на уровне тематических, контекстных и смысловых признаков.

Зерттеу нысаны ретінде ақпараттық-контекстік іздеу (АКІ) міндеттерінде әлсіз белгіленген үлкен мәтіндік корпустарды өңдеуге бағытталған интерпретацияланатын белгілерді шығару, эвристикалық алгоритмдерді құру және визуализация құралдарын әзірлеуге арналған машиналық оқыту әдістері, алгоритмдері мен есептеу модельдері алынады. Ерекше назар мәтіндердің векторлық көріністерінің қасиеттерін, олардың құрылымдық және семантикалық ұйымдасуын, сондай-ақ бұл көріністерді тақырыптық, контекстік және мағыналық деңгейлерде интерпретациялау мүмкіндіктерін зерттеуге аударылады.

Целью работы является создание комплексного подхода к реализации информационно-контекстного поиска, сочетающего интерпретируемые представления текстов, эвристические механизмы извлечения контекста и средства визуализации для анализа и оптимизации распределений векторных признаков. Конечным результатом выступает разработка и внедрение программных инструментов, обеспечивающих повышение эффективности, прозрачности и объяснимости результатов поиска.

Жұмыстың мақсаты - интерпретацияланатын мәтіндік көріністерді, контекстті эвристикалық жолмен шығару тетіктерін және векторлық белгілердің таралуын талдау мен оңтайландыруға арналған визуализация құралдарын біріктіретін ақпараттық-контекстік іздеуді іске асырудың кешенді тәсілін жасау. Соңғы нәтиже ретінде іздеу нәтижелерінің тиімділігін, айқындығын және түсіндірілгіштігін арттыруды қамтамасыз ететін бағдарламалық құралдар әзірленіп, енгізіледі.

В ходе выполнения работ использовались методы факторизации матриц (в частности, неотрицательная матричная факторизация), кластеризации (k-means, иерархическая кластеризация), анализа внимания в трансформерах, а также методы графового представления данных для выявления семантических зависимостей между текстами. Для реализации эвристических алгоритмов применялись большие языковые модели (BERT, GPT, LLaMA и др.) и методы промпт-инженерии в двухуровневых схемах извлечения смысловых блоков. Для визуализации и анализа эмбеддингов использовались методы снижения размерности (UMAP, PCA, t-SNE) и оптимизации топологических отображений, реализованные средствами Python-библиотек.

Жұмысты орындау барысында матрицаларды факторизациялау әдістері (әсіресе, бейтеріс матрицалық факторизация), кластерлеу әдістері (k-means, иерархиялық кластерлеу), трансформерлердегі назар аудару (attention) талдауы, сондай-ақ мәтіндер арасындағы семантикалық тәуелділіктерді анықтау үшін графтық деректерді ұсыну тәсілдері қолданылды. Эвристикалық алгоритмдерді іске асыруда ірі тілдік модельдер (BERT, GPT, LLaMA және т.б.) мен мағыналық блоктарды екі деңгейлі құрылымда шығарып алуға арналған prompt-инжиниринг әдістері пайдаланылды. Эмбеддингтерді талдау және визуализациялау үшін өлшемділікті азайту әдістері (UMAP, PCA, t-SNE) және Python кітапханалары негізіндегі топологиялық бейнелеулерді оңтайландыру тәсілдері қолданылды.

Разработаны и апробированы методы направленные на извлечение интерпретируемых признаков из векторных представлений, позволяющие формировать осмысленные оси смыслового пространства текста. Предложены эвристические алгоритмы машинного обучения, обеспечивающие контекстно-ориентированное извлечение релевантных текстовых фрагментов при слабой разметке данных. Разработаны программные средства визуализации, позволяющие анализировать и оптимизировать структуру эмбеддинговых пространств, выявлять скрытые кластеры и семантические связи. Новизна заключается в комплексном сочетании интерпретируемости, эвристической адаптации и визуальной аналитики для задач информационно-контекстного поиска.

Векторлық көріністерден интерпретацияланатын белгілерді шығарып алуға бағытталған әдістер әзірленіп, апробациядан өтті. Бұл әдістер мәтіннің мағыналық кеңістігіндегі осьтерді саналы түрде құруға мүмкіндік береді. Мәліметтердің әлсіз белгіленуі жағдайында релевантты мәтіндік фрагменттерді контекстке бағдарланған түрде шығарып алуға мүмкіндік беретін машиналық оқытудың эвристикалық алгоритмдері ұсынылды. Эмбеддингтер кеңістігінің құрылымын талдау мен оңтайландыруды, жасырын кластерлер мен семантикалық байланыстарды анықтауды қамтамасыз ететін визуализациялық бағдарламалық құралдар жасалды. Жаңалығы интерпретацияланушылық, эвристикалық бейімделу және визуалды аналитика тәсілдерін кешенді біріктіру арқылы ақпараттық-контекстік іздеу міндеттерін шешуге бағытталғанында.

Созданы и реализованы алгоритмы извлечения признаков, эвристические методы поиска, программные модули визуализации эмбеддингов и оценочные метрики кластерной плотности, разделимости и интерпретируемости. Разработанные инструменты обеспечивают воспроизводимость экспериментов и масштабируемость решений при работе с большими текстовыми корпусами.

Белгілерді шығару алгоритмдері, іздеудің эвристикалық әдістері, эмбеддингтерді визуализациялау бағдарламалық модульдері және кластерлік тығыздық, бөліну мен интерпретацияланушылық көрсеткіштерін бағалау метрикалары жасалды және іске асырылды. Әзірленген құралдар эксперименттердің қайталануын және үлкен мәтіндік корпустармен жұмыс істеу кезінде шешімдердің масштабталуын қамтамасыз етеді.

Разработанные методы и программные средства интегрированы в исследовательскую платформу проекта. Реализована возможность анализа и сравнения различных моделей представления текста, визуального контроля качества эмбеддингов и построения оптимизированных отображений для задач контекстного поиска.

Әзірленген әдістер мен бағдарламалық құралдар жобаның зерттеу платформасына интеграцияланды. Әртүрлі мәтіндік көрініс модельдерін талдау және салыстыру, эмбеддингтердің сапасын визуалды бақылау және контекстік іздеу міндеттеріне арналған оңтайландырылған бейнелеулерді құру мүмкіндігі жүзеге асырылды.

Экспериментальные исследования показали, что предложенные методы позволяют оценить точность и интерпретируемость результатов информационно-контекстного поиска. Имеющиеся численные оценки, подтверждают применимость разработанных концепций и алгоритмов для задачи информационно-контекстного поиска.

Эксперименттік зерттеулер ұсынылған әдістердің ақпараттық-контекстік іздеу нәтижелерінің дәлдігі мен интерпретацияланушылығын бағалауға мүмкіндік беретінін көрсетті. Сандық бағалаулар әзірленген тұжырымдамалар мен алгоритмдердің ақпараттық-контекстік іздеу міндеттеріне қолдануға жарамдылығын дәлелдейді.

Разработанные алгоритмы, методы и программные средства будут применяться для интеллектуального анализа текстовых данных, тематического и контекстного поиска в научных, технических и информационных средах, а также при разработке инструментов объяснимого машинного обучения и семантической аналитики текстов.

Әзірленген алгоритмдер, әдістер және бағдарламалық құралдар мәтіндік деректерді интеллектуалды талдау, ғылыми, техникалық және ақпараттық ортадағы тақырыптық және контекстік іздеу, сондай-ақ түсіндірілетін машиналық оқыту мен мәтіндердің семантикалық аналитикасы құралдарын әзірлеу үшін қолданылады.

UDC indices
004.9, 004.82, 004.89, 004.93'14
International classifier codes
20.00.00; 20.01.00; 20.53.00; 20.23.00; 20.53.01;
Key words in Russian
кластеризация; обработка естественных языков; машинное обучение; теория оптимизации; LIMA; алгоритмы самообучения;
Key words in Kazakh
кластеризация; тілдің өрлеуі; машин ленинг; оңтайландыру теориясы; LIMA; өзін-өзі қадағалайтын оқыту;
Head of the organization Бектемесов Мактагали Абдимажитович Доктор физико-математических наук / профессор
Head of work Красовицкий Александр Михайлович PhD / senior researcher