Inventory number IRN Number of state registration
0325РК01235 AP22787186-KC-25 0124РК00202
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 2 Publications Web of science: 1 Publications Scopus: 2
Patents Amount of funding Code of the program
0 29999558.6 AP22787186
Name of work
Разработка интеллектуальной системы для эффективного извлечения научных терминов и семантических связей с применением NLP
Type of work Source of funding Report authors
Applied Тұрдалыұлы Мұса
0
0
0
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Системы автоматической обработки текстовой информации на казахском и русском языках, использующие методы машинного обучения.

Машиналық оқыту әдістерін қолданатын қазақ және орыс тілдеріндегі мәтіндік ақпараттарды автоматты өңдеуге арналған жүйелер.

Цель - разработать методы и технологии для интеллектуального анализа текстовых данных на разных языках и в разных областях знаний. Это включает извлечение информации, связывание текстовых сущностей с базами знаний, использование машинного обучения, для научных исследований, лингвистике и разработке интеллектуальных систем.

Жобаның мақсаты әртүрлі тілдердегі және білімнің әртүрлі салаларындағы мәтіндік деректерді интеллектуалды талдау әдістері мен технологияларын әзірлеу. Бұған ақпаратты алу, мәтін нысандарын білім базасымен байланыстыру, ғылыми зерттеулер, лингвистика және интеллектуалды жүйелерді дамыту үшін машиналық оқытуды пайдалану кіреді.

Для распознавания и извлечения терминов на рассмотренных языках использовался метод обнаружения упоминаний терминов на основе слабо контролируемого обучения (weakly supervised learning), не зависящий от области знаний, а также применялись модели tok2vec (spaCy) и LLaMA-3.1. Разработаны подходы на основе one-shot learning и cross-lingual transfer learning с использованием подхода prompt engineering. Также создан метод ансамблирования моделей BERT и DeepPavlov с эвристическими правилами. Оценка качества выполнялась на основе общепринятых метрик: точности (precision), полноты (recall) и F-меры (F-score). Для оценки качества разметки данных применялась стандартная метрика inter-annotater agreement (IAA) – каппа Коэна. Для сбора частотных словарей терминов использовались лингвистические и статистические методы.

Қарастырылып отырған тілдердегі терминдерді тану және алу үшін білім саласына тәуелсіз, нашар бақыланатын оқытуға (weakly supervised learning) негізделген термин сөздерді анықтау әдісі, сонымен қатар tok2vec (spaCy) және LLaMA-3.1 модельдері қолданылды. Prompt Engineering тәсілін қолдана отырып, One-shot Learning және Cross-lingual Transfer Learning-ке негізделген тәсілдер әзірленді. Сондай-ақ, BERT және DeepPavlov модельдерін эвристикалық ережелермен ансамбльдеу әдісі құрылды. Сапаны бағалау жалпы қабылданған көрсеткіштер негізінде орындалды, олар: дәлдік (precision), толықтық (recall) және F-өлшемі (F- score). Деректерді белгілеу сапасын бағалау үшін стандартты Inter-annotater Agreement (IAA) метрикасы - Коэн каппасы таңдалды. Терминдердің жиілік сөздіктерін жинау үшін лингвистикалық және статистикалық әдістер қолданылды.

Выполнена разметка для аспектного анализа научных текстов для четырех областей знаний и двух языков. Коллекция включает 412 научных текстов с разметкой 7 типов аспектов (AIM, MATERIAL, METHOD, TASK, TOOL, RESULT, USAGE); казахскоязычная часть содержит 2027 аспектов, русскоязычная – 2129. Разработана методика подготовки и разметки данных для задачи связывания терминов в неструктурированных текстах с графом знаний. Исследованы архитектуры нейронных сетей для извлечения семантических отношений в постановке few-shot learning и/или zero-shot learning с различными подходами к сэмплированию данных. Предложен и реализован метод извлечения отношений между сущностями с применением кросс-языкового обучения моделей (cross-lingual transfer learning). Результаты показали эффективность рассмотренных моделей (BERT, E5, R-BERT, Relation E5) в задаче классификации отношений в обоих сценариях: fully supervised (русский → русский, 68,7% лучшее значение F1-меры) и cross-lingual zero-shot (русский → казахский, 64% лучшее значение F1-меры). Предложен и реализован новый метод связывания терминов с базой знаний на основе модели gpt-oss-120b. Исследованы архитектуры нейронных сетей для извлечения аспектов из текстов на казахском и русском языках. Предложены оригинальные методы для извлечения аспектов из научных текстов на казахском и русском языках на основе архитектуры BERT (mBERT и XLM-RoBERTa).

Білімнің төрт саласы мен екі тіл бойынша ғылыми мәтіндерді аспектілік талдау арқылы таңбалау жүргізілді. Жинаққа 7 аспект түрін (AIM, MATERIAL, METHOD, TASK, TOOL, RESULT, USAGE) белгілейтін 412 ғылыми мәтін кіреді; қазақ тіліндегі бөлігінде 2027 аспект, ал орыс тіліндегі бөлігінде 2129 аспект бар. Құрылымдалмаған мәтіндердегі терминдерді білім графигімен байланыстыру тапсырмасы үшін деректерді дайындау және таңбалау әдістемесі әзірленді. Деректерді іріктеудің әртүрлі тәсілдері бар few-shot learning және/немесе zero-shot learning жағдайларында семантикалық қатынастарды алу үшін нейрондық желі архитектуралары зерттелді. Тіларалық модельдік оқытуды (cross-lingual transfer learning) пайдалана отырып, субъектілер арасындағы қатынастарды алу әдісі ұсынылды және жүзеге асырылды. Нәтижелер қарастырылған модельдердің (BERT, E5, R-BERT, Relation E5) екі сценарийде де қатынас жіктеу тапсырмасында тиімділігін көрсетті: fully supervised (орыс тілі → орыс тілі, 68,7% ең жақсы F1-өлшеуі) және cross-lingual zero-shot (орыс тілі → қазақ тілі, 64% ең жақсы F1-өлшеуі). Gpt-oss-120b моделіне негізделген білім базасына терминдерді байланыстырудың жаңа әдісі ұсынылды және жүзеге асырылды. Қазақ және орыс тілдеріндегі мәтіндерден аспектілерді алудың нейрондық желі архитектуралары зерттелді. BERT архитектурасына (mBERT және XLM-RoBERT) негізделген қазақ және орыс тілдеріндегі ғылыми мәтіндерден аспектілерді алудың түпнұсқа әдістері ұсынылды.

Ожидаемый экономический и научно-технический эффект на уровне государства состоит в создании автоматических средств, качественных методик и технологий для извлечения информации из больших коллекций текстовых документов на различных языках по разным областям знаний.

Жұмыстың тиімділігі әртүрлі білім салаларындағы әртүрлі тілдердегі мәтіндік құжаттардың үлкен жинақтарынан ақпаратты алудың автоматты құралдарын, жоғары сапалы әдістері мен технологияларын жасаудан тұрады.

Внедрение результатов проекта находится на стадии разработки

Жоба нәтижелерін ендіруді іске асыру әзірлену үстінде

Эффективность работы состоит в создании автоматических средств, качественных методик и технологий для извлечения информации из больших коллекций текстовых документов на различных языках по разным областям знаний.

Жұмыстың тиімділігі әртүрлі білім салаларындағы әртүрлі тілдердегі мәтіндік құжаттардың үлкен жинақтарынан ақпаратты алудың автоматты құралдарын, жоғары сапалы әдістері мен технологияларын жасаудан тұрады.

1) будут использоваться в рекомендательных и экспертных системах, в системах автоматического реферирования, при составлении терминологических словарей и тезаурусов в различных областях знаний на казахском, русском и английском языках. 2) Основные результаты проекта могут оказать влияние на развитие области искусственного интеллекта, глубокого и машинного обучения, компьютерной лингвистики, повысить качество систем извлечения информации и т.д.

1) ұсынымдық және сараптамалық жүйелерде, автоматты қысқаша мазмұн жасау жүйелерінде, қазақ, орыс және ағылшын тілдерінде әртүрлі білім салаларындағы терминологиялық сөздіктер мен тезаурустарды құрастыруда қолданылады. 2) Жобаның негізгі нәтижелері жасанды интеллект, терең және машиналық оқыту, компьютерлік лингвистика салаларының дамуына, ақпаратты алу жүйелерінің сапасын арттыруға және т.б. әсер етуі мүмкін.

UDC indices
004.912
International classifier codes
28.23.00; 28.23.37; 28.23.29; 28.23.39;
Key words in Russian
Извлечение информации; Автоматическая обработка текстов; Распознавание сущностей; Методы глубокого обучения; Перенос обучения; Извлечение отношений; Слабо контролируемое обучение; Языковые модели; Граф знаний;
Key words in Kazakh
Ақпаратты алу; Мәтінді автоматты түрде өңдеу; Нысанды тану; Терең оқыту әдістері; Оқытуды алмастыру; Қарым-қатынасты алу; Әлсіз бақыланатын оқыту; Тілдік модельдер; Білім графы;
Head of the organization Бектемесов Мактагали Абдимажитович Доктор физико-математических наук / профессор
Head of work Тұрдалыұлы Мұса Доктор PhD / Ассоциированный профессор