Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0324РК01709 | AP22787186-KC-24 | 0124РК00202 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 0 | ||||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 3 | ||
Patents | Amount of funding | Code of the program | ||
0 | 29999357.4 | AP22787186 | ||
Name of work | ||||
Разработка интеллектуальной системы для эффективного извлечения научных терминов и семантических связей с применением NLP | ||||
Type of work | Source of funding | Report authors | ||
Applied | Тұрдалыұлы Мұса | |||
0
0
1
1
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||||
Abbreviated name of the service recipient | ИИВТ | |||
Abstract | ||||
Системы автоматической обработки текстовой информации на казахском и русском языках, использующие методы машинного обучения. Машиналық оқыту әдістерін қолданатын қазақ және орыс тілдеріндегі мәтіндік ақпараттарды автоматты өңдеуге арналған жүйелер. Цель - разработать методы и технологии для интеллектуального анализа текстовых данных на разных языках и в разных областях знаний. Это включает извлечение информации, связывание текстовых сущностей с базами знаний, использование машинного обучения, для научных исследований, лингвистике и разработке интеллектуальных систем. Жобаның мақсаты әртүрлі тілдердегі және білімнің әртүрлі салаларындағы мәтіндік деректерді интеллектуалды талдау әдістері мен технологияларын әзірлеу. Бұған ақпаратты алу, мәтін нысандарын білім базасымен байланыстыру, ғылыми зерттеулер, лингвистика және интеллектуалды жүйелерді дамыту үшін машиналық оқытуды пайдалану кіреді. Для распознавания и извлечения терминов на рассмотренных языках использовался метод обнаружения упоминаний терминов на основе слабо контролируемого обучения (weakly supervised learning), не зависящий от области знаний, а также применялись модели tok2vec (spaCy) и LLaMA-3.1. Разработаны подходы на основе one-shot learning и cross-lingual transfer learning с использованием подхода prompt engineering. Также создан метод ансамблирования моделей BERT и DeepPavlov с эвристическими правилами. Оценка качества выполнялась на основе общепринятых метрик: точности (precision), полноты (recall) и F-меры (F-score). Для оценки качества разметки данных применялась стандартная метрика inter-annotater agreement (IAA) – каппа Коэна. Для сбора частотных словарей терминов использовались лингвистические и статистические методы. Қарастырылып отырған тілдердегі терминдерді тану және алу үшін білім саласына тәуелсіз, нашар бақыланатын оқытуға (weakly supervised learning) негізделген термин сөздерді анықтау әдісі, сонымен қатар tok2vec (spaCy) және LLaMA-3.1 модельдері қолданылды. Prompt Engineering тәсілін қолдана отырып, One-shot Learning және Cross-lingual Transfer Learning-ке негізделген тәсілдер әзірленді. Сондай-ақ, BERT және DeepPavlov модельдерін эвристикалық ережелермен ансамбльдеу әдісі құрылды. Сапаны бағалау жалпы қабылданған көрсеткіштер негізінде орындалды, олар: дәлдік (precision), толықтық (recall) және F-өлшемі (F- score). Деректерді белгілеу сапасын бағалау үшін стандартты Inter-annotater Agreement (IAA) метрикасы - Коэн каппасы таңдалды. Терминдердің жиілік сөздіктерін жинау үшін лингвистикалық және статистикалық әдістер қолданылды. Разработана методика разметки данных с подробной инструкцией для аннотаторов, содержащей разбор различных случаев и примеры для четырех областей знаний и двух языков. Собрана коллекция, которая включает 618 научных текстов (2018–2024), опубликованных в журналах, с аннотациями для информационных технологий, лингвистики, медицины и психологии. Коллекция на русском языке содержит 206 текстов (2248 предложений, 49416 токенов), на казахском – 206 текстов (2271 предложение, 45431 токен). Среднее значение каппы Коэна составило 0.73, что указывает на высокую согласованность разметки. Исследованы и адаптированы методы для задачи NER при наличии ограниченного количества данных. Модель spaCy tok2vec показала F1-score от 76.26% до 96.84% по различным наборам данных. Дообучение модели LLaMA-3.1 (8 млрд параметров) выполнялось на казахском, русском и английском языках. Оценка результатов: для казахского языка F1-мера – 0.51, для русского – 0.50, для английского – 0.74. Предложен метод обнаружения терминов на основе one-shot learning, cross-lingual transfer learning и prompt engineering. Примеры и инструкции на английском языке позволили адаптировать модель для автоматической разметки текстов. Разработан метод извлечения терминов, основанный на ансамблировании моделей mBERT и DeepPavlov с эвристиками. Для казахского языка F1-мера составила 0.515, для русского – 0.614. Сформированы частотные словари терминов: 3949 для русского и 4597 для казахского, распределенные по четырем областям знаний. Аннотаторларға арналған егжей-тегжейлі нұсқаулары бар, төрт білім саласы мен екі тілге арналған әртүрлі жағдайларды талдау мен мысалдарды қамтитын деректерді белгілеу нұсқаулығы құрылды. Ақпараттық технологиялар, лингвистика, медицина және психология бойынша аннотациялары бар журналдарда жарияланған 618 ғылыми мәтінді (2018–2024) қамтитын жинақ құрастырылды. Орыс тіліндегі жинақта 206 мәтін (2248 сөйлем, 49416 токен), қазақ тілінде 206 мәтін (2271 сөйлем, 45431 токен) бар. Коэн каппасының орташа мәні 0,73 болды, бұл таңбалаудың жоғары келісімділігін көрсетеді. Шектеулі деректермен NER тапсырмаларына арналған әдістер зерттелді және бейімделді. SpaCy tok2vec модельдері әртүрлі деректер жинақтарында 76,26%-дан 96,84%-ға дейінгі F1-өлшемін көрсетті. LLaMA-3.1 моделін (8 млрд параметр) қосымша оқыту қазақ, орыс және ағылшын тілдерінде орындалды. Нәтижелерді бағалау: қазақ тілі үшін F1-өлшем – 0,51, орыс тілі – 0,50, ағылшын тілі – 0,74. One-shot Learning, Cross-lingual Transfer Learning және Prompt Engineering-ке негізделген терминдерді анықтау әдісі ұсынылды. Ағылшын тіліндегі мысалдар мен нұсқаулар мәтінді автоматты түрде белгілеуге арналған модельді бейімдеуге мүмкіндік берді. Эвристикасы бар mBERT және DeepPavlov үлгілерінің ансамбліне негізделген терминді алу әдісі әзірленді. Нәтижесінде қазақ тілі үшін F1-өлшемі 0,515, орыс тілі үшін – 0,614 болды. Терминдердің жиілік сөздіктері жасалды: орыс тіліне 3949, қазақ тіліне 4597,олар білімнің төрт саласын қамтиды. Ожидаемый экономический и научно-технический эффект на уровне государства состоит в создании автоматических средств, качественных методик и технологий для извлечения информации из больших коллекций текстовых документов на различных языках по разным областям знаний. Мемлекеттік деңгейде күтілетін экономикалық, ғылыми-техникалық нәтиже әртүрлі білім салаларындағы әртүрлі тілдердегі мәтіндік құжаттардың үлкен жинақтарынан ақпаратты алудың автоматты құралдарын, жоғары сапалы әдістері мен технологияларын жасау болып табылады Внедрение результатов проекта находится на стадии разработки Жоба нәтижелерін ендіруді іске асыру әзірлену үстінде Эффективность работы состоит в создании автоматических средств, качественных методик и технологий для извлечения информации из больших коллекций текстовых документов на различных языках по разным областям знаний. Жұмыстың тиімділігі әртүрлі білім салаларындағы әртүрлі тілдердегі мәтіндік құжаттардың үлкен жинақтарынан ақпаратты алудың автоматты құралдарын, жоғары сапалы әдістері мен технологияларын жасаудан тұрады. 1) будут использоваться в рекомендательных и экспертных системах, в системах автоматического реферирования, при составлении терминологических словарей и тезаурусов в различных областях знаний на казахском, русском и английском языках. 2) Основные результаты проекта могут оказать влияние на развитие области искусственного интеллекта, глубокого и машинного обучения, компьютерной лингвистики, повысить качество систем извлечения информации и т.д. 1) ұсынымдық және сараптамалық жүйелерде, автоматты қысқаша мазмұн жасау жүйелерінде, қазақ, орыс және ағылшын тілдерінде әртүрлі білім салаларындағы терминологиялық сөздіктер мен тезаурустарды құрастыруда қолданылады. 2) Жобаның негізгі нәтижелері жасанды интеллект, терең және машиналық оқыту, компьютерлік лингвистика салаларының дамуына, ақпаратты алу жүйелерінің сапасын арттыруға және т.б. әсер етуі мүмкін. |
||||
UDC indices | ||||
004.912 | ||||
International classifier codes | ||||
28.23.00; 28.23.37; 28.23.29; 28.23.39; | ||||
Key words in Russian | ||||
Извлечение информации; Автоматическая обработка текстов; Распознавание сущностей; Методы глубокого обучения; Перенос обучения; Извлечение отношений; Слабо контролируемое обучение; Языковые модели; Граф знаний; | ||||
Key words in Kazakh | ||||
Ақпаратты алу; Мәтінді автоматты түрде өңдеу; Нысанды тану; Терең оқыту әдістері; Оқытуды алмастыру; Қарым-қатынасты алу; Әлсіз бақыланатын оқыту; Тілдік модельдер; Білім графы; | ||||
Head of the organization | Мутанов Галимкаир | Доктор технических наук / профессор | ||
Head of work | Тұрдалыұлы Мұса | Доктор PhD / нет |