Inventory number IRN Number of state registration
0225РК00786 BR21882268-OT-25 0123РК01142
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 1
Implemented
Publications
Native publications: 1
International publications: 11 Publications Web of science: 5 Publications Scopus: 10
Number of books Appendicies Sources
1 7 30
Total number of pages Patents Illustrations
103 0 17
Amount of funding Code of the program Table
243823687.4 Ф.1165 11
Code of the program's task under which the job is done
01
Name of work
Автоматическое построение мультиязычной онтологии для расширения применимости казахского языка на основе передовых интеллектуальных технологий.
Report title
Type of work Source of funding The product offerred for implementation
Fundamental Метод, способ
Report authors
Мусабаев Рустам Рафикович , Төлеу Алымжан , Красовицкий Александр Михайлович , Барахнин Владимир Борисович , Ахметов Искандер Рафаилович , Төлеген Гүлмира , Козбагаров Олжас Барлыкович , Мусабаев Равиль Рафикович , Ибраймова Айнур Туребековна , Жұлдузбайұлы Нұрбақыт , Кульдеев Нұрсұлтан Ержанұлы , Меркебаев Азат Галымжанулы ,
0
0
0
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

Объектом исследования являются методы построения мультиязычного управляемого тезауруса отраслевых терминов для формирования терминологического ядра онтологии NLP. В частности, фокус делается на алгоритмах и подходах, используемых для извлечения и структурирования знаний из текстов на разных языках, включая казахский.

Зерттеу объектісі NLP онтологиясының терминологиялық өзегін қалыптастыру үшін салалық терминдердің көптілді басқарылатын тезаурус құру әдістері. Атап айтқанда, әртүрлі тілдердегі, соның ішінде қазақ тіліндегі мәтіндерден білімді экстрациялау және құрылымдау үшін қолданылатын алгоритмдер мен тәсілдерге назар аударылады.

Целью данной работы является разработка средств автоматизированного наполнения контента интеллектуального информационного ресурса NLP, что подразумевает создание и внедрение эффективных алгоритмов и технологий, способных обрабатывать и анализировать большие объемы текстовых данных на разных языках для извлечения полезной информации и знаний для заданной предметной области.

Жұмыстың мақсаты NLP интеллектуалды ақпараттық ресурсының мазмұнын автоматтандырылған толтыру құралдарын әзірлеу, соған арналған тиімді алгоритмдер мен технологияларды құру. Бұл берілген пәндік салаға арналған білім және әртүрлі тілдердегі үлкен көлемдегі мәтіндік деректерді өңдеуге және талдауға қабілетті.

Для достижения цели и решения задач исследования на каждом этапе работы использовались различные методы и подходы, такие как алгоритмы обработки естественного языка, семантический анализ и извлечение знаний, техники векторного представления слов и текста, методы автоматического построения и обогащения мультиязычного управляемого тезауруса отраслевых терминов с целью формирования терминологического ядра онтологии NLP.

Мақсатқа жету және зерттеу міндеттерін шешу үшін жұмыстың әр кезеңінде табиғи тілді өңдеу алгоритмдері, семантикалық талдау және білімді экстрациялау, сөздер мен мәтінді векторлық бейнелеу әдістері, автоматты түрде құру сияқты әртүрлі әдістер мен тәсілдер қолданылды. Сонымен қатар, NLP онтологиясының терминологиялық өзегін қалыптастыру үшін салалық терминдердің көптілді бақыланатын тезаурусын дамыту.

В рамках проекта за отчётный период достигнуты значительные результаты. Была проведена опытная эксплуатация интеллектуального информационного ресурса NLP, анализ и оптимизация поисковой и навигационной составляющей ресурса. Разработанна методика разметки параллельных текстов на основе стандартов, используемых в современной компьютерной лингвистике для автоматизации излечения именованных сущностей и обучении языковых моделей. Разработан мультиязычный семантический словарь слов (и словосочетаний), используемых в текстах для выражения отсылки (референции). Создан информационный ресурс, предоставляющий доступ к размеченным корпусам текстов широкому кругу пользователей и предоставляющего справочный материал. Осуществлено изучение теоретических и практических основ составления многоязычных тезаурусов, необходимых для использования в МТ (Machine Translation) и CAT (Computer-Aided Translation) видах перевода. Произведено документирование языкового материала для составления полиязычного интероперабельного тезауруса. Разработан алгоритм составления многоязычного управляемого тезауруса отраслевых терминов. Важным итогом стало также опубликование статей в высокорейтинговых научных журналах, включённых в базы данных Web of Science и Scopus, а также в изданиях, рекомендованных КОКНВО. Все задачи проекта соответствуют современным научным стандартам и обладают высокой степенью новизны.

Жоба аясында есептік кезеңде елеулі нәтижелерге қол жеткізілді. NLP зияткерлік ақпараттық ресурсының тәжірибелік пайдалануы, сондай-ақ ресурстың іздеу және навигациялық құрамдастарын талдау мен оңтайландыру жүргізілді. Қазіргі компьютерлік лингвистикада қолданылатын стандарттарға негізделген параллель мәтіндерді белгілеу әдістемесі әзірленді — ол атаулы нысандарды автоматты түрде анықтау және тілдік модельдерді оқыту үдерісін автоматтандыруға бағытталған. Мәтіндердегі сілтемелік мағыналарды (референцияларды) білдіретін сөздер мен сөз тіркестеріне арналған көптілді семантикалық сөздік жасалды. Белгіленген мәтін корпустарына кең пайдаланушылар тобына қолжеткізуді қамтамасыз ететін және анықтамалық материал ұсынатын ақпараттық ресурс құрылды. МТ (Machine Translation) және CAT (Computer-Aided Translation) түріндегі аудармаларда қолдануға қажетті көптілді тезаурустарды құрастырудың теориялық және практикалық негіздері зерттелді. Полиязықты өзара әрекеттесімді тезаурус дайындау үшін тілдік материалдар жүйелендірілді. Салалық терминдердің көптілді басқарылатын тезаурусын құрастыру алгоритмі әзірленді. Маңызды нәтижелердің бірі — Web of Science және Scopus деректер базаларына енгізілген жоғары рейтингілік ғылыми журналдарда, сондай-ақ КОКНВО ұсынған басылымдарда мақалалардың жариялануы болды. Жобаның барлық міндеттері заманауи ғылыми стандарттарға сәйкес келеді және жоғары жаңалық дәрежесіне ие.

Ключевые показатели: результаты разработки алгоритма составления многоязычного управляемого тезауруса отраслевых терминов (раздел 7).

Негізгі көрсеткіштер: салалық терминдердің көптілді басқарылатын тезаурусын құру алгоритмінің әзірлеу нәтижелері (7-бөлім).

В октябре 2025 года в Институте языкознания имени Ахмета Байтурсынова был внедрён интеллектуальный информационный ресурс NLP, предназначенный для хранения, обработки и предоставления доступа к лингвистическим данным и моделям. Система оснащена удобным веб-интерфейсом, обеспечивающим эффективный поиск и навигацию, прошла опытную эксплуатацию и последующую оптимизацию. Внедрение ресурса оказывает положительное влияние на различные сферы: экономическую — за счёт повышения эффективности научных исследований и сокращения затрат, социальную — благодаря расширению доступа к языковым технологиям и развитию многоязычной цифровой среды, а также экологическую — за счёт цифровизации процессов и сокращения использования физических носителей информации. Доступ к системе предоставляется в онлайн-режиме.

2025 жылдың қазан айында Ахмет Байтұрсынұлы атындағы Тіл білімі институтында тілдік деректер мен үлгілерді сақтау, өңдеу және оларға қол жеткізуді қамтамасыз ететін интеллектуалды ақпараттық NLP ресурсы енгізілді. Жүйе тиімді іздеу мен навигацияны қамтамасыз ететін ыңғайлы веб-интерфейспен жабдықталған, тәжірибелік пайдалану кезеңінен өтіп, кейіннен оңтайландырылды. Ресурстың енгізілуі түрлі салаларға оң әсерін тигізеді: экономикалық тұрғыдан — ғылыми зерттеулердің тиімділігін арттыру және шығындарды азайту есебінен; әлеуметтік тұрғыдан — тілдік технологияларға қолжетімділікті кеңейту және көптілді цифрлық ортаны дамыту арқылы; экологиялық тұрғыдан — процестерді цифрландыру және ақпараттың физикалық тасығыштарын пайдалануды қысқарту есебінен. Жүйеге қолжетімділік онлайн режимінде қамтамасыз етіледі.

Разработанные методы и алгоритмы обладают достаточной степенью эффективности и проверены на уровне проведённых экспериментов.

Жасалған әдістер мен алгоритмдер жеткілікті тиімділік дәрежесіне ие және тәжірибе деңгейінде тексерілді.

Обработка текстов на естественном языке.

Табиғи тілдегі мәтінді өңдеу.

UDC indices
004.082
International classifier codes
20.19.00;
Readiness of the development for implementation
Key words in Russian
искусственный интеллект; машинное обучение; построение онтологий; эмбеддинги; методы оптимизации; обнаружение знаний;
Key words in Kazakh
жасанды интеллект; машиналық оқыту; онтологияны құру; эмбеддинг репрезентациясы; озық оңтайландыру әдістері; білімді сүзгілеу;
Head of the organization Кульдеев Ержан Итеменович Кандидат геолого-минералогических наук / профессор
Head of work Мусабаев Рустам Рафикович Кандидат технических наук / ассоциированный профессор (доцент)
Native executive in charge Төлеу Алымжан Researcher