Inventory number IRN Number of state registration
0224РК00446 BR21882268-OT-24 0123РК01142
Document type Terms of distribution Availability of implementation
Промежуточный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 7 Publications Web of science: 2 Publications Scopus: 7
Number of books Appendicies Sources
1 3 37
Total number of pages Patents Illustrations
78 0 30
Amount of funding Code of the program Table
184268824.5 Ф.1165 5
Code of the program's task under which the job is done
01
Name of work
Автоматическое построение мультиязычной онтологии для расширения применимости казахского языка на основе передовых интеллектуальных технологий.
Report title
Type of work Source of funding The product offerred for implementation
Fundamental Метод, способ
Report authors
Мусабаев Рустам Рафикович , Төлеу Алымжан , Барахнин Владимир Борисович , Красовицкий Александр Михайлович , Төлеген Гүлмира , Мусабаев Равиль Рафикович , Козбагаров Олжас Барлыкович , Кульдеев Нұрсұлтан Ержанұлы , Ибраймова Айнур Туребековна , Меркебаев Азат Галымжанулы , Жұлдузбайұлы Нұрбақыт , Ахметов Искандер Рафаилович ,
0
0
0
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

Объектом исследования являются методы построения мультиязычного управляемого тезауруса отраслевых терминов для формирования терминологического ядра онтологии NLP. В частности, фокус делается на алгоритмах и подходах, используемых для извлечения и структурирования знаний из текстов на разных языках, включая казахский.

Зерттеу объектісі NLP онтологиясының терминологиялық өзегін қалыптастыру үшін салалық терминдердің көптілді басқарылатын тезаурус құру әдістері. Атап айтқанда, әртүрлі тілдердегі, соның ішінде қазақ тіліндегі мәтіндерден білімді экстрациялау және құрылымдау үшін қолданылатын алгоритмдер мен тәсілдерге назар аударылады.

Целью данной работы является разработка средств автоматизированного наполнения контента интеллектуального информационного ресурса NLP, что подразумевает создание и внедрение эффективных алгоритмов и технологий, способных обрабатывать и анализировать большие объемы текстовых данных на разных языках для извлечения полезной информации и знаний для заданной предметной области.

Жұмыстың мақсаты NLP интеллектуалды ақпараттық ресурсының мазмұнын автоматтандырылған толтыру құралдарын әзірлеу, соған арналған тиімді алгоритмдер мен технологияларды құру. Бұл берілген пәндік салаға арналған білім және әртүрлі тілдердегі үлкен көлемдегі мәтіндік деректерді өңдеуге және талдауға қабілетті.

Для достижения цели и решения задач исследования на каждом этапе работы использовались различные методы и подходы, такие как алгоритмы обработки естественного языка, семантический анализ и извлечение знаний, техники векторного представления слов и текста, методы автоматического построения и обогащения мультиязычного управляемого тезауруса отраслевых терминов с целью формирования терминологического ядра онтологии NLP.

Мақсатқа жету және зерттеу міндеттерін шешу үшін жұмыстың әр кезеңінде табиғи тілді өңдеу алгоритмдері, семантикалық талдау және білімді экстрациялау, сөздер мен мәтінді векторлық бейнелеу әдістері, автоматты түрде құру сияқты әртүрлі әдістер мен тәсілдер қолданылды. Сонымен қатар, NLP онтологиясының терминологиялық өзегін қалыптастыру үшін салалық терминдердің көптілді бақыланатын тезаурусын дамыту.

В рамках проекта за отчётный период достигнуты значительные результаты. Были разработаны методы автоматического извлечения названий сущностей для онтологии из текстов на естественном языке, а также проведено их экспериментальное исследование на научных публикациях по NLP. Обновлено терминологическое ядро онтологии NLP, которое теперь включает описания методов, их реализации, предобученные модели и другие информационные ресурсы. Создано специализированное хранилище данных для интеллектуального информационного ресурса NLP и разработаны инструменты для автоматизированного наполнения его контента. Кроме того, был создан пользовательский web-интерфейс, а качество ресурса оценено экспертной группой. Важным итогом стало также опубликование статей в высокорейтинговых научных журналах, включённых в базы данных Web of Science и Scopus, а также в изданиях, рекомендованных КОКНВО. Все задачи проекта соответствуют современным научным стандартам и обладают высокой степенью новизны.

Жоба аясында есепті кезеңде маңызды нәтижелерге қол жеткізілді. Онтологияның атауларын табиғи тілдегі мәтіндерден автоматты түрде алу әдістері әзірленіп, олар бойынша NLP саласындағы ғылыми жарияланымдарда эксперименттік зерттеулер жүргізілді. NLP онтологиясының терминологиялық ядросы жаңартылып, ол енді әдістердің сипаттамаларын, олардың жүзеге асырылуын, алдын ала оқытылған модельдерді және басқа ақпараттық ресурстарды қамтиды. NLP интеллектуалдық ақпараттық ресурсына арналған арнайы деректер қоймасы құрылып, оның мазмұнын автоматтандырылған түрде толтыруға арналған құралдар жасалды. Сонымен қатар, пайдаланушыға арналған веб-интерфейс әзірленіп, ресурстың сапасы сарапшылар тобы арқылы бағаланды. Жобаның маңызды нәтижелерінің бірі ретінде Web of Science және Scopus дерекқорларына енгізілген жоғары рейтингілік ғылыми журналдарда және КОКНВО ұсынған басылымдарда мақалалардың жариялануы болды. Жобаның барлық міндеттері қазіргі ғылыми стандарттарға сәйкес келіп, жоғары жаңашылдық деңгейіне ие.

Ключевые показатели: результаты разработанных методов автоматического извлечения имен сущностей онтологии из текстов на естественном языке (раздел 1).

Негізгі көрсеткіштер: Мәтіндерден табиғи тілдегі онтологияның атау тұлғаларын автоматты түрде алу бойынша әзірленген әдістердің нәтижелері (1-бөлім).

не внедрено

енгізілмейді

Разработанные методы и алгоритмы обладают достаточной степенью эффективности и проверены на уровне проведённых экспериментов.

Жасалған әдістер мен алгоритмдер жеткілікті тиімділік дәрежесіне ие және тәжірибе деңгейінде тексерілді.

Табиғи тілдегі мәтінді өңдеу

Обработка текстов на естественном языке

UDC indices
004.082
International classifier codes
20.19.00;
Readiness of the development for implementation
Key words in Russian
искусственный интеллект; машинное обучение; построение онтологий; эмбеддинги; методы оптимизации; обнаружение знаний;
Key words in Kazakh
жасанды интеллект; машиналық оқыту; онтологияны құру; эмбеддинг репрезентациясы; озық оңтайландыру әдістері; білімді сүзгілеу;
Head of the organization Кульдеев Ержан Итеменович Кандидат геолого-минералогических наук / профессор
Head of work Мусабаев Рустам Рафикович Кандидат технических наук / ассоциированный профессор (доцент)
Native executive in charge Төлеу Алымжан Researcher