Inventory number IRN Number of state registration
0325РК00524 AP22787410-KC-25 0124РК00189
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 2 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 29992108.27 AP22787410
Name of work
Разработка высокопроизводительной вопросно-ответной системы на казахском языке с использованием внешних источников знаний в специализированных областях
Type of work Source of funding Report authors
Applied Шоманов Адай Сакенович
0
0
2
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
"Astana IT University"
Abbreviated name of the service recipient "Astana IT University"
Abstract

Большие языковые модели

Үлкен тілдік модельдер

Повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей.

Көптілді алдын-ала оқытылған үлкен модельдерді дәл баптау және оңтайландыру арқылы қазақ тіліндегі сұрақ-жауап модельдерінің өнімділігін арттыру және олардың бағасын төмендету.

Использована поэтапная методика: адаптация и дообучение предварительно выбранных мультиязычных и казахскоязычных трансформеров на корпусе казахских вопросов с отбором профильных эмбеддингов и конфигураций классификаторов. Проведено сравнительное тестирование моделей для задач определения намерения, эмоциональной окраски и тематической категоризации, обеспечив единый протокол оценки для корректного сопоставления архитектур. Для длинных контекстов применены архитектуры с «памятью» (добавление рекуррентных слоёв к выходам трансформеров, Longformer, внешние банки признаков) с анализом их вклада в устойчивость классификации. Дополнительно выполнены эксперименты в режимах closed-book и Retrieval-Augmented Generation для оценки влияния внешнего контекста на корректность и надёжность ответов.

Кезеңдік тәсіл қолданылды: алдын ала таңдалған көптілді және қазақ тіліндегі трансформаторларды қазақ сұрақтары корпусына бейімдеу және одан әрі оқыту, мамандандырылған ендірулер мен жіктеуіш конфигурацияларын таңдау. Ниетті анықтау, сезім және тақырыптық жіктеу үшін модельдерді салыстырмалы тестілеу жүргізілді, бұл архитектураларды дұрыс салыстыру үшін бірыңғай бағалау хаттамасын қамтамасыз етті. Ұзақ контексттер үшін «жады» бар архитектуралар (трансформатор шығыстарына, Longformer және сыртқы мүмкіндіктер банктеріне қайталанатын қабаттарды қосу) пайдаланылды, олардың жіктеу тұрақтылығына қосқан үлесі талданды. Сонымен қатар, сыртқы контексттің жауаптардың дұрыстығы мен сенімділігіне әсерін бағалау үшін жабық кітапта және іздеу арқылы кеңейтілген генерация режимдерінде эксперименттер жүргізілді.

Разработан и апробирован комплекс методов семантической классификации контекстов вопросов для казахского языка с интеграцией механизмов памяти (Longformer, memory-augmented transformers), что дало прирост точности на 3–5% относительно базовых трансформеров. Выполнен сравнительный анализ мультиязычных и казахских моделей (XLM-R, RoBERTa-Kaz, Llama-1.9B-kaz и др.) для задач определения намерения, эмоциональной окраски и тематики; показана эффективность подходов с привлечением внешнего контекста (RAG) для снижения галлюцинаций и повышения точности ответов. Проведены эксперименты по выбору оптимальных эмбеддингов и их интеграции с классификаторами; результаты подкреплены публикациями на международных конференциях и в журналах.

Қазақ тілі үшін сұрақ контексттерін семантикалық жіктеуге арналған әдістер жиынтығы әзірленіп, сынақтан өткізілді, есте сақтау механизмдерін біріктірді (Longformer, жады кеңейтілген трансформаторлар), нәтижесінде негізгі трансформаторлармен салыстырғанда дәлдік 3-5%-ға артты. Ниетті, эмоционалды бояуды және тақырыпты анықтайтын тапсырмалар үшін көптілді және қазақ модельдерінің (XLM-R, RoBERTa-Kaz, Llama-1.9B-kaz және т.б.) салыстырмалы талдауы жүргізілді. Галлюцинацияларды азайту және жауап дәлдігін арттырудағы сыртқы контекстті (RAG) қамтитын тәсілдердің тиімділігі көрсетілді. Оңтайлы енгізулерді таңдау және оларды жіктеуіштермен біріктіру үшін эксперименттер жүргізілді; нәтижелер халықаралық конференциялар мен журналдардағы жарияланымдармен расталады.

Оптимизирован контур поиска и интегрирован единый RAG-конвейер на базе плотных векторных представлений, пригодный для последующей эксплуатации и оценки качества QA. Проведено сравнение мультиязычных и казахских трансформеров для задач идентификации намерения, эмоциональной окраски и тематики; сформирован технологический стек для воспроизводимой сборки и тестирования. Выбранные решения ориентированы на масштабирование и переносимость: модели дообучаются под доменные корпуса и встраиваются в производственный контур без изменений пользовательских интерфейсов.

Іздеу циклі оңтайландырылды және тығыз векторлық көріністерге негізделген бірыңғай RAG құбыры біріктірілді, ол кейінгі жұмыс істеу және сапаны бағалау үшін жарамды. Көптілді және қазақ тіліндегі трансформаторлар ниет, сезім және субъектіні анықтау тапсырмалары үшін салыстырылды; қайталанатын құрастыру және сынау үшін технологиялық стек жасалды. Таңдалған шешімдер масштабталу мен тасымалдануға бағытталған: модельдер доменге тән корпустар үшін қосымша оқытылады және пайдаланушы интерфейстерін өзгертпей өндірістік құбырға біріктіріледі.

Высокая

Жоғары

Приложения искусственного интеллекта, интеллектуальные информационные системы, человеко-машинные интерфейсы.

Жасанды интеллект қолданбалары, интеллектуалды ақпараттық жүйелер, адам мен машина интерфейстері.

UDC indices
004.855
International classifier codes
28.23.29;
Key words in Russian
Вопросно-ответные системы; Мультиязычные модели; Искусственный интеллект; Языковые модели; Семантические эмбеддинги;
Key words in Kazakh
Сұрақ-жауап жүйелері; Көптілді модельдер; Жасанды интеллект; Тілдік модельдер; Семантикалық кірістірулер;
Head of the organization Ахметов Альтаир Амангельдиевич Кандидат юридических наук /
Head of work Шоманов Адай Сакенович Phd / нет