| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00524 | AP22787410-KC-25 | 0124РК00189 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 1 | ||||
| International publications: 2 | Publications Web of science: 0 | Publications Scopus: 1 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 29992108.27 | AP22787410 | ||
| Name of work | ||||
| Разработка высокопроизводительной вопросно-ответной системы на казахском языке с использованием внешних источников знаний в специализированных областях | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Шоманов Адай Сакенович | |||
|
0
0
2
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | Нет | |||
| Full name of the service recipient | ||||
| "Astana IT University" | ||||
| Abbreviated name of the service recipient | "Astana IT University" | |||
| Abstract | ||||
|
Большие языковые модели Үлкен тілдік модельдер Повышение производительности вопросно-ответных моделей на казахском языке и снижение стоимости их разработки за счет оптимизации и точной настройки больших предобученных мультиязычных моделей. Көптілді алдын-ала оқытылған үлкен модельдерді дәл баптау және оңтайландыру арқылы қазақ тіліндегі сұрақ-жауап модельдерінің өнімділігін арттыру және олардың бағасын төмендету. Использована поэтапная методика: адаптация и дообучение предварительно выбранных мультиязычных и казахскоязычных трансформеров на корпусе казахских вопросов с отбором профильных эмбеддингов и конфигураций классификаторов. Проведено сравнительное тестирование моделей для задач определения намерения, эмоциональной окраски и тематической категоризации, обеспечив единый протокол оценки для корректного сопоставления архитектур. Для длинных контекстов применены архитектуры с «памятью» (добавление рекуррентных слоёв к выходам трансформеров, Longformer, внешние банки признаков) с анализом их вклада в устойчивость классификации. Дополнительно выполнены эксперименты в режимах closed-book и Retrieval-Augmented Generation для оценки влияния внешнего контекста на корректность и надёжность ответов. Кезеңдік тәсіл қолданылды: алдын ала таңдалған көптілді және қазақ тіліндегі трансформаторларды қазақ сұрақтары корпусына бейімдеу және одан әрі оқыту, мамандандырылған ендірулер мен жіктеуіш конфигурацияларын таңдау. Ниетті анықтау, сезім және тақырыптық жіктеу үшін модельдерді салыстырмалы тестілеу жүргізілді, бұл архитектураларды дұрыс салыстыру үшін бірыңғай бағалау хаттамасын қамтамасыз етті. Ұзақ контексттер үшін «жады» бар архитектуралар (трансформатор шығыстарына, Longformer және сыртқы мүмкіндіктер банктеріне қайталанатын қабаттарды қосу) пайдаланылды, олардың жіктеу тұрақтылығына қосқан үлесі талданды. Сонымен қатар, сыртқы контексттің жауаптардың дұрыстығы мен сенімділігіне әсерін бағалау үшін жабық кітапта және іздеу арқылы кеңейтілген генерация режимдерінде эксперименттер жүргізілді. Разработан и апробирован комплекс методов семантической классификации контекстов вопросов для казахского языка с интеграцией механизмов памяти (Longformer, memory-augmented transformers), что дало прирост точности на 3–5% относительно базовых трансформеров. Выполнен сравнительный анализ мультиязычных и казахских моделей (XLM-R, RoBERTa-Kaz, Llama-1.9B-kaz и др.) для задач определения намерения, эмоциональной окраски и тематики; показана эффективность подходов с привлечением внешнего контекста (RAG) для снижения галлюцинаций и повышения точности ответов. Проведены эксперименты по выбору оптимальных эмбеддингов и их интеграции с классификаторами; результаты подкреплены публикациями на международных конференциях и в журналах. Қазақ тілі үшін сұрақ контексттерін семантикалық жіктеуге арналған әдістер жиынтығы әзірленіп, сынақтан өткізілді, есте сақтау механизмдерін біріктірді (Longformer, жады кеңейтілген трансформаторлар), нәтижесінде негізгі трансформаторлармен салыстырғанда дәлдік 3-5%-ға артты. Ниетті, эмоционалды бояуды және тақырыпты анықтайтын тапсырмалар үшін көптілді және қазақ модельдерінің (XLM-R, RoBERTa-Kaz, Llama-1.9B-kaz және т.б.) салыстырмалы талдауы жүргізілді. Галлюцинацияларды азайту және жауап дәлдігін арттырудағы сыртқы контекстті (RAG) қамтитын тәсілдердің тиімділігі көрсетілді. Оңтайлы енгізулерді таңдау және оларды жіктеуіштермен біріктіру үшін эксперименттер жүргізілді; нәтижелер халықаралық конференциялар мен журналдардағы жарияланымдармен расталады. Оптимизирован контур поиска и интегрирован единый RAG-конвейер на базе плотных векторных представлений, пригодный для последующей эксплуатации и оценки качества QA. Проведено сравнение мультиязычных и казахских трансформеров для задач идентификации намерения, эмоциональной окраски и тематики; сформирован технологический стек для воспроизводимой сборки и тестирования. Выбранные решения ориентированы на масштабирование и переносимость: модели дообучаются под доменные корпуса и встраиваются в производственный контур без изменений пользовательских интерфейсов. Іздеу циклі оңтайландырылды және тығыз векторлық көріністерге негізделген бірыңғай RAG құбыры біріктірілді, ол кейінгі жұмыс істеу және сапаны бағалау үшін жарамды. Көптілді және қазақ тіліндегі трансформаторлар ниет, сезім және субъектіні анықтау тапсырмалары үшін салыстырылды; қайталанатын құрастыру және сынау үшін технологиялық стек жасалды. Таңдалған шешімдер масштабталу мен тасымалдануға бағытталған: модельдер доменге тән корпустар үшін қосымша оқытылады және пайдаланушы интерфейстерін өзгертпей өндірістік құбырға біріктіріледі.
Высокая Жоғары Приложения искусственного интеллекта, интеллектуальные информационные системы, человеко-машинные интерфейсы. Жасанды интеллект қолданбалары, интеллектуалды ақпараттық жүйелер, адам мен машина интерфейстері. |
||||
| UDC indices | ||||
| 004.855 | ||||
| International classifier codes | ||||
| 28.23.29; | ||||
| Key words in Russian | ||||
| Вопросно-ответные системы; Мультиязычные модели; Искусственный интеллект; Языковые модели; Семантические эмбеддинги; | ||||
| Key words in Kazakh | ||||
| Сұрақ-жауап жүйелері; Көптілді модельдер; Жасанды интеллект; Тілдік модельдер; Семантикалық кірістірулер; | ||||
| Head of the organization | Ахметов Альтаир Амангельдиевич | Кандидат юридических наук / | ||
| Head of work | Шоманов Адай Сакенович | Phd / нет | ||