Inventory number IRN Number of state registration
0225РК01390 BR24993001-OT-25 0124РК01215
Document type Terms of distribution Availability of implementation
Промежуточный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 10
International publications: 11 Publications Web of science: 0 Publications Scopus: 4
Number of books Appendicies Sources
1 5 157
Total number of pages Patents Illustrations
309 0 68
Amount of funding Code of the program Table
800000000 О.1396 47
Code of the program's task under which the job is done
01
Name of work
Создание большой языковой модели (LLM) для поддержки казахского языка и технологического прогресса
Report title
Type of work Source of funding The product offerred for implementation
Applied Технология
Report authors
Мансурова Мадина Есимхановна , Сарсембаева Талшын Сағдатбекқызы , Оспан Әсел Ғалымжанқызы , Тойганбаева Назгуль Абеновна , Базарбек Жания Пархатқызы , Тұрар Олжас Нұрқонысұлы , Дарибаев Беимбет Серикович , Мустафин Максат Бейбитович , Кенжебек Ержан Ғалымжанұлы , Муханбет Ақсултан Айтуарұлы , Тукеев Уалшер Ануарбекович , Рахимова Диана Рамазановна , Шормакова Асем Ноябревна , Кәрібаева Айдана Сейілғазықызы , Дүйсенбекқызы Жансая , Абдиахметова Зухра Муратовна , Бейсен Әсет Нұрболұлы , Мауленова Алма Мухитовна , Лебедев Данил Владимирович , Городничев Максим Александрович , Перепёлкин Владислав Александрович , Бопеев Тимур Маратович , Елубаев Сулеймен Актлеуович , Есбосын Лиза Қожаққызы , Абдикарим Нурзия , Исмайлова Асель Амангельдыевна , Құрманбек Бақытжан Полатұлы , Қасымбек Нұрислам Мұратбекұлы , Әбдіманап Ғалымжан Сейтахметғали , Мұса Аман , Тұрсынбек Бахытжан Балғабекұлы , Кенжебаева Сандуғаш Баймахановна , Жұмабай Мақпал Құрманжанқызы , Искакова Жазира , Серікбай Бауыржан , Жанабекова Айман Абдильдаевна , Досанов Бекжан , Кулманов Сарсенбай Куантаевич , Тлегенова Гульден Бакытказыевна , Кожахметова Актоты Кожахметкызы , Дүйсен Қуатбек Қонысбайұлы , Мамырбаев Оркен Жумажанович , Козбакова Айнур Холдасовна , Мерембаев Тимур Жумаканович , Құрметқан Тұрдыбек , Меркебаев Азат Галымжанулы , Варол Хусейн Атакан , Арыстанбеков Батыр Маратович , ПАРАХАТ МАМЫРБЕК , Нуриманов Аспандияр Мухтарбекович , Махатаева Жанат Калдыбаевна , Максутов Акылбек Аскарович , Мейрамов Рахат Мейрамович , Альбрехт Владимир Дмитриевич , Арынгазин Ануар Аскарович , Оразбекова Гауһар Айдарқызы , Турсунбаев Жаксылык Бахытович , Ермагамбет Расул , Нургалиев Шах-Изат , Рахимжанова Томирис , Куздеуов Асқат , Жанегизов Ардан Сабырханұлы , Yang Chenghan , zheng dingkun , Нұркен Арман Нұркенұлы , Серикжанова Айгерим Тельжановна , Махсуд Оразгүл Жәдігерқызы , Оспанова Дана Жаңабекқызы , Демесинова Ляйля Муратовна , Васильев Игорь , Туймебаев Жансейт Кансейтулы , Мусаев Рустам Салманович , Мусина Айгерим Болатовна , Қадырбек Нұрғали Қазбекұлы , Барлыбай Қайсар Маратұлы , Солтанбекова Альфия Абдыкеновна , Шуленбаев Нурлан Кунпияевич , Рамазанов Талгат Бекбулатович , Барменкулова Аида Серикхановна , Мурсал Айкерим - , Назарова Алия Жиханшиевна , Слямбеков Қымбат Берікұлы , Сайауышұлы Абдулазиз , Құралбай Айгерім Ильясқызы , Нарынов Сергази Сакенович , Корбозова Әсем Нышанәліқызы , Ыдырыс София Қажыақпарқызы ,
12
1
5
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби"
Abbreviated name of the service recipient НАО "КазНУ им. аль-Фараби"
Abstract

- Современная большая языковая модель (LLM) для казахского языка и сопутствующая экосистема; - Масштабные языковые корпусы; - Инструменты мета- и лингворазметки, морфо-синтаксические анализаторы; - Производственная платформа для хранения и обработки данных; - Вычислительная инфраструктура с размещением на GPU-кластере.

- Қазақ тілі үшін заманауи үлкен тілдік модель (LLM) және оған ілеспе экожүйе; - Кең ауқымды тілдік корпустар; - Мета және лингвобелгілеу құралдары, морфо-синтаксистік талдағыштар; - Деректерді сақтау мен өңдеудің өндірістік платформасы; - GPU-кластерде орналастырылатын есептік инфрақұрылым.

- Создание современной большой языковой модели (LLM), способствующей поддержке казахского языка, как государственного и языка межкультурного общения в РК, развитию технологий, обеспечению безопасности данных, развитию образования и совершенствованию научных исследований.

- Қазақстан Республикасында қазақ тілін мемлекеттік тіл және мәдениетаралық қарым-қатынас тілі ретінде қолдауға, технологияны дамытуға, деректердің қауіпсіздігін қамтамасыз етуге ықпал ететін заманауи үлкен тілдік модельді (LLM) құру. білім беруді дамыту және ғылыми зерттеулерді жетілдіру.

-Формирование и предобработка языковых корпусов (нормализация, очистка, лемматизация, орфографическая коррекция). - CSE-сегментация, адаптированная к агглютинативной морфологии. - Полу-автоматическая лингворазметка (NER на основе KazBERT/KazNERD). - Адаптация архитектуры трансформера и предобучение/дообучение, настройка по предпочтениям (DPO, Pseudo-DPO). - Интеграция с компонентами RAG. - Квантование большой языковой модели (PTQ/QAT). - Метрики оценки производительности. - Развертывание модели на GPU-кластере.

- Тілдік корпустарды құрастыру және алдын ала өңдеу (нормализация, тазартау, лемматизация, орфосақтау); - Агглютинативті морфологияға бейімделген CSE-сегментация; - Жартылай автоматты лингвобелгілеу (KazBERT/KazNERD негізіндегі NER); - Трансформер архитектурасын бейімдеу және алдын ала үйрету/қосымша үйрету, таңдауларға негізделген баптау (DPO, Pseudo-DPO); - RAG-құраушыларымен интеграция; - Үлкен тілдік модельді кванттау (PTQ/QAT) - Өнімділікті бағалау метрикалары; - GPU-кластерде модельді орналастыру.

- Сформирован базовый корпус около 100 млн слов и создано множество тематических/жанровых подкорпусов. - Морфологически ориентированная CSE-сегментация снизила долю редких токенов и повысила устойчивость к новым словоформам. - Полуавтоматическая NER-разметка достигла высокого качества, F1 составляет 0,9726. - Донастройка на QA-корпусе и применение DPO существенно улучшили точность, связность и работу с контекстом. - Квантование обеспечило экономию памяти 45–70 % и ускорение инференса в 1,5–2,2 раза. - Производственная платформа достигла метрик латентности менее 200 мс, загрузки до 1200 документов в минуту и генерации около 550 векторов в секунду. Новизна состоит в том, что впервые создана завершённая экосистема казахскоязычной LLM, объединяющая морфологически осознанную токенизацию, настройку по предпочтениям DPO, квантованное развертывание и промышленную платформу данных, включая лёгкую SLM-конфигурацию для периферийных устройств.

- Шамамен 100 млн сөзден тұратын базалық корпус және көп доменді тақырыптық/жанрлық ішкікорпустар қалыптастырылды. - Агглютинативті морфологияға бейімделген CSE-сегментация сирек токендерді азайтып, жаңа сөзтүрленімдерге төзімділікті арттырды. - Жартылай автоматты NER-белгілеу жоғары сапаға қол жеткізді, F1 көрсеткіші 0,9726. - QA-корпус негізінде монотілдік қосымша үйрету және DPO қолдану дәлдік, байланыстылық және контекстпен жұмыс сапасын едәуір жақсартты. - Кванттау жадты 45–70 % үнемдеді және инференсті 1,5–2,2 есе жеделдетті. - Өндірістік платформада кідіріс екі жүз миллисекундтан кем, жүктеу жылдамдығы минутына 1200 құжат және секундына шамамен 550 вектор көрсеткіштері қамтамасыз етілді. Жаңашылдығы заманауи қазақтілді LLM-экожүйесінің толық циклі алғаш рет іске қосылып, морфологияға сезімтал токенизация, DPO-негізді баптау, квантталған енгізу және өндірістік деректер платформасы біртұтас шеңберде біріктірілді, соның ішінде шеткі құрылғыларға арналған жеңіл SLM-конфигурациясы мүмкін болды.

- Объём корпуса около 100 млн слов; тематический корпус 62 000 примеров; - корпус официальных документов 11 000 текстов; - NER F1 составляет 0,9726; - ёмкость платформы более пяти терабайт и 3,3 миллиарда векторов; - латентность менее двухсот миллисекунд; - загрузка до 1200 документов в минуту; - генерация около 550 векторов в секунду; - квантование обеспечивает 45–70 процентов экономии памяти и ускорение инференса в 1,5–2,2 раза; - прирост качества в режиме Think до 13,91 процентного пункта.

- Корпус көлемі шамамен 100 млн сөз; - тақырыптық корпус 62 000 мысал, ресми құжаттар 11 000 мәтін; - NER F1 көрсеткіші 0,9726; - платформа сыйымдылығы бес терабайттан астам және 3,3 миллиард вектор; - кідіріс екі жүз миллисекундтан кем; - жүктеу жылдамдығы минутына 1200 құжат; - эмбеддинг генерациясы секундына шамамен 550 вектор; - кванттау жадты 45–70 пайыз үнемдеп, инференсті 1,5–2,2 есеге жеделдетеді; - Think режимінде сапа 13,91 пайыздық пунктке артады.

Система доведена до опытно-промышленной эксплуатации: автономная платформа данных введена в работу, проведены пилотные развёртывания на GPU-кластере, подготовлена API-интеграция, начата апробация в образовательных и исследовательских сценариях.

Платформа тәжірибелік-өндірістік режимде пайдалануға дайын күйге жеткізілді, деректер инфрақұрылымы автономды жұмыс істейді, GPU-кластерде пилоттық іске қосулар орындалды, API интеграциясына дайындық жүргізілді және білім беру/зерттеу сценарийлерінде апробация басталды.

Моноязычное дообучение повышает качество при умеренных ресурсах; квантование сокращает стоимость инференса и ускоряет вывод; локальная обработка усиливает приватность; производственные метрики подтверждают высокую пропускную способность и масштабируемость для прикладного использования.

Монотілдік баптау сапаны арттырып, ресурстық талаптарды азайтты; кванттау есептеу шығындарын қысқартып, өнімділікті жақсартты; деректердің жергілікті өңделуі құпиялылықты күшейтеді; инфрақұрылымдық метрикалар жоғары өткізу қабілетін қамтамасыз етеді және кеңейтілімділікті қолдайды.

-Использование больших языковых моделей в образовательных и исследовательских целях пользователями интернет-сетей Казахстана, исследователями различных областей наук, работниками правительственных и неправительственных организаций

-Қазақстандағы интернет желілерін пайдаланушылар, ғылымның әртүрлі салаларындағы зерттеушілер, мемлекеттік және үкіметтік емес ұйымдар қызметкерлерінің білім беру және зерттеу мақсатында үлкен тілдік модельдерді пайдалануы

UDC indices
004.8 Искусственный интеллект
International classifier codes
28.23.00; 28.23.37; 28.23.25; 16.00.00;
Readiness of the development for implementation
Key words in Russian
Искусственный интеллект; Большие языковые модели; Обработка естественного языка; Трансформеры; Глубокое обучение;
Key words in Kazakh
Жасанды интеллект; Үлкен тіл үлгілері, LLM; Табиғи тілді өңдеу; Трансформерлер; Терең оқыту;
Head of the organization Ибраимов Маргулан Касенович PhD / ассоциированный профессор
Head of work Мансурова Мадина Есимхановна кандидат физико-математических наук / доцент
Native executive in charge