| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0225РК01390 | BR24993001-OT-25 | 0124РК01215 |
| Document type | Terms of distribution | Availability of implementation |
| Промежуточный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 10 | ||
| International publications: 11 | Publications Web of science: 0 | Publications Scopus: 4 |
| Number of books | Appendicies | Sources |
| 1 | 5 | 157 |
| Total number of pages | Patents | Illustrations |
| 309 | 0 | 68 |
| Amount of funding | Code of the program | Table |
| 800000000 | О.1396 | 47 |
| Code of the program's task under which the job is done | ||
| 01 | ||
| Name of work | ||
| Создание большой языковой модели (LLM) для поддержки казахского языка и технологического прогресса | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Applied | Технология | |
| Report authors | ||
| Мансурова Мадина Есимхановна , Сарсембаева Талшын Сағдатбекқызы , Оспан Әсел Ғалымжанқызы , Тойганбаева Назгуль Абеновна , Базарбек Жания Пархатқызы , Тұрар Олжас Нұрқонысұлы , Дарибаев Беимбет Серикович , Мустафин Максат Бейбитович , Кенжебек Ержан Ғалымжанұлы , Муханбет Ақсултан Айтуарұлы , Тукеев Уалшер Ануарбекович , Рахимова Диана Рамазановна , Шормакова Асем Ноябревна , Кәрібаева Айдана Сейілғазықызы , Дүйсенбекқызы Жансая , Абдиахметова Зухра Муратовна , Бейсен Әсет Нұрболұлы , Мауленова Алма Мухитовна , Лебедев Данил Владимирович , Городничев Максим Александрович , Перепёлкин Владислав Александрович , Бопеев Тимур Маратович , Елубаев Сулеймен Актлеуович , Есбосын Лиза Қожаққызы , Абдикарим Нурзия , Исмайлова Асель Амангельдыевна , Құрманбек Бақытжан Полатұлы , Қасымбек Нұрислам Мұратбекұлы , Әбдіманап Ғалымжан Сейтахметғали , Мұса Аман , Тұрсынбек Бахытжан Балғабекұлы , Кенжебаева Сандуғаш Баймахановна , Жұмабай Мақпал Құрманжанқызы , Искакова Жазира , Серікбай Бауыржан , Жанабекова Айман Абдильдаевна , Досанов Бекжан , Кулманов Сарсенбай Куантаевич , Тлегенова Гульден Бакытказыевна , Кожахметова Актоты Кожахметкызы , Дүйсен Қуатбек Қонысбайұлы , Мамырбаев Оркен Жумажанович , Козбакова Айнур Холдасовна , Мерембаев Тимур Жумаканович , Құрметқан Тұрдыбек , Меркебаев Азат Галымжанулы , Варол Хусейн Атакан , Арыстанбеков Батыр Маратович , ПАРАХАТ МАМЫРБЕК , Нуриманов Аспандияр Мухтарбекович , Махатаева Жанат Калдыбаевна , Максутов Акылбек Аскарович , Мейрамов Рахат Мейрамович , Альбрехт Владимир Дмитриевич , Арынгазин Ануар Аскарович , Оразбекова Гауһар Айдарқызы , Турсунбаев Жаксылык Бахытович , Ермагамбет Расул , Нургалиев Шах-Изат , Рахимжанова Томирис , Куздеуов Асқат , Жанегизов Ардан Сабырханұлы , Yang Chenghan , zheng dingkun , Нұркен Арман Нұркенұлы , Серикжанова Айгерим Тельжановна , Махсуд Оразгүл Жәдігерқызы , Оспанова Дана Жаңабекқызы , Демесинова Ляйля Муратовна , Васильев Игорь , Туймебаев Жансейт Кансейтулы , Мусаев Рустам Салманович , Мусина Айгерим Болатовна , Қадырбек Нұрғали Қазбекұлы , Барлыбай Қайсар Маратұлы , Солтанбекова Альфия Абдыкеновна , Шуленбаев Нурлан Кунпияевич , Рамазанов Талгат Бекбулатович , Барменкулова Аида Серикхановна , Мурсал Айкерим - , Назарова Алия Жиханшиевна , Слямбеков Қымбат Берікұлы , Сайауышұлы Абдулазиз , Құралбай Айгерім Ильясқызы , Нарынов Сергази Сакенович , Корбозова Әсем Нышанәліқызы , Ыдырыс София Қажыақпарқызы , | ||
|
12
1
5
1
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | МНВО РК | |
| Full name of the service recipient | ||
| Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||
| Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |
| Abstract | ||
|
- Современная большая языковая модель (LLM) для казахского языка и сопутствующая экосистема; - Масштабные языковые корпусы; - Инструменты мета- и лингворазметки, морфо-синтаксические анализаторы; - Производственная платформа для хранения и обработки данных; - Вычислительная инфраструктура с размещением на GPU-кластере. - Қазақ тілі үшін заманауи үлкен тілдік модель (LLM) және оған ілеспе экожүйе; - Кең ауқымды тілдік корпустар; - Мета және лингвобелгілеу құралдары, морфо-синтаксистік талдағыштар; - Деректерді сақтау мен өңдеудің өндірістік платформасы; - GPU-кластерде орналастырылатын есептік инфрақұрылым. - Создание современной большой языковой модели (LLM), способствующей поддержке казахского языка, как государственного и языка межкультурного общения в РК, развитию технологий, обеспечению безопасности данных, развитию образования и совершенствованию научных исследований. - Қазақстан Республикасында қазақ тілін мемлекеттік тіл және мәдениетаралық қарым-қатынас тілі ретінде қолдауға, технологияны дамытуға, деректердің қауіпсіздігін қамтамасыз етуге ықпал ететін заманауи үлкен тілдік модельді (LLM) құру. білім беруді дамыту және ғылыми зерттеулерді жетілдіру. -Формирование и предобработка языковых корпусов (нормализация, очистка, лемматизация, орфографическая коррекция). - CSE-сегментация, адаптированная к агглютинативной морфологии. - Полу-автоматическая лингворазметка (NER на основе KazBERT/KazNERD). - Адаптация архитектуры трансформера и предобучение/дообучение, настройка по предпочтениям (DPO, Pseudo-DPO). - Интеграция с компонентами RAG. - Квантование большой языковой модели (PTQ/QAT). - Метрики оценки производительности. - Развертывание модели на GPU-кластере. - Тілдік корпустарды құрастыру және алдын ала өңдеу (нормализация, тазартау, лемматизация, орфосақтау); - Агглютинативті морфологияға бейімделген CSE-сегментация; - Жартылай автоматты лингвобелгілеу (KazBERT/KazNERD негізіндегі NER); - Трансформер архитектурасын бейімдеу және алдын ала үйрету/қосымша үйрету, таңдауларға негізделген баптау (DPO, Pseudo-DPO); - RAG-құраушыларымен интеграция; - Үлкен тілдік модельді кванттау (PTQ/QAT) - Өнімділікті бағалау метрикалары; - GPU-кластерде модельді орналастыру. - Сформирован базовый корпус около 100 млн слов и создано множество тематических/жанровых подкорпусов. - Морфологически ориентированная CSE-сегментация снизила долю редких токенов и повысила устойчивость к новым словоформам. - Полуавтоматическая NER-разметка достигла высокого качества, F1 составляет 0,9726. - Донастройка на QA-корпусе и применение DPO существенно улучшили точность, связность и работу с контекстом. - Квантование обеспечило экономию памяти 45–70 % и ускорение инференса в 1,5–2,2 раза. - Производственная платформа достигла метрик латентности менее 200 мс, загрузки до 1200 документов в минуту и генерации около 550 векторов в секунду. Новизна состоит в том, что впервые создана завершённая экосистема казахскоязычной LLM, объединяющая морфологически осознанную токенизацию, настройку по предпочтениям DPO, квантованное развертывание и промышленную платформу данных, включая лёгкую SLM-конфигурацию для периферийных устройств. - Шамамен 100 млн сөзден тұратын базалық корпус және көп доменді тақырыптық/жанрлық ішкікорпустар қалыптастырылды. - Агглютинативті морфологияға бейімделген CSE-сегментация сирек токендерді азайтып, жаңа сөзтүрленімдерге төзімділікті арттырды. - Жартылай автоматты NER-белгілеу жоғары сапаға қол жеткізді, F1 көрсеткіші 0,9726. - QA-корпус негізінде монотілдік қосымша үйрету және DPO қолдану дәлдік, байланыстылық және контекстпен жұмыс сапасын едәуір жақсартты. - Кванттау жадты 45–70 % үнемдеді және инференсті 1,5–2,2 есе жеделдетті. - Өндірістік платформада кідіріс екі жүз миллисекундтан кем, жүктеу жылдамдығы минутына 1200 құжат және секундына шамамен 550 вектор көрсеткіштері қамтамасыз етілді. Жаңашылдығы заманауи қазақтілді LLM-экожүйесінің толық циклі алғаш рет іске қосылып, морфологияға сезімтал токенизация, DPO-негізді баптау, квантталған енгізу және өндірістік деректер платформасы біртұтас шеңберде біріктірілді, соның ішінде шеткі құрылғыларға арналған жеңіл SLM-конфигурациясы мүмкін болды. - Объём корпуса около 100 млн слов; тематический корпус 62 000 примеров; - корпус официальных документов 11 000 текстов; - NER F1 составляет 0,9726; - ёмкость платформы более пяти терабайт и 3,3 миллиарда векторов; - латентность менее двухсот миллисекунд; - загрузка до 1200 документов в минуту; - генерация около 550 векторов в секунду; - квантование обеспечивает 45–70 процентов экономии памяти и ускорение инференса в 1,5–2,2 раза; - прирост качества в режиме Think до 13,91 процентного пункта. - Корпус көлемі шамамен 100 млн сөз; - тақырыптық корпус 62 000 мысал, ресми құжаттар 11 000 мәтін; - NER F1 көрсеткіші 0,9726; - платформа сыйымдылығы бес терабайттан астам және 3,3 миллиард вектор; - кідіріс екі жүз миллисекундтан кем; - жүктеу жылдамдығы минутына 1200 құжат; - эмбеддинг генерациясы секундына шамамен 550 вектор; - кванттау жадты 45–70 пайыз үнемдеп, инференсті 1,5–2,2 есеге жеделдетеді; - Think режимінде сапа 13,91 пайыздық пунктке артады. Система доведена до опытно-промышленной эксплуатации: автономная платформа данных введена в работу, проведены пилотные развёртывания на GPU-кластере, подготовлена API-интеграция, начата апробация в образовательных и исследовательских сценариях. Платформа тәжірибелік-өндірістік режимде пайдалануға дайын күйге жеткізілді, деректер инфрақұрылымы автономды жұмыс істейді, GPU-кластерде пилоттық іске қосулар орындалды, API интеграциясына дайындық жүргізілді және білім беру/зерттеу сценарийлерінде апробация басталды. Моноязычное дообучение повышает качество при умеренных ресурсах; квантование сокращает стоимость инференса и ускоряет вывод; локальная обработка усиливает приватность; производственные метрики подтверждают высокую пропускную способность и масштабируемость для прикладного использования. Монотілдік баптау сапаны арттырып, ресурстық талаптарды азайтты; кванттау есептеу шығындарын қысқартып, өнімділікті жақсартты; деректердің жергілікті өңделуі құпиялылықты күшейтеді; инфрақұрылымдық метрикалар жоғары өткізу қабілетін қамтамасыз етеді және кеңейтілімділікті қолдайды. -Использование больших языковых моделей в образовательных и исследовательских целях пользователями интернет-сетей Казахстана, исследователями различных областей наук, работниками правительственных и неправительственных организаций -Қазақстандағы интернет желілерін пайдаланушылар, ғылымның әртүрлі салаларындағы зерттеушілер, мемлекеттік және үкіметтік емес ұйымдар қызметкерлерінің білім беру және зерттеу мақсатында үлкен тілдік модельдерді пайдалануы |
||
| UDC indices | ||
| 004.8 Искусственный интеллект | ||
| International classifier codes | ||
| 28.23.00; 28.23.37; 28.23.25; 16.00.00; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| Искусственный интеллект; Большие языковые модели; Обработка естественного языка; Трансформеры; Глубокое обучение; | ||
| Key words in Kazakh | ||
| Жасанды интеллект; Үлкен тіл үлгілері, LLM; Табиғи тілді өңдеу; Трансформерлер; Терең оқыту; | ||
| Head of the organization | Ибраимов Маргулан Касенович | PhD / ассоциированный профессор |
| Head of work | Мансурова Мадина Есимхановна | кандидат физико-математических наук / доцент |
| Native executive in charge | ||