Inventory number | IRN | Number of state registration |
---|---|---|
0224РК01261 | BR24993001-OT-24 | 0124РК01215 |
Document type | Terms of distribution | Availability of implementation |
Промежуточный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 1 | ||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 0 |
Number of books | Appendicies | Sources |
1 | 4 | 142 |
Total number of pages | Patents | Illustrations |
136 | 0 | 21 |
Amount of funding | Code of the program | Table |
1092000000 | О.1396 | 13 |
Code of the program's task under which the job is done | ||
01 | ||
Name of work | ||
Создание большой языковой модели (LLM) для поддержки казахского языка и технологического прогресса | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Технология | |
Report authors | ||
Мансурова Мадина Есимхановна , Сарсембаева Талшын Сағдатбекқызы , Абдилдаева Асель Асылбековна , Тойганбаева Назгуль Абеновна , Базарбек Жания Пархатқызы , Тұрар Олжас Нұрқонысұлы , Дарибаев Беимбет Серикович , Лебедев Данил Владимирович , Барысова Сандугаш Бериковна , Мустафин Максат Бейбитович , МАХМУТ ЕРЛАН , Мәткерім Базаргүл , Тукеев Уалшер Ануарбекович , Шормакова Асем Ноябревна , Карюкин Владислав Игоревич , Кәрібаева Айдана Сейілғазықызы , Дүйсенбекқызы Жансая , Абдиахметова Зухра Муратовна , Курманали Мейрамгул Ахметжанқызы , Бейсен Әсет Нұрболұлы , Қадырбек Нұрғали Қазбекұлы , Әбдіманап Ғалымжан Сейтахметғали , Барлыбай Қайсар Маратұлы , Қырғызбаева Маржан Ескендерқызы , Барахнин Владимир Борисович , Байбурин Ержан Мухаметкалиевич , Қойлыбекова Анеля Бауыржанқызы , Варол Хусейн Атакан , Әбілбеков Адал Нұрланұлы , Арыстанбеков Батыр Маратович , ПАРАХАТ МАМЫРБЕК , Махатаева Жанат Калдыбаевна , Жұмабай Мақпал , Абдикарим Нурзия , Мамырбаев Оркен Жумажанович , Нарынов Сергази Сакенович , Калижанова Алия Уалиевна , Козбакова Айнур Холдасовна , Мерембаев Тимур Жумаканович , Ыбытаева Галия Сейткалиевна , Бекарыстанқызы Ақбаян , Омарова Перизат Танирбердиевна , Атаниязова Айсулыу Саламатовна , Черикбаева Ляйля Шариповна , Бердышев Азамат Абдумаувленович , Меркебаев Азат Галымжанулы , Жанабекова Айман Абдильдаевна , Рысберген Қыздархан Кұрмашқызы , Манкеева Жамал Айткалиевна , Шойбеков Рустембек Нусухабекович , Малбаков Мырзаберген Малбакович , Мамынова Бағдан Қатайқызы , Шуленбаев Нурлан Кунпияевич , Бисенғали Ақмарал Зинол-Ғабденқызы , Солтанбекова Альфия Абдыкеновна , Сейтбекова Айнур Аташбековна , Утебаева Эльмира Абдугалиевна , Рсалиева Нұрсауле Мақсұтқызы , Кулманов Сарсенбай Куантаевич , Рамазанов Талгат Бекбулатович , Тлегенова Гульден Бакытказыевна , Барменкулова Аида Серикхановна , Жорабай Темірлан Сейтқасымұлы , Дүйсен Қуатбек Қонысбайұлы , Садырбаева Зубайра Боранбековна , Слямбеков Қымбат Берікұлы , Мурсал Айкерим - , Кожахмет Әсем Мұхитқызы , Корбозова Әсем Нышанәліқызы , Сайауышұлы Абдулазиз , Карбозова Макпал Еркиновна , Арал Шыңғыс Алиханұлы , Сағитжан Мағжан Аманжолұлы , Кайранбаев Нурлан Айтакынович , Аязбаев Галымжан Маратович , Оспан Әсел Ғалымжанқызы , Кенжебек Ержан Ғалымжанұлы , Муханбет Ақсултан Айтуарұлы , Рахимова Диана Рамазановна , Максутов Акылбек Аскарович , Уәли Нұргелді , Назарова Алия Жиханшиевна , Самбетбаева Айгерим Данярқызы , Еламанов Нурсултан Алибекович , Серікбай Бауыржан , Исмайлова Асель Амангельдыевна , Ермахан Меруерт Ерғазықызы , Демесинова Ляйля Муратовна , Төкенқызы Гүлназ , Оспанова Дана Жаңабекқызы , Орманова Айгуль Адильбековна , Искакова Жазира , Омарова София Кожиакпаровна , Тусупова Гульшат Бакытжановна , Есбосын Лиза Қожаққызы , Кенжебаева Сандуғаш Баймахановна , Борибаева Гулнара Абдикасимовна , Тұрсынбек Бахытжан Балғабекұлы , Раева Асемгуль Жеткергеновна , Миразова Маржан Нышанбекқызы , Курманбекова Зульфия Рахматдилдаевна , ТІЛЕМІС САЯЖАН СӘЛІМЖАНҰЛЫ , Ешпанов Рустем , Нуриманов Аспандияр Мухтарбекович , Айдарбаев Ерлан Балгабаевич , Жылқайдарова Фариза Махмутқызы , Мұса Аман , Мауленова Алма Мухитовна , Жаңаберген Дамир Рахатұлы , Еділханұлы Мейір , Досанов Бекжан , Ермекова Жанаргул Базарбаевна , Құралбай Айгерім Ильясқызы , Бателова Назира Мейрхановна , | ||
12
1
5
1
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||
Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |
Abstract | ||
Современная большая языковая модель (LLM) для казахского языка, архитектура модели GPT и Llama, разработка Retrieval-Augmented Generation (RAG) платформы для казахского языка, оптимизации производительности моделей LLM Қазақ тіліне арналған заманауи үлкен тіл үлгісі (LLM), GPT және Llama үлгі архитектурасы, қазақ тіліне арналған Retrieval-Augmented Generation (RAG) платформасын әзірлеу, LLM үлгілерінің өнімділігін оңтайландыру. Создание современной большой языковой модели (LLM), способствующей поддержке казахского языка, как государственного и языка межкультурного общения в РК, развитию технологий, обеспечению безопасности данных, развитию образования и совершенствованию научных исследований ҚР қазақ тілін мемлекеттік тіл және мәдениетаралық қатынас тілі ретінде қолдауға, технологияны дамытуға, деректердің қауіпсіздігін қамтамасыз етуге, білім беруді дамыту және ғылыми зерттеулерді жетілдіруге ықпал ететін заманауи үлкен тілдік модельді (LLM) құру. Технологии разработки LLM, автоматизация разметки текстовых данных для обучения моделей, применение генеративных предобученных трансформеров (GPT), оптимизация производительности языковых моделей LLM LLM әзірлеу технологиялары, модельдерді оқыту үшін мәтіндік деректерді белгілеуді автоматтандыру, генеративті алдын ала дайындалған трансформаторларды (GPT) пайдалану, LLM тіл үлгілерінің өнімділігін оңтайландыру Полученные результаты за 2024 год: − Проведены исследования по обучению модели на основе архитектуры LlaMA 1,94 миллиардами параметров; − Разработаны и оптимизированы архитектуры LLM с открытым исходным кодом на основе моделей LLaMA, включая модели с 8 и 70 миллиардами параметров; − Внедрен прототип платформы Retrieval-Augmented Generation для взаимодействия между механизмом поиска и системой хранения данных; − Создан корпус объемом 400 миллионов слов на казахском языке, охватывающий различные жанры и контексты, включая литературу, научные публикации и специализированный контент; − Проведены исследования для автоматизаций анализа и разметки текстов на казахском языке на основе машинного и глубокого обучения; − Проведены исследования по распределению вычислительных нагрузок и оптимизации производительности на кластере GPU; Научной новизной полученных результатов является разработка и оптимизация архитектур LLM на базе моделей LLaMA с параметрами до 70 миллиардов, внедрение Retrieval-Augmented Generation прототипа, создание корпуса из 400 миллионов слов на казахском языке, а также проведение исследований по оптимизации вычислительных нагрузок и оптимизации производительности на кластере GPU. 2024 жылға арналған нәтижелер: − 1,94 миллиард параметрі бар LlaMA архитектурасына негізделген модельді оқыту бойынша зерттеулер жүргізілді; − 8 және 70 миллиард параметрлері бар модельдерді қоса алғанда, LLaMA үлгілеріне негізделген ашық бастапқы LLM архитектуралары әзірленді және оңтайландырылды; − Іздеу жүйесі мен деректерді сақтау жүйесі арасындағы өзара әрекеттесу үшін Retrieval-Augmented Generation платформасының прототипі енгізілді; − әртүрлі жанрлар мен контексттерді, соның ішінде әдебиетті, ғылыми басылымдарды және арнайы мазмұнды қамтитын қазақ тілінде 400 миллион сөзден тұратын корпус құрылды; − Машиналық және терең оқыту негізінде қазақ тіліндегі мәтіндерді талдау мен белгілеуді автоматтандыру бойынша зерттеулер жүргізілді; − GPU кластерінде есептеу жүктемелерін бөлу және өнімділікті оңтайландыру бойынша зерттеулер жүргізілді; Алынған нәтижелердің ғылыми жаңалығы – параметрлері 70 млрд-қа дейінгі LLaMA үлгілері негізінде LLM архитектурасын әзірлеу және оңтайландыру, Retrieval-Augmented Generation прототипін енгізу, қазақ тілінде 400 миллион сөзден тұратын корпус құру, сонымен қатар кластерлік графикалық процессордағы есептеу жүктемелерін оңтайландыру және өнімділікті оңтайландыру бойынша зерттеулер жүргізу болып табылады. 1. Создана модель с 1,94 млрд параметров, проведено эффективное дообучение для инструктивных задач, а также запущен пилотный ассистент через платформу Farabi Lab для сбора обратной связи. 2. Разработаны и оптимизированы архитектуры LLM с открытым исходным кодом на базе моделей LLaMA. 3. Создан корпус данных из 400 миллионов слов на казахском языке, прошедший предобработку и нормализацию для обучения моделей. 4. Внедрена платформа Retrieval-Augmented Generation с интеграцией систем MinIO и Elasticsearch, обеспечивающая эффективный поиск и извлечение данных. 1. 1,94 миллиард параметрі бар модель жасалды, нұсқаулық тапсырмалар үшін тиімді қосымша оқыту жүргізілді және кері байланыс жинау үшін Farabi Lab платформасы арқылы пилоттық көмекші іске қосылды. 2. LLaMA үлгілеріне негізделген ашық бастапқы LLM архитектуралары әзірленді және оңтайландырылды. 3. Қазақ тіліндегі 400 миллион сөзден тұратын деректер корпусы жасалды, оқу үлгілері үшін алдын ала өңделді және қалыпқа келтірілді. 4. Retrieval-Augmented Generation платформасы тиімді іздеу мен деректерді іздеуді қамтамасыз ететін MiniIO және Elasticsearch жүйелерін біріктіру арқылы жүзеге асырылды.
Разработка и внедрение LLM на базе архитектуры LLaMA обеспечивает поддержку принятия решений, оптимизацию вычислительных ресурсов, автоматизацию анализа текстов, масштабируемость, развитие казахского языка и применение инновационных технологий. LLaMA архитектурасына негізделген LLM әзірлеу және енгізу шешімдерді қолдауды, есептеу ресурстарын оңтайландыруды, мәтінді талдауды автоматтандыруды, масштабтауды, қазақ тілін дамытуды және инновациялық технологияларды қолдануды қамтамасыз етеді. Использование больших языковых моделей в образовательных и исследовательских целях пользователями интернет-сетей Казахстана, исследователями различных областей наук, работниками правительственных и неправительственных организаций. Қазақстандағы интернет желілерін пайдаланушылардың, ғылымның әртүрлі салаларындағы зерттеушілердің, мемлекеттік және үкіметтік емес ұйымдардың қызметкерлерінің білім беру және зерттеу мақсатында үлкен тілдік модельдерді пайдалануы. |
||
UDC indices | ||
004.8 Искусственный интеллект | ||
International classifier codes | ||
28.23.00; 28.23.37; 28.23.25; 16.00.00; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
Искусственный интеллект; Большие языковые модели; Обработка естественного языка; Трансформеры; Глубокое обучение; | ||
Key words in Kazakh | ||
Жасанды интеллект; Үлкен тіл үлгілері, LLM; Табиғи тілді өңдеу; Трансформерлер; Терең оқыту; | ||
Head of the organization | Айтжанова Жамила Нурматовна | Доктор экономических наук / профессор |
Head of work | Мансурова Мадина Есимхановна | кандидат физико-математических наук / доцент |
Native executive in charge |