| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00430 | AP23489782-KC-25 | 0124РК00497 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 1 | ||||
| International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 53974144 | AP23489782 | ||
| Name of work | ||||
| AutoCorrection: обучение с подкреплением от искусственного интеллекта для разработки само-корректирующихся языковых моделей | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Пак Александр Александрович | |||
|
0
0
2
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| АО «Казахстанско-Британский технический университет» | ||||
| Abbreviated name of the service recipient | АО "КБТУ" | |||
| Abstract | ||||
|
Объектом исследования является метод обучения больших языковых моделей (LLM) по схеме Reinforcement Learning from AI Feedback (RLAIF), направленный на повышение устойчивости к шумным или некачественным оценкам предпочтений. Предметом разработки является алгоритм Noise-Aware Direct Preference Optimization (nrDPO) и его вариант nrDPO-gated, включающие взвешивание и фильтрацию пар предпочтений по мере достоверности референс-модели. Реализуется в рамках гранта № AP23489782 Комитета науки РК. Зерттеу нысаны-шулы немесе сапасыз артықшылық бағалауларына төзімділікті арттыруға бағытталған Reinforcement Learning from AI Feedback (RLAIF) схемасы бойынша үлкен тілдік модельдерді (LLM) оқыту әдісі. Даму тақырыбы-Noise-Aware Direct preference Optimization (nrDPO) алгоритмі және оның nrdpo-gated нұсқасы, оның ішінде анықтамалық модельдің сенімділігі бойынша артықшылық жұптарын өлшеу және сүзу. ҚР Ғылым комитетінің № AP23489782 гранты шеңберінде іске асырылуда. Целью проекта является исследование и разработка инструкционно-ориентированной языковой модели (instruct Large Language Models) с встроенными механизмами самокоррекции (Large Language Models’ self-correction), которая, при этом, интегрирует ключевые аспекты RLAIF для минимизации зависимости от человеческой обратной связи. Исследование направлено на решение фундаментального вопроса: «Каким образом можно создать более автономную языковую модель, следующую заданным инструкциям, способную эффективно обобщать различные задачи без необходимости обширной человеческой аннотации?» Этот подход предполагает значительный прогресс в автономности и адаптивности языковых моделей, переосмысливая традиционные методики их разработки и обучения. Жобаның мақсаты-адамның кері байланысына тәуелділікті азайту үшін RLAIF-тің негізгі аспектілерін біріктіретін өзін-өзі түзету механизмдері (Large Language models) бар нұсқаулыққа бағытталған тілдік модельді (instruct Large Language Models) зерттеу және әзірлеу. Зерттеу негізгі сұрақты шешуге бағытталған: "адамның кең аннотациясын қажет етпестен әртүрлі тапсырмаларды тиімді қорытындылай алатын, берілген нұсқауларға сәйкес автономды тіл моделін қалай құруға болады?"Бұл тәсіл тілдік модельдердің автономиясы мен бейімделуінде айтарлықтай ілгерілеуді, оларды әзірлеу мен оқытудың дәстүрлі әдістерін қайта қарастыруды қамтиды. Использованы методы машинного обучения и оптимизации; вероятностное моделирование; методы устойчивой оптимизации и взвешивания по уверенности референс-модели; численные экспериментальные исследования Машиналық оқыту және оңтайландыру әдістері; ықтималдық модельдеу; тұрақты оңтайландыру және анықтамалық модельдің сенімділігі бойынша өлшеу әдістері; сандық эксперименттік зерттеулер қолданылды Разработан новый алгоритм Noise-Robust Direct Preference Optimization (nrDPO) и его вариант nrDPO-gated, обеспечивающие устойчивость к шуму меток при обучении LLM в условиях RLAIF. Проведено сравнение с базовым DPO на наборах данных HH-RLHF (2k–10k пар предпочтений). При 30 % инверсии меток nrDPO-gated сохраняет точность ≈62 %, тогда как базовый DPO падает до ≈58 %. В RLAIF-сценарии алгоритм достиг 60 % точности на 5k пар (на 9–11 п.п. выше базовой модели). Публикация: Pak A. et al., Applied Sciences, 2025, 15(19):10328. Жаңа Noise-Robust Direct preference Optimization (nrDPO) алгоритмі және оның NRDPO-gated нұсқасы әзірленді, бұл RLAIF жағдайында LLM оқыту кезінде тег шуына төзімділікті қамтамасыз етеді. HH-RLHF деректер жиынтығындағы негізгі DPO-мен салыстыру жүргізілді (2K-10K артықшылық жұбы). Белгілердің 30% инверсиясында nrDPO-gated дәлдігін сақтайды ≈62%, ал негізгі DPO ≈58% дейін төмендейді. Rlaif сценарийінде алгоритм 5K жұпта 60% дәлдікке жетті (базалық модельден 9-11 PP жоғары). Басылым: Pak A. et al., Applied Sciences, 2025, 15(19):10328. Основные конструктивные и технико-экономические показатели Средняя точность предпочтений (Preference Accuracy) - 60.1 % при обучении на 5 тыс. пар (RLAIF-5k-8B, 95 % CI ≈ 58–62). Диапазон шума меток: до 30 % искусственный / ≈53 % реальный RLAIF. Прирост точности по сравнению с vanilla DPO составил 6–11 п.п. в зависимости от сценария. Подход устраняет необходимость в дорогостоящем RLHF-цикле (обучении reward-модели и PPO), что снижает вычислительные затраты примерно на 60–70 % при сопоставимом качестве пост-обучения. Негізгі сындарлы және техникалық-экономикалық көрсеткіштер Артықшылықтардың орташа дәлдігі (preference Accuracy) - 5 мың жұпқа оқытуда 60.1% (RLAIF-5k-8B, 95% ci ≈ 58-62). Жапсырма Шу диапазоны: 30% дейін жасанды / ≈53% нақты RLAIF. Vanilla DPO-мен салыстырғанда дәлдіктің өсуі сценарийге байланысты 6-11 PP болды. Бұл тәсіл қымбат RLHF циклінің қажеттілігін жояды (reward моделін оқыту және PPO), бұл салыстырмалы оқытудан кейінгі сапада есептеу шығындарын шамамен 60-70% төмендетеді. В отчетном году проведены численные эксперименты по исследованию алгоритма noise-robust Direct Preference Optimization (nrDPO и nrDPO-gated) на открытом датасете HH-RLHF. Выполнено моделирование сценариев с синтетическим шумом меток (10–30 %) и с relabeling-процедурами в условиях RLAIF. Проведено сравнение с базовыми методами (vanilla DPO, SFT), получены статистически значимые улучшения устойчивости к шуму и опубликованы результаты в журнале Applied Sciences (2025, 15, 10328). Алгоритм реализован и прошёл верификацию в форме вычислительных экспериментов, но не интегрирован в прикладные или производственные системы. Тестирование ограничивалось модельными данными и вычислительной симуляцией. Таким образом, по классификации уровней технологической готовности технология соответствует TRL-3 - подтверждена научная концепция и продемонстрирована осуществимость на модели и в лабораторных вычислительных экспериментах. Есепті жылы HH-RLHF ашық деректер жиынында noise-robust Direct preference Optimization (nrDPO және nrdpo-gated) алгоритмін зерттеу бойынша сандық эксперименттер жүргізілді. Сценарийлерді синтетикалық Шу белгілерімен (10-30 %) және RLAIF жағдайында relabeling-процедураларымен модельдеу орындалды. Негізгі әдістермен салыстыру жүргізілді (vanilla DPO, SFT), шуға төзімділіктің статистикалық маңызды жақсартулары алынды және нәтижелер Applied Sciences журналында жарияланды (2025, 15, 10328).Алгоритм есептеу эксперименттері түрінде жүзеге асырылды және тексерілді, бірақ қолданбалы немесе өндірістік жүйелерге біріктірілмеген. Тестілеу модельдік деректермен және есептеу модельдеуімен шектелді. Осылайша, технологиялық дайындық деңгейлерін жіктеу бойынша технология TRL-3 - ке сәйкес келеді-Ғылыми тұжырымдама расталды және модельде және зертханалық есептеу эксперименттерінде орындылығы көрсетілді. Научная эффективность: создан новый класс робастных оптимизаторов для пост-обучения больших языковых моделей (nrDPO и nrDPO-gated); результаты опубликованы в журнале Applied Sciences (Q2, Scopus). Метод рассматривается как вклад в развитие исследований в области alignment и RLAIF. Практическая эффективность: подход снижает зависимость от человеческой разметки и затраты на обучение по сравнению с традиционным RLHF-циклом, обеспечивая более устойчивое поведение модели при AI-feedback. Ғылыми тиімділік: үлкен тілдік модельдерді (nrDPO және nrdpo-gated) кейінгі оқыту үшін робастикалық оңтайландырғыштардың жаңа класы құрылды; нәтижелер Applied Sciences журналында (Q2, Scopus) жарияланған. Бұл әдіс alignment және RLAIF зерттеулерінің дамуына үлес ретінде қарастырылады. Практикалық тиімділік: тәсіл дәстүрлі RLHF циклімен салыстырғанда адамның белгілеуіне тәуелділікті және оқу шығындарын азайтады, бұл ai-feedback кезінде модельдің тұрақты әрекетін қамтамасыз етеді. Обучение и доводка LLM при ограниченной человеческой разметке; разработка интеллектуальных агентов и диалоговых систем; оптимизация внутренних метрик качества в AI-продуктах. Шектеулі адам белгілеуімен LLM оқыту және жетілдіру; интеллектуалды агенттер мен диалогтық жүйелерді дамыту; AI өнімдеріндегі ішкі сапа көрсеткіштерін оңтайландыру. |
||||
| UDC indices | ||||
| 004.8 | ||||
| International classifier codes | ||||
| 20.19.27; | ||||
| Key words in Russian | ||||
| обучение с подкреплением от человека; обучение от искусственного интеллекта; языковые модели с настройкой; самокорректирующиеся языковые модели; автономные языковые модели; | ||||
| Key words in Kazakh | ||||
| адамның байланысына негізделген оқытуды күшейту; жасанды интеллект негізінде оқыту; нұсқауларға бапталған тіл үлгілері; өзін-өзі түзететін тіл үлгілері; дербес тіл үлгілері; | ||||
| Head of the organization | Габдуллин Маратбек Тулебергенович | PhD / Профессор | ||
| Head of work | Пак Александр Александрович | Кандидат технических наук / ассоциированный профессор | ||