| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0225РК00117 | BR24993094-OT-25 | 0124РК01229 |
| Document type | Terms of distribution | Availability of implementation |
| Промежуточный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 0 | ||
| International publications: 9 | Publications Web of science: 8 | Publications Scopus: 8 |
| Number of books | Appendicies | Sources |
| 1 | 2 | 24 |
| Total number of pages | Patents | Illustrations |
| 65 | 0 | 17 |
| Amount of funding | Code of the program | Table |
| 164998688 | Ф.1333 | 0 |
| Code of the program's task under which the job is done | ||
| 01 | ||
| Name of work | ||
| Разработка оптимального управления на основе обучения с подкреплением для нелинейных систем с известными/неизвестными данными | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Fundamental | Метод, способ | |
| Report authors | ||
| Садыбеков Махмуд Абдысаметович , Қашқынбаев Ардақ Тұрысбекұлы , Сураган Дурвудхан , Ashyralyev Allaberen , Вербовский Виктор Валериевич , Rakkiyappan Rajan , Кальменов Тынысбек Шарипович , Кадыров Ширали Маратжанович , Сапажанов Ершат , Оралсын Гүлайым , Инкарбеков Медет Каркынбекович , Баяхметов Самат Темирханович , Ердесов Сауран , Джаббарханов Хумоюн Юлдашбекович , Калижанова Айгерим Айдосовна , Манарбек Махпал , Нуриев Жангир , Өткел Мәдина , Тұрсынқожа Айша , Машканова Айгерим Хаденкызы , Алдаберген Аймөлдір Болатқызы , | ||
|
0
1
5
2
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | МНВО РК | |
| Full name of the service recipient | ||
| Республиканское государственное предприятие на праве хозяйственного ведения "Институт математики и математического моделирования" Комитета науки Министерства науки и высшего образования Республики Казахстан | ||
| Abbreviated name of the service recipient | ИМММ | |
| Abstract | ||
|
Методы и алгоритмы обучения с подкреплением, включая актор-критик, интегральное и адаптивное динамическое программирование, для решения задач оптимального управления и синтеза регуляторов; алгебраические уравнения Риккати; нечеткие системы Такаги–Сугено; стохастические линейные квадратичные уравнения; непрерывные линейные периодические системы. Оңтайлы басқару және реттегіштер синтезі есептерін шешу үшін күшейтумен оқыту әдістері мен алгоритмдері, соның ішінде актор–критик, интегралдық және бейімделгіш динамикалық бағдарламалау тәсілдері; Риккати алгебралық теңдеулері; Такаги–Сугеноның анық емес жүйелері; стохастикалық сызықты квадраттық теңдеулер; үздіксіз сызықты периодтық жүйелер. Данное исследование направлено на разработку основанных на методах обучения с подкреплением стратегий адаптивного оптимального управления для систем с временной зависимостью, задержками и физиологической нелинейностью, без использования точных моделей. Посредством проектирования алгоритмов адаптивного динамического программирования с итерациями по стратегии и итерациями вне стратегии, в отчёте рассматривается реализация эффективного управления и принятия решений в сложных и неопределённых условиях без необходимости в стабилизирующей начальной политике или точной математической модели системы. Бұл зерттеу уақытына байланысты динамикасы, кешігуі және физиологиялық бейсызықтылығы бар жүйелерге арналған күшейту арқылы оқытуға негізделген, модельсіз бейімделгіш оптималды басқару стратегияларын әзірлеуге бағытталған. Cтратегиямен және стратегиясыз бейімделгіш динамикалық бағдарламалау алгоритмдерін құрастыру арқылы, есептеу жүйесінің дәл моделінсіз және тұрақтандырушы бастапқы саясат талап етілмейтін күрделі және белгісіз ортада тиімді басқару мен шешім қабылдауға жол ашылады. Алгоритмы обучения с подкреплением, адаптивное оптимальное управление с бесконечным горизонтом, уравнение Беллмана и Риккати, теория устойчивости Ляпунова, методы теории принятия решений, нечеткая линеаризация Такаги–Сугэно, а также концепции динамического программирования. Күшейтілген оқыту алгоритмдері, шексіз горизонттағы адаптивті оңтайлы басқару, Беллман және Риккати теңдеулері, Ляпуновтың тұрақтылық теориясы, шешім қабылдау теориясының әдістері, Такаги–Сугеноның бұлдыр сызықтандыру тәсілі, сондай-ақ динамикалық бағдарламалау тұжырымдамалары қолданылды. Разработаны стратегии адаптивного оптимального управления на бесконечном горизонте для непрерывных линейных систем с временной зависимостью и задержкой через алгоритмы с и вне политики адаптивного динамического программирования. Применялось обучение с подкреплением для построения независимых от модели контроллеров, где динамика изучалась из данных, а стратегия улучшалась с учётом задержек, обеспечивая устойчивость и оптимальность. Разработаны алгоритмы для периодических систем с задержкой с учётом их структуры через синхронизированный сбор данных, позволившие получать устойчивые законы управления без начальной допустимой стратегии. Предложена стратегия управления для регулирования дозировок в системе рак–опухоль–иммунитет, обучавшая политики введения препаратов методами актор–критик и интегрального обучения с подкреплением для минимизации доз при сохранении эффективности и учёте неопределённостей. Результаты НИР за 2025 год были опубликованы в ведущих научных журналах с высоким импакт-фактором, индексируемых в базах данных Web of Science и Scopus с рейтингом Q1 и Q2 (9 статей). Уақытына тәуелді кешігуі бар үздіксіз сызықтық жүйелер үшін шексіз көкжиекті бейімделгіш оптималды басқару on/off-policy бейімделгіш динамикалық бағдарламалау алгоритмдері арқылы әзірленді. Модельсіз басқару заңдарын құру үшін жүйе динамикасы деректерден тікелей үйренілетін күшейту арқылы оқыту қолданылып, кешігу факторларын ескеретін итеративті тәсілдер тұрақтылық пен оптималдылықты модельді білмей-ақ қамтамасыз етті. Периодты кешігетін жүйелер үшін күйлік байланыс негізінде policy iteration және уақытпен үйлестірілген деректер жинау арқылы тұрақтандырушы басқару заңдары модельсіз алынды. Сондай-ақ, қатерлі ісік – ісік – иммундық жүйелерінде дәрі дозасын реттеу үшін actor-critic және интегралды күшейту арқылы оқыту әдістеріне негізделген стратегия ұсынылып, доза азайту, тиімділікті сақтау және шектеулерді ескеру мақсаты көзделді. 2025 жылға арналған жоба нәтижелері Web of Science және Scopus мәліметтер базаларында индекстелетін, Q1 және Q2 рейтингтері бар жоғары импакт-факторлы жетекші ғылыми журналдарда жарияланды (9 мақала). Проект является фундаментальным Жоба іргелі болып табылады. нет жоқ Исследования по теме носят теоретический, фундаментальный характер Тақырып бойынша зерттеулер теориялық, іргелі сипатқа ие иммунология, онкология, диагностические центры, большие данные, машинное обучение, прикладная математика иммунология, онкология, диагностикалық орталықтар, үлкен деректер, машиналық оқыту, қолданбалы математика |
||
| UDC indices | ||
| 517.977; 519.712 | ||
| International classifier codes | ||
| 27.37.00; 27.37.17; 27.47.23; 28.25.23; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| Оптимальное управление; Адаптивное динамическое программирование; Системы с задержкой; Линейные системы с временной зависимостью; Непрерывные линейные периодические системы; Итерация значений; Линейный квадратичный регулятор; Итерация вне стратегии; Итерация по стратегии; | ||
| Key words in Kazakh | ||
| Оңтайлы басқару; Бейімді динамикалық бағдарлама; Уақытты кешіктіру жүйелері; Уақытқа байланысты сызықтық жүйелер; Үздіксіз уақыттағы сызықтык периодты жүйелер; Мәндер итерациясы; Сызықтык квадраттық реттеуші; Стратегиядан тыс итерация; Стратегия бойынша итерация; | ||
| Head of the organization | Садыбеков Махмуд Абдысаметович | д.ф.-м.н. / академик НАН РК |
| Head of work | Садыбеков Махмуд Абдысаметович | д.ф.-м.н. / профессор |
| Native executive in charge | Қашқынбаев Ардақ Тұрысбекұлы | Ассоциированный Профессор |