Inventory number IRN Number of state registration
0225РК01001 AP19676581-OT-25 0123РК00506
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 3 Publications Web of science: 3 Publications Scopus: 3
Number of books Appendicies Sources
0 3 46
Total number of pages Patents Illustrations
166 0 18
Amount of funding Code of the program Table
35534351 AP19676581 8
Name of work
In-silico поиск лекарств с возможностью генерации молекул, прогнозирования сродства лекарств с мишенью и валидации лекарственно-подобных молекул с помощью машинного обучения
Report title
Type of work Source of funding The product offerred for implementation
Fundamental Технология
Report authors
ДР ФАЗЛЫ СИАМАК
0
0
3
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Nazarbayev University
Abbreviated name of the service recipient NU
Abstract

Исследование и разработка методов машинного обучения и хемоинформатики для поиска и улучшения лекарств (DTA) включают создание новой модели прогнозирования взаимодействия лекарств с мишенью, разработку комплексных инструментов DTA, а также создание биологического бенчмарк-тестировщика для молекулярных генеративных моделей и хемоинформатики, которые помогут в поиске новых лекарств. Инструментарий также включает в себя предсказывание токсичности возможных лекарств с помощью многозадачного обучения и анализ токсичности генеративных моделей

Дәрі-дәрмектерді іздеу және жақсарту (DTA) үшін машиналық оқыту және химоинформатика әдістерін зерттеу және әзірлеу дәрі-дәрмектердің мақсатты өзара әрекеттесуін болжаудың жаңа моделін құруды, DTA кешенді құралдарын әзірлеуді және жаңа дәрі-дәрмектерді табуға көмектесетін молекулалық генеративті модельдер мен химоинформатика үшін биологиялық эталондық тестер құруды қамтиды. Құралдар жинағы сонымен қатар көп тапсырмалы оқыту арқылы ықтимал дәрілердің уыттылығын болжауды және генеративті үлгілердің уыттылығын талдауды қамтиды

Несмотря на то, что машинное обучение уже начало трансформировать ранние стадии процесса открытия лекарств, необходимо решить ряд важных открытых вопросов, чтобы усилить полезность и влияние этой прикладной междисциплинарной области исследований. Цель данного проекта - рассмотреть и решить эти вопросы путем разработки необходимых инструментов машинного обучения и биологической проверки их результатов. Данный инструментарий включает в себя базу данных связывания лекарств с целевыми группами белков, создания модели предсказывания данного связывания, а также исследование токсичности соединений с помощью многозадачного подхода и анализ генеративных моделей

Машиналық оқыту дәрі-дәрмектерді табу процесінің алғашқы кезеңдерін өзгерте бастағанына қарамастан, осы қолданбалы пәнаралық зерттеу саласының пайдалылығы мен әсерін күшейту үшін бірқатар маңызды ашық мәселелерді шешу қажет. Бұл жобаның мақсаты-машиналық оқытудың қажетті құралдарын әзірлеу және олардың нәтижелерін биологиялық тексеру арқылы осы мәселелерді қарастыру және шешу. Бұл құрал дәрі-дәрмектерді ақуыздардың мақсатты топтарымен байланыстыратын мәліметтер базасын, осы байланыстыруды болжау моделін құруды, сондай-ақ көп тапсырмалы тәсілді қолдана отырып қосылыстардың уыттылығын зерттеуді және генеративті модельдерді талдауды қамтиды

Использование позиционного встраивания для малых молекул; Использование функций потерь с возможностью заполнения недостающих значений и использование остаточных связей; Генерирование прогнозов для известных лекарств с целью их перепрофилирования на различные мишени; Метрика восстановления; Mетрика DTA; Предсказание DTA и токсичности на основе ML, Молекулярный докинг.

Шағын молекулалар үшін позициялық ендіруді пайдалану; жетіспейтін мәндерді толтыру мүмкіндігімен жоғалту функцияларын пайдалану және қалдық байланыстарды пайдалану; әртүрлі мақсаттарға қайта бағыттау мақсатында белгілі препараттар үшін болжамдар жасау; қалпына келтіру көрсеткіші; DTA көрсеткіші; ML негізіндегі DTA және уыттылықты болжау, молекулалық қондыру.

В рамках проекта были созданы два взаимодополняющих многозадачных предиктора (MLT-LE и CheMLT-F), система оценки ABRAHAM для оценки генеративных моделей по отношению к биологическим мишеням, а также DTA Atlas — крупная база данных по перепрофилированию с предсказанными показателями сродства для всего протеома. Был создан набор инструментов для хемоинформатики, позволяющий осуществлять комплексные рабочие процессы, включая возможность оценки потенциальных кандидатов в лекарственные препараты по их DTA-оценкам, а также проверку токсичности и физических свойств с последующей сортировкой/исследованием. Ключевые методологические вклады включают в себя многозадачную обучающую методику с учетом отсутствующих меток, слияние трансформеров для прогнозирования нескольких конечных показателей по более чем 680 возможным меткам (включая токсичность, аффинность связывания и физические свойства) и трехмодальный критерий оценки, сочетающий в себе воссоздание, прогнозируемую аффинность и докинг.

Жоба екі қосымша көп тапсырмалы болжаушыларды (MLT-le және CheMLT-F), биологиялық нысандарға қатысты генеративті модельдерді бағалауға арналған ABRAHAM бағалау жүйесін, сондай — ақ DTA Atlas-бүкіл протеом үшін болжамды жақындық көрсеткіштері бар үлкен қайта құру дерекқорын жасады. Химоинформатикаға арналған құралдар жинағы құрылды, ол кешенді жұмыс процестерін, соның ішінде ықтимал дәрілік үміткерлерді DTA бағалауы бойынша бағалау мүмкіндігін, сондай-ақ уыттылық пен физикалық қасиеттерді тексеруді, содан кейін сұрыптауды/зерттеуді жүзеге асыруға мүмкіндік береді. Негізгі әдіснамалық үлестерге жетіспейтін белгілерді ескере отырып, көп тапсырмалы оқыту әдістемесі, 680-ден астам ықтимал белгілер бойынша бірнеше соңғы көрсеткіштерді болжау үшін трансформаторлардың бірігуі (уыттылық, байланыстыру жақындығы және физикалық қасиеттерді қоса алғанда) және рекреацияны, болжамды жақындықты және докингті біріктіретін үш модальды бағалау критерийі кіреді.

В ходе работы над этим проектом было подготовлено к публикации в общей сложности 6 научных работ, 5 из которых были опубликованы в зарубежных научных журналах, индексируемых в Science Citation Index Expanded и включенных в первый квартиль (Q1) по импакт-фактору в базе данных Web of Science и/или имеющих процентиль CiteScore в базе данных Scopus не менее 80 (восьмидесяти). Кроме того, 2 из этих журналов имеют процентиль CiteScore выше 95. Шестая публикация под названием «CheMLT-F: Multitask Learning in Biochemistry through Transformer Fusion» была представлена и в настоящее время проходит рецензирование в Journal of Cheminformatics, одном из высокорепутационных журналов по биоинформатике Q1 (BMC Springer), также с оценкой 95%. 

Осы жобамен жұмыс барысында барлығы 6 ғылыми жұмыс жариялауға дайындалды, оның 5-і Science Citation Index Expanded индекстелген және web of Science деректер базасында импакт-фактор бойынша бірінші квартильге (Q1) енгізілген және/немесе деректер базасында citescore процентилі бар шетелдік ғылыми журналдарда жарияланды Scopus кем дегенде 80 (сексен). Сонымен қатар, осы журналдардың 2-9 citescore процентилі 95-тен жоғары. "CheMLT-F: multitask learning in Biochemistry through Transformer Fusion" атты алтыншы басылым ұсынылды және қазіргі уақытта Q1 (BMC Springer) жоғары беделді Биоинформатика журналдарының бірі Cheminformatics журналында 95% рейтингімен қаралуда.

DTA датабаза реализована по адресу https://cheml.io/binding/ Инструментарий хемоинформатики загружен по адресу https://github.com/vmun/CheMLT-F

DTA деректер базасы мына жерде жүзеге асырылады https://cheml.io/binding/ Химоинформатика құралдары мына мекен-жайға жүктелген https://github.com/vmun/CheMLT-F

Разрабатываемое программное обеспечение использует современные подходы машинного обучения, библиотеки Python, а также подвергается постоянной ревизии для ускорения и эффектиности работы. Вся работа равномерно распределена между участниками проекта для достижения эффективного исследования и разработки

Әзірленіп жатқан бағдарламалық жасақтама машиналық оқытудың, Python кітапханасының заманауи тәсілдерін қолданады, сонымен қатар жұмысты жеделдету және тиімді ету үшін үнемі қайта қаралуда. Барлық жұмыс тиімді зерттеулер мен әзірлемелерге қол жеткізу үшін жобаға қатысушылар арасында біркелкі бөлінеді

Открытие новых лекарств используя молекулярную генерацию ML и перепрофилирование уже известных соединений на основе экспериментов in silico с использованием машинного обучения

ML молекулалық генерациясын қолдана отырып жаңа дәрі дәрмектерді табу және машиналық оқытуды қолдана отырып in silico эксперименттеріне негізделген бұрыннан белгілі қосылыстарды қайта құру

UDC indices
004.9
International classifier codes
20.00.00;
Readiness of the development for implementation
Key words in Russian
машинное обучение; химическая информатика; открытие лекарства; молекулярная генерация; бенчмаркинг; многозадачное обучение; предсказание сродства к лекарству-мишени;
Key words in Kazakh
машиналық оқыту; химиялық информатика; дәрілерді анықтау; молекулалық генерация; салыстыру; көп-тапсырмалы оқыту; дәрілік мақсатқа жақындығын болжау;
Head of the organization РЕХАН САДИК Phd / Professor
Head of work ДР ФАЗЛЫ СИАМАК Ph.D / Associate Professor
Native executive in charge