| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00507 | AP22686112-KC-25 | 0124РК00298 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 0 | ||||
| International publications: 1 | Publications Web of science: 0 | Publications Scopus: 0 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 9944000 | AP22686112 | ||
| Name of work | ||||
| Исследование соматических мутаций по данным одноклеточной РНК с использованием методов машинного обучения у пациентов с заболеванием периферических артерий | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Куникеев Айдын Даулетович | |||
|
0
0
0
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева" | ||||
| Abbreviated name of the service recipient | НАО «КазНИТУ им. К.И. Сатпаева» | |||
| Abstract | ||||
|
пациенты с заболеванием периферических артерий (ЗПА), который входит в группу сердечно-сосудистые заболевания (ССЗ) жүрек-қан тамырлары ауруларымен (ЖТА) құрамына кіретін, перифериялық артерия аурулары (ПАА) бар пациенттер Основная цель этого исследования — создать инклюзивный pipeline для выявления соматических мутаций у пациентов с заболеванием периферических артерий (ЗПА) с использованием таких инструментов, как Gemini, Cosmic и Monocle, а также различных методов машинного обучения. Цель первого года: просмотреть и написать обзорную статью об инструментах предварительных вычислений и инструментах кластеризации экспрессии генов. Бұл зерттеудің негізгі мақсаты - Gemini, Cosmic және Monocle сияқты құралдар және әртүрлі машиналық оқыту әдістерін пайдалана отырып, перифериялық артерия ауруы (ПАА) бар пациенттеріндегі соматикалық мутацияларды анықтау үшін инклюзивті pipeline құру. Бірінші жылдың мақсаты: Алдын ала есептеу құралдарына шолу жасау және солар бойынша және ген экспрессиясын кластерлеу құралдары бойынша шолу қағазын жазу. Дизайн и гипотеза Две группы: пациенты и контроль, сопоставимые по демографии. Гипотеза: различия в составе клеточных популяций и профилях scRNA‑seq отражают патогенез и пригодны для биомаркеров. Метод Открытые 10x scRNA‑seq (NCBI/ENA). SRA→FASTQ (разделение дорожек 10x); квантификация STARsolo (10x v3, порядок cDNA→CB+UMI). QC: фильтрация по числу генов и mt%; normalize_total→log1p; HVG (seurat_v3). Аналитика: PCA→соседи→UMAP→Leiden. Типизация по маркёрам (T, NK, B/Plasma, Myeloid/Mono, Dendritic, Endothelial, Smooth muscle, Fibroblast/Stromal, Epithelial, Mast, Erythroid, Neuronal/Glia) с ручной валидацией; единая палитра. Интеграция по общим HVG (при необходимости батч‑коррекция). Сравнения «пациенты vs контроль»: дифференциальная экспрессия по типам клеток, differential abundance, обогащение путей. Опции: траектории (Monocle/scVelo/CellRank) для релевантных линий; таргетный мутационный модуль (cellsnp‑lite/VarTrix). Оценка: стабильность кластеров, согласованность аннотаций, FDR/эффект‑размеры. Почему изменили подход Фокус на 10x scRNA‑seq (STARsolo+Scanpy) вместо смешения bulk‑стека: меньше инструментальной разнородности, выше воспроизводимость и корректность сравнений. Опции (траектории, мутации) — как расширяемые, не обязательные модули. Дизайн және гипотеза Екі топ: пациенттер және бақылау тобы, демографиялық көрсеткіштер бойынша сәйкестендірілді. Гипотеза: Жасуша популяциясының құрамы мен scRNA-seq профильдеріндегі айырмашылықтар патогенезді көрсетеді және биомаркерлерге жарамды. Әдіс Ашық 10x scRNA-seq (NCBI/ENA). SRA → FASTQ (10x жолақты бөлу); STARsolo сандық анықтау (10x v3, ретті кДНҚ → CB + UMI). QC: ген саны және mt бойынша сүзу; normalize_total → log1p; HVG (seurat_v3). Аналитика: PCA → көршілер → UMAP → Лейден. Маркерді теру (T, NK, B/Плазма, Миелоид/Моно, Дендриттік, Эндотелий, Тегіс бұлшықет, Фибробласт/Стромаль, Эпителий, Маст, Эритроид, Нейрон/Глия) қолмен валидациямен; біріктірілген палитра. Ортақ HVG арқылы интеграциялау (қажет болған жағдайда топтық түзету). Пациент пен бақылау тобын салыстыру: жасуша түрі бойынша дифференциалды экспрессия, дифференциалды молшылық, жолды байыту. Опциялар: тиісті тектер үшін траекториялар (Monocle/scVelo/CellRank); мақсатты мутация модулі (cellsnp-lite/VarTrix). Бағалау: кластерлік тұрақтылық, аннотацияның консистенциясы, FDR/эффект өлшемдері. Неліктен біз тәсілімізді өзгерттік Көлемді стектерді араластырудың орнына 10x scRNA-seq (STARsolo + Scanpy)-ге назар аударыңыз: аспаптық гетерогенділік аз, қайталанымдылығы жоғары және салыстырулардың дәлдігі жоғары. Опциялар (траекториялар, мутациялар) кеңейтілетін, міндетті модульдер емес. Пайплайн от сырых чтений до разметки клеток успешно выполнен для всего набора образцов с едиными параметрами QC/обработки; получены устойчивые UMAP и кластеры Leiden, подтверждающие стабильность результатов. Клеточный состав: уверенно детектированы T‑ и NK‑клетки (соседние, хорошо отделимые области), B/Plasma (смежные, но разведённые кластеры), миелоидно‑моноцитарные и дендритные «островки». Среди стромальных — эндотелиальные, гладкомышечные, фибробластные/стромальные, эпителиальные; встречаются маст‑ и эритроидные фракции. Аннотации согласованы с маркёрами; единая палитра обеспечивает прямое межобразцовое сравнение. Сопоставимость: «ядро» типов воспроизводится во всех запусках; вариабельность долей умеренная и биологически ожидаемая. Межпартийных артефактов, искажающих структуру, не выявлено. Качество: стандартизованный QC повысил контрастность кластеров; согласованные HVG/PCA/граф соседей обеспечили устойчивые UMAP. Практическая готовность: для каждого образца получены матрицы, разметка, UMAP и таблицы маркёров — база для сравнения долей типов, дифференциальной экспрессии и pathway‑обогащений. Вывод: сформирована репрезентативная карта клеточного ландшафта; результаты воспроизводимы и готовы к интеграции и межгру Шикі оқудан бастап жасуша таңбалауына дейінгі құбыр желісі біркелкі QC/өңдеу параметрлерімен бүкіл үлгі жиынтығы үшін сәтті аяқталды; нәтижелердің тұрақтылығын растайтын тұрақты UMAP және Лейден кластерлері алынды. Жасуша құрамы: Т және NK жасушалары (іргелес, жақсы бөлінген аймақтар), B/плазма (іргелес, бірақ бөлінген кластерлер), миелоидты-моноцитті және дендритті «аралдар» сенімді түрде анықталды. Стромальды жасушаларға эндотелий, тегіс бұлшықет, фибробласт/стромальды және эпителий жасушалары кірді; мастикалық және эритроидты фракциялар да болды. Аннотациялар маркерлермен сәйкес келді; бірыңғай палитра тікелей үлгіаралық салыстыруды қамтамасыз етеді. Салыстырмалылық: жасуша түрлерінің «ядросы» барлық сатыларда қайталанатын болды; фракцияның өзгергіштігі орташа және биологиялық тұрғыдан күтілген. Құрылымды бұрмалайтын ешқандай партияаралық артефактілер анықталмады. Сапасы: Стандартталған QC кластерлік контрастты арттырды; тұрақты HVG/PCA/көрші графигі сенімді UMAP-тарды қамтамасыз етті. Практикалық дайындық: Әрбір үлгі үшін матрицалар, таңбалау, UMAP және маркер кестелері жасалды — бұл тип пропорцияларын, дифференциалды өрнекті және жолдарды байытуды салыстыруға негіз болды. Қорытынды: Жасушалық ландшафттың репрезентативті картасы жасалды; нәтижелер қайталанатын және интеграция мен топаралық талдауға дайын. Архитектура Windows+WSL (Ubuntu), conda + отдельная Python‑среда. Стек: SRA‑Toolkit → STAR/STARsolo (10x) → Scanpy/AnnData (QC, HVG, PCA/UMAP/Leiden, маркёры), автоматизация и веб‑монитор; единый профиль 10x v3 и палитры. Производительность STARsolo ~46–50 млн чт/ч; 2.5–4 ч на SRR. Scanpy 10–30 мин. End‑to‑end 3–6 ч. Оптимально 2 параллельных задания (~12 потоков каждое). Ресурсы RAM 30–32 ГБ/задачу; диск: FASTQ 110–140 ГБ, выход — сотни МБ–неск. ГБ, итоги 1–2 ГБ; индекс — десятки ГБ. Нужен стабильный канал. Воспроизводимость и QC Порядок cDNA→CB+UMI, единые QC/HVG/PCA/UMAP/Leiden; монитор активность/«stale». Экономика Open‑source; ~30–40 CPU·ч/SRR; главный лимит — диск (запас ×2–3). Масштабирование и устойчивость Линейно до I/O‑предела; оптимум — 2 параллельных; поэтапность и проверки — безопасные перезапуски. Надёжность Открытые источники, полная трассируемость. Ценность Быстрый путь к разметке/маркёрам/визуализациям; база для интеграции, сравнений, дифф. экспрессии, pathway; расширяемость (траектории, мутации). Риски/меры Диск — ротация; сеть — докачка/валидация; I/O — ограничение параллелизма, разнос по томам. Сәулет Windows + WSL (Ubuntu), conda + бөлек Python ортасы. Стек: SRA-Toolkit → STAR/STARsolo (10x) → Scanpy/AnnData (QC, HVG, PCA/UMAP/Leiden, маркерлер), автоматтандыру және веб-монитор; бір 10x v3 профилі және палитралары. Өнімділік STARsolo ~46–50 миллион оқу/сағ; SRR-де 2,5–4 сағат. Scanpy 10–30 мин. Толық 3–6 сағат. Оңтайлы түрде екі параллель жұмыс (әрқайсысы ~12 ағын). Ресурстар Жедел жады 30–32 ГБ/тапсырма; Диск: FASTQ 110–140 ГБ, шығыс: жүздеген МБ–бірнеше ГБ, барлығы: 1–2 ГБ; индекс: ондаған ГБ. Тұрақты құбыр қажет. Қайталанымдылық және QC cDNA→CB+UMI тізбегі, біріктірілген QC/HVG/PCA/UMAP/Leiden; белсенділік/ескірген монитор. Экономика Ашық бастапқы код; ~30–40 CPU сағ/SRR; негізгі шектеу - диск (бас кеңістігінен 2-3 есе көп). Масштабталу және төзімділік Кіріс/шығару шегіне дейін сызықтық; оңтайлы: 2 параллель түйін; кезеңділік және тексеру: қауіпсіз қайта іске қосу. Сенімділік Ашық бастапқы код, толық бақылау мүмкіндігі. Құндылық Таңбалауға/маркерлерге/визуализацияға жылдам жол; интеграция, салыстыру, дифференциалды өрнек, жол үшін негіз; кеңейту (жолдар, мутациялар). Тәуекелдер/Шаралар Диск — айналу; желі — жалғастыру/тексеру; Кіріс/шығару - параллелизмді шектеу, көлем аралығы. На этапе разработки эффективного pipeline для определения генетических факторов сердечно-сосудистых заболеваний (ССЗ), включающий заболевания периферических артерий (ЗПА). ПАА-ны қамтитын ЖТА генетикалық негізін анықтау үшін тиімді pipeline құру кезеңінде Новый конвейер сокращает время «FASTQ→результат» до 3–6 часов на образец, обеспечивая параллельную обработку (2 задания) без деградации I/O. Стандартизованные QC/HVG/UMAP/Leiden и единая палитра повышают воспроизводимость и сопоставимость между выборками. Использование STARsolo и Scanpy даёт точные подсчёты и устойчивые кластеры при умеренных ресурсах (≈12 потоков CPU и 30–32 ГБ ОЗУ на задание). Встроенный мониторинг статусов, автоматические перезапуски и «stale»-сигналы уменьшают операционные простои. Кросс‑платформенная архитектура (Windows+WSL) и открытые лицензии снижают барьеры внедрения и стоимость, сохраняя расширяемость (траектории, мутации) без усложнения базовой линии. Жаңа құбыр FASTQ нәтижесін әр үлгіге 3-6 сағатқа дейін қысқартады, бұл енгізу/шығаруды бұзбай параллель өңдеуге (екі жұмыс) мүмкіндік береді. Стандартталған QC/HVG/UMAP/Leiden және бірыңғай палитра үлгілер арасындағы қайталануды және салыстыруды жақсартады. STARsolo және Scanpy пайдалану дәл санауларды және орташа ресурстармен тұрақты кластерлерді қамтамасыз етеді (әр жұмысқа ≈12 CPU ағыны және 30-32 ГБ жедел жады). Кіріктірілген күйді бақылау, автоматты қайта іске қосу және ескірген сигналдар операциялық үзіліс уақытын азайтады. Кросс-платформалық архитектура (Windows + WSL) және ашық лицензиялау бастапқы деңгейді қиындатпай кеңейтімділікті (траекториялар, мутациялар) сақтай отырып, іске асыру кедергілері мен шығындарын азайтады. Пайплайн предназначен для одноклеточных транскриптомных исследований 10x на пользовательских ПК (Windows+WSL) и серверных кластерах. Применим к: сравнительным исследованиям «пациенты–контроль», картированию клеточного состава тканей, поиску биомаркеров, оценке изменений долей типов/состояний, скринингу терапевтических эффектов, онкологии, иммунологии, регенерации/заживлению ран, воспалению и инфекциям. Подходит для быстрой валидации внешних наборов, интеграции нескольких партий, подготовки отчётов/фигур и учебных курсов. Открытая архитектура упрощает перенос на облака и расширение функционала (траектории, таргетные мутации, pathway‑анализ). Бұл құбыр жұмыс үстелі компьютерлерінде (Windows+WSL) және сервер кластерлерінде 10 еселік бір жасушалы транскриптомиялық зерттеулерге арналған. Ол келесі мақсаттарда қолданылады: салыстырмалы пациент-бақылау зерттеулері, тін жасушаларының құрамын картаға түсіру, биомаркерлерді ашу, жасуша түрінің/жағдайының пропорцияларындағы өзгерістерді бағалау, терапиялық әсерді скринингтеу, онкология, иммунология, регенерация/жараның жазылуы, қабыну және инфекция. Ол сыртқы деректер жиынтығын жылдам тексеру, бірнеше топтамаларды біріктіру, есептер/сандарды дайындау және оқыту курстары үшін қолайлы. Ашық архитектура бұлт миграциясын және функционалдылықты кеңейтуді (траекториялар, мақсатты мутациялар, жолдарды талдау) жеңілдетеді. |
||||
| UDC indices | ||||
| 004.9 | ||||
| International classifier codes | ||||
| 20.00.00; 20.01.00; | ||||
| Key words in Russian | ||||
| Машинное обучение; Биоинформатика; Исскуственный интеллект; Одноклеточный анализ; Соматическая мутация; | ||||
| Key words in Kazakh | ||||
| Машиналық оқыту; Биоинформатика; Жасанды интеллект; Бір жасушалық талдау; Соматикалық мутация; | ||||
| Head of the organization | Кульдеев Ержан Итеменович | Кандидат технических наук РК, кандидат технических наук РФ / профессор | ||
| Head of work | Куникеев Айдын Даулетович | / Магистр техники и технологии | ||