Inventory number IRN Number of state registration
0325РК00507 AP22686112-KC-25 0124РК00298
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 9944000 AP22686112
Name of work
Исследование соматических мутаций по данным одноклеточной РНК с использованием методов машинного обучения у пациентов с заболеванием периферических артерий
Type of work Source of funding Report authors
Applied Куникеев Айдын Даулетович
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Казахский Национальный Исследовательский технический университет имени К.И. Сатпаева"
Abbreviated name of the service recipient НАО «КазНИТУ им. К.И. Сатпаева»
Abstract

пациенты с заболеванием периферических артерий (ЗПА), который входит в группу сердечно-сосудистые заболевания (ССЗ)

жүрек-қан тамырлары ауруларымен (ЖТА) құрамына кіретін, перифериялық артерия аурулары (ПАА) бар пациенттер

Основная цель этого исследования — создать инклюзивный pipeline для выявления соматических мутаций у пациентов с заболеванием периферических артерий (ЗПА) с использованием таких инструментов, как Gemini, Cosmic и Monocle, а также различных методов машинного обучения. Цель первого года: просмотреть и написать обзорную статью об инструментах предварительных вычислений и инструментах кластеризации экспрессии генов.

Бұл зерттеудің негізгі мақсаты - Gemini, Cosmic және Monocle сияқты құралдар және әртүрлі машиналық оқыту әдістерін пайдалана отырып, перифериялық артерия ауруы (ПАА) бар пациенттеріндегі соматикалық мутацияларды анықтау үшін инклюзивті pipeline құру. Бірінші жылдың мақсаты: Алдын ала есептеу құралдарына шолу жасау және солар бойынша және ген экспрессиясын кластерлеу құралдары бойынша шолу қағазын жазу.

Дизайн и гипотеза Две группы: пациенты и контроль, сопоставимые по демографии. Гипотеза: различия в составе клеточных популяций и профилях scRNA‑seq отражают патогенез и пригодны для биомаркеров. Метод Открытые 10x scRNA‑seq (NCBI/ENA). SRA→FASTQ (разделение дорожек 10x); квантификация STARsolo (10x v3, порядок cDNA→CB+UMI). QC: фильтрация по числу генов и mt%; normalize_total→log1p; HVG (seurat_v3). Аналитика: PCA→соседи→UMAP→Leiden. Типизация по маркёрам (T, NK, B/Plasma, Myeloid/Mono, Dendritic, Endothelial, Smooth muscle, Fibroblast/Stromal, Epithelial, Mast, Erythroid, Neuronal/Glia) с ручной валидацией; единая палитра. Интеграция по общим HVG (при необходимости батч‑коррекция). Сравнения «пациенты vs контроль»: дифференциальная экспрессия по типам клеток, differential abundance, обогащение путей. Опции: траектории (Monocle/scVelo/CellRank) для релевантных линий; таргетный мутационный модуль (cellsnp‑lite/VarTrix). Оценка: стабильность кластеров, согласованность аннотаций, FDR/эффект‑размеры. Почему изменили подход Фокус на 10x scRNA‑seq (STARsolo+Scanpy) вместо смешения bulk‑стека: меньше инструментальной разнородности, выше воспроизводимость и корректность сравнений. Опции (траектории, мутации) — как расширяемые, не обязательные модули.

Дизайн және гипотеза Екі топ: пациенттер және бақылау тобы, демографиялық көрсеткіштер бойынша сәйкестендірілді. Гипотеза: Жасуша популяциясының құрамы мен scRNA-seq профильдеріндегі айырмашылықтар патогенезді көрсетеді және биомаркерлерге жарамды. Әдіс Ашық 10x scRNA-seq (NCBI/ENA). SRA → FASTQ (10x жолақты бөлу); STARsolo сандық анықтау (10x v3, ретті кДНҚ → CB + UMI). QC: ген саны және mt бойынша сүзу; normalize_total → log1p; HVG (seurat_v3). Аналитика: PCA → көршілер → UMAP → Лейден. Маркерді теру (T, NK, B/Плазма, Миелоид/Моно, Дендриттік, Эндотелий, Тегіс бұлшықет, Фибробласт/Стромаль, Эпителий, Маст, Эритроид, Нейрон/Глия) қолмен валидациямен; біріктірілген палитра. Ортақ HVG арқылы интеграциялау (қажет болған жағдайда топтық түзету). Пациент пен бақылау тобын салыстыру: жасуша түрі бойынша дифференциалды экспрессия, дифференциалды молшылық, жолды байыту. Опциялар: тиісті тектер үшін траекториялар (Monocle/scVelo/CellRank); мақсатты мутация модулі (cellsnp-lite/VarTrix). Бағалау: кластерлік тұрақтылық, аннотацияның консистенциясы, FDR/эффект өлшемдері. Неліктен біз тәсілімізді өзгерттік Көлемді стектерді араластырудың орнына 10x scRNA-seq (STARsolo + Scanpy)-ге назар аударыңыз: аспаптық гетерогенділік аз, қайталанымдылығы жоғары және салыстырулардың дәлдігі жоғары. Опциялар (траекториялар, мутациялар) кеңейтілетін, міндетті модульдер емес.

Пайплайн от сырых чтений до разметки клеток успешно выполнен для всего набора образцов с едиными параметрами QC/обработки; получены устойчивые UMAP и кластеры Leiden, подтверждающие стабильность результатов. Клеточный состав: уверенно детектированы T‑ и NK‑клетки (соседние, хорошо отделимые области), B/Plasma (смежные, но разведённые кластеры), миелоидно‑моноцитарные и дендритные «островки». Среди стромальных — эндотелиальные, гладкомышечные, фибробластные/стромальные, эпителиальные; встречаются маст‑ и эритроидные фракции. Аннотации согласованы с маркёрами; единая палитра обеспечивает прямое межобразцовое сравнение. Сопоставимость: «ядро» типов воспроизводится во всех запусках; вариабельность долей умеренная и биологически ожидаемая. Межпартийных артефактов, искажающих структуру, не выявлено. Качество: стандартизованный QC повысил контрастность кластеров; согласованные HVG/PCA/граф соседей обеспечили устойчивые UMAP. Практическая готовность: для каждого образца получены матрицы, разметка, UMAP и таблицы маркёров — база для сравнения долей типов, дифференциальной экспрессии и pathway‑обогащений. Вывод: сформирована репрезентативная карта клеточного ландшафта; результаты воспроизводимы и готовы к интеграции и межгру

Шикі оқудан бастап жасуша таңбалауына дейінгі құбыр желісі біркелкі QC/өңдеу параметрлерімен бүкіл үлгі жиынтығы үшін сәтті аяқталды; нәтижелердің тұрақтылығын растайтын тұрақты UMAP және Лейден кластерлері алынды. Жасуша құрамы: Т және NK жасушалары (іргелес, жақсы бөлінген аймақтар), B/плазма (іргелес, бірақ бөлінген кластерлер), миелоидты-моноцитті және дендритті «аралдар» сенімді түрде анықталды. Стромальды жасушаларға эндотелий, тегіс бұлшықет, фибробласт/стромальды және эпителий жасушалары кірді; мастикалық және эритроидты фракциялар да болды. Аннотациялар маркерлермен сәйкес келді; бірыңғай палитра тікелей үлгіаралық салыстыруды қамтамасыз етеді. Салыстырмалылық: жасуша түрлерінің «ядросы» барлық сатыларда қайталанатын болды; фракцияның өзгергіштігі орташа және биологиялық тұрғыдан күтілген. Құрылымды бұрмалайтын ешқандай партияаралық артефактілер анықталмады. Сапасы: Стандартталған QC кластерлік контрастты арттырды; тұрақты HVG/PCA/көрші графигі сенімді UMAP-тарды қамтамасыз етті. Практикалық дайындық: Әрбір үлгі үшін матрицалар, таңбалау, UMAP және маркер кестелері жасалды — бұл тип пропорцияларын, дифференциалды өрнекті және жолдарды байытуды салыстыруға негіз болды. Қорытынды: Жасушалық ландшафттың репрезентативті картасы жасалды; нәтижелер қайталанатын және интеграция мен топаралық талдауға дайын.

Архитектура Windows+WSL (Ubuntu), conda + отдельная Python‑среда. Стек: SRA‑Toolkit → STAR/STARsolo (10x) → Scanpy/AnnData (QC, HVG, PCA/UMAP/Leiden, маркёры), автоматизация и веб‑монитор; единый профиль 10x v3 и палитры. Производительность STARsolo ~46–50 млн чт/ч; 2.5–4 ч на SRR. Scanpy 10–30 мин. End‑to‑end 3–6 ч. Оптимально 2 параллельных задания (~12 потоков каждое). Ресурсы RAM 30–32 ГБ/задачу; диск: FASTQ 110–140 ГБ, выход — сотни МБ–неск. ГБ, итоги 1–2 ГБ; индекс — десятки ГБ. Нужен стабильный канал. Воспроизводимость и QC Порядок cDNA→CB+UMI, единые QC/HVG/PCA/UMAP/Leiden; монитор активность/«stale». Экономика Open‑source; ~30–40 CPU·ч/SRR; главный лимит — диск (запас ×2–3). Масштабирование и устойчивость Линейно до I/O‑предела; оптимум — 2 параллельных; поэтапность и проверки — безопасные перезапуски. Надёжность Открытые источники, полная трассируемость. Ценность Быстрый путь к разметке/маркёрам/визуализациям; база для интеграции, сравнений, дифф. экспрессии, pathway; расширяемость (траектории, мутации). Риски/меры Диск — ротация; сеть — докачка/валидация; I/O — ограничение параллелизма, разнос по томам.

Сәулет Windows + WSL (Ubuntu), conda + бөлек Python ортасы. Стек: SRA-Toolkit → STAR/STARsolo (10x) → Scanpy/AnnData (QC, HVG, PCA/UMAP/Leiden, маркерлер), автоматтандыру және веб-монитор; бір 10x v3 профилі және палитралары. Өнімділік STARsolo ~46–50 миллион оқу/сағ; SRR-де 2,5–4 сағат. Scanpy 10–30 мин. Толық 3–6 сағат. Оңтайлы түрде екі параллель жұмыс (әрқайсысы ~12 ағын). Ресурстар Жедел жады 30–32 ГБ/тапсырма; Диск: FASTQ 110–140 ГБ, шығыс: жүздеген МБ–бірнеше ГБ, барлығы: 1–2 ГБ; индекс: ондаған ГБ. Тұрақты құбыр қажет. Қайталанымдылық және QC cDNA→CB+UMI тізбегі, біріктірілген QC/HVG/PCA/UMAP/Leiden; белсенділік/ескірген монитор. Экономика Ашық бастапқы код; ~30–40 CPU сағ/SRR; негізгі шектеу - диск (бас кеңістігінен 2-3 есе көп). Масштабталу және төзімділік Кіріс/шығару шегіне дейін сызықтық; оңтайлы: 2 параллель түйін; кезеңділік және тексеру: қауіпсіз қайта іске қосу. Сенімділік Ашық бастапқы код, толық бақылау мүмкіндігі. Құндылық Таңбалауға/маркерлерге/визуализацияға жылдам жол; интеграция, салыстыру, дифференциалды өрнек, жол үшін негіз; кеңейту (жолдар, мутациялар). Тәуекелдер/Шаралар Диск — айналу; желі — жалғастыру/тексеру; Кіріс/шығару - параллелизмді шектеу, көлем аралығы.

На этапе разработки эффективного pipeline для определения генетических факторов сердечно-сосудистых заболеваний (ССЗ), включающий заболевания периферических артерий (ЗПА).

ПАА-ны қамтитын ЖТА генетикалық негізін анықтау үшін тиімді pipeline құру кезеңінде

Новый конвейер сокращает время «FASTQ→результат» до 3–6 часов на образец, обеспечивая параллельную обработку (2 задания) без деградации I/O. Стандартизованные QC/HVG/UMAP/Leiden и единая палитра повышают воспроизводимость и сопоставимость между выборками. Использование STARsolo и Scanpy даёт точные подсчёты и устойчивые кластеры при умеренных ресурсах (≈12 потоков CPU и 30–32 ГБ ОЗУ на задание). Встроенный мониторинг статусов, автоматические перезапуски и «stale»-сигналы уменьшают операционные простои. Кросс‑платформенная архитектура (Windows+WSL) и открытые лицензии снижают барьеры внедрения и стоимость, сохраняя расширяемость (траектории, мутации) без усложнения базовой линии.

Жаңа құбыр FASTQ нәтижесін әр үлгіге 3-6 сағатқа дейін қысқартады, бұл енгізу/шығаруды бұзбай параллель өңдеуге (екі жұмыс) мүмкіндік береді. Стандартталған QC/HVG/UMAP/Leiden және бірыңғай палитра үлгілер арасындағы қайталануды және салыстыруды жақсартады. STARsolo және Scanpy пайдалану дәл санауларды және орташа ресурстармен тұрақты кластерлерді қамтамасыз етеді (әр жұмысқа ≈12 CPU ағыны және 30-32 ГБ жедел жады). Кіріктірілген күйді бақылау, автоматты қайта іске қосу және ескірген сигналдар операциялық үзіліс уақытын азайтады. Кросс-платформалық архитектура (Windows + WSL) және ашық лицензиялау бастапқы деңгейді қиындатпай кеңейтімділікті (траекториялар, мутациялар) сақтай отырып, іске асыру кедергілері мен шығындарын азайтады.

Пайплайн предназначен для одноклеточных транскриптомных исследований 10x на пользовательских ПК (Windows+WSL) и серверных кластерах. Применим к: сравнительным исследованиям «пациенты–контроль», картированию клеточного состава тканей, поиску биомаркеров, оценке изменений долей типов/состояний, скринингу терапевтических эффектов, онкологии, иммунологии, регенерации/заживлению ран, воспалению и инфекциям. Подходит для быстрой валидации внешних наборов, интеграции нескольких партий, подготовки отчётов/фигур и учебных курсов. Открытая архитектура упрощает перенос на облака и расширение функционала (траектории, таргетные мутации, pathway‑анализ).

Бұл құбыр жұмыс үстелі компьютерлерінде (Windows+WSL) және сервер кластерлерінде 10 еселік бір жасушалы транскриптомиялық зерттеулерге арналған. Ол келесі мақсаттарда қолданылады: салыстырмалы пациент-бақылау зерттеулері, тін жасушаларының құрамын картаға түсіру, биомаркерлерді ашу, жасуша түрінің/жағдайының пропорцияларындағы өзгерістерді бағалау, терапиялық әсерді скринингтеу, онкология, иммунология, регенерация/жараның жазылуы, қабыну және инфекция. Ол сыртқы деректер жиынтығын жылдам тексеру, бірнеше топтамаларды біріктіру, есептер/сандарды дайындау және оқыту курстары үшін қолайлы. Ашық архитектура бұлт миграциясын және функционалдылықты кеңейтуді (траекториялар, мақсатты мутациялар, жолдарды талдау) жеңілдетеді.

UDC indices
004.9
International classifier codes
20.00.00; 20.01.00;
Key words in Russian
Машинное обучение; Биоинформатика; Исскуственный интеллект; Одноклеточный анализ; Соматическая мутация;
Key words in Kazakh
Машиналық оқыту; Биоинформатика; Жасанды интеллект; Бір жасушалық талдау; Соматикалық мутация;
Head of the organization Кульдеев Ержан Итеменович Кандидат технических наук РК, кандидат технических наук РФ / профессор
Head of work Куникеев Айдын Даулетович / Магистр техники и технологии