Inventory number IRN Number of state registration
0324РК00404 AP23490594-KC-24 0124РК00829
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 33972457.8 AP23490594
Name of work
Хромосомная сборка полных геномов индивидуумов казахской популяции c применением современных геномных технологий
Type of work Source of funding Report authors
Fundamental Каиров Улыкбек Еруланович
0
1
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Частное учреждение "National Laboratory Astana"
Abbreviated name of the service recipient National Laboratory Astana
Abstract

Геномные данные индивидуумов казахской популяции

Қазақ популяциясы дараларының геномдық деректері

Основная цель проекта заключается в создании хромосомной сборки полных геномов индивидуумов казахской популяции с применением данных длинных и коротких сиквенсовых прочтений, а также данных оптических геномных карт bionano и хромосомной конформации Hi-C.

Жобаның негізгі мақсаты ұзақ және қысқа сиквенстік оқылым деректерін, сондай-ақ bionano оптикалық геномдық карталарының деректерін және Hi-C хромосомалық конформациясын пайдалана отырып, қазақ популяциясы жеке тұлғаларының толық геномдарының хромосомалық жинағын жасау болып табылады.

биоинформатические метода анализа данных: guppy, FastQC, multiQC, flye, shasta, medaka, racoon, quast, busco и другие.

Деректерді талдаудың биоинформатикалық әдістері: guppy, FastQC, multiQC, fly, shasta, medaka, racoon, quast, busco және басқалар.

Платформа PromethION сгенерировала 20 332 342 сиквенсовых прочтений, 291,98 Гб данных. В среднем для каждого образца сгенерировано 6 777 447 прочтений (97,33 Гб при значении N50=52,46 Кб). Каждая проточная ячейка в среднем производила 3 388 724 прочтений (48,66 Гб). Платформа секвенирования DNBSeq сгенерировала 1 679 660 661 сиквенсовых прочтений, каждое длиной 100 п.н. В среднем, для каждого образца было получено 559 886 887 сиквенсовых прочтений. Анализ качества исходных данных секвенирования с помощью FastQC показал, что 56 594 234 прочтений (10,1% от общего количества) были дублированы, в то время как остальные 503 292 653 сиквенсовые прочтения (89,9%) были уникальными. De novo геномная сборка длинных сиквенсовых прочтений проводилась с применением методологии Flye. В среднем геномные сборки состояли из 1519 контигов (NG50= 25 869 504 п.н) и общей длиной 2 873 699 824 п.н. Более того, 95,87% (2,97/3,10 Гб) референсных оснований были покрыты, по крайней мере, одним контигом. Далее геномные сборки были улучшены с помощью методологии Medaka. Затем проведен второй этап улучшения/полировки геномных сборок с помощью HyPo, включающий длинные короткие прочтения. Заметным отличием гибридной улучшенной сборки от черновой сборки стало уменьшенное количество инсерций и делеций на 100 тысяч п.н.: после сборки с помощью Flye идентифцировано 73,89, а после гибридного улучшения с помощью HyPo 28,8.

PromethION платформасы 20 332 342 сиквенсті оқуды, 291,98 ГБ деректерді жасады. Орташа алғанда, әрбір үлгі үшін 6 777 447 оқылым жасалды(N50=52,46 Кб кезінде 97,33 Гб). Әрбір ағындық ұяшық орта есеппен 3 388 724 оқуды (48,66 Гб) құрады. Dnbseq секвенирлеу платформасы әрқайсысының ұзындығы 100 а.к. болатын 1,679,660,661 сиквенстік оқылымды жасады, орташа есеппен әр үлгі үшін 559,886,887 сиквенстік оқылым алынды. Fastqc көмегімен бастапқы реттілік деректерінің сапасын талдау 56 594 234 оқудың (жалпы санның 10,1%) қайталанғанын көрсетті, ал қалған 503 292 653 жалғасы (89,9%) бірегей болды. Осылайша, толық геномдарды одан әрі жинау үшін ұзақ және қысқа сиквенстік оқулардың сапасын бағалау жүргізілді. De novo Flye әдіснамасын қолдана отырып, ұзақ мерзімді оқулардың геномдық жинағы жүргізілді. Орташа алғанда, геномдық құрылымдар 1519 контигтен тұрды, ng50 көрсеткіші 25,869,504 б.з. б. және жалпы ұзындығы 2,873,699,824 б. з. д. сонымен қатар, анықтамалық негіздердің 95,87% (2,97/3,10 Гб) кем дегенде бір контигпен жабылған. Әрі қарай, геномдық құрылымдар Medaka әдістемесімен жетілдірілді. Содан кейін геномдық құрылымдарды Hypo көмегімен жақсартудың/"жылтыратудың" екінші кезеңі болды, оның ішінде ұзақ оқулар да, қысқа оқулар да болды. Гибридті жақсартылған құрастыру мен өрескел құрастыру арасындағы айтарлықтай айырмашылық 100 мың б.з. б. азайған инсерция мен жою болды: Flye құрастырғаннан кейін 73,89 анықталды, ал гибридті жақсартудан кейін HyPo - 28,8.

Впервые проведена de novo сборка полных геномов казахстанских индивидуумов, на основе данных длинных сиквенсовых прочтений.

Алғаш рет ұзақ сиквенттік оқылымдардың деректері негізінде қазақстандық жеке тұлғалардың толық геномдарын de novo құрастыру жүргізілді.

геномика, биоинформатика, биомедицина

геномика, биоинформатика, биомедицина

UDC indices
575.17; 57.088
International classifier codes
34.23.02; 34.23.35; 34.03.23;
Key words in Russian
геномика; полный геном; биоинформатика; популяционная генетика; секвенирование;
Key words in Kazakh
геномика; толық геном; биоинформатика; популяция генетикасы; секвенирлеу;
Head of the organization Сарбасов Дос Джурмаханбет Доктор философии (Ph.D), Биохимия и Молекулярная Биология / профессор
Head of work Каиров Улыкбек Еруланович Ph.D / +