| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00730 | AP26105113-KC-25 | 0125РК00656 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 0 | ||||
| International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 39863071 | AP26105113 | ||
| Name of work | ||||
| Создание интеллектуальной системы глубокого анализа медицинских текстов для выявления генетических заболеваний на основе NLP и онтологических моделей | ||||
| Type of work | Source of funding | Report authors | ||
| Fundamental | Мукажанов Нуржан Какенович | |||
|
0
1
3
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | Нет | |||
| Full name of the service recipient | ||||
| Учреждение "Q University" | ||||
| Abbreviated name of the service recipient | ||||
| Abstract | ||||
|
Неструктурированные медицинские тексты (заключения по секвенированию, клинико-генетические описания, врачебные комментарии), содержащие сведения о генах, вариантах, диагнозах, типах наследования и фенотипах, используемые для автоматического извлечения информации о генетических заболеваниях. Генетикалық аурулар туралы ақпаратты автоматты түрде шығару үшін пайдаланылатын гендер, нұсқалар, диагноздар, тұқым қуалау үлгілері және фенотиптер туралы ақпаратты қамтитын құрылымдалмаған медициналық мәтіндер (реттік есептеулер бойынша қорытындылар, клиникалық және генетикалық сипаттамалар, дәрігерлердің пікірлері). Подготовить «семантический фундамент» системы: собрать и проанализировать ≥10 000 медицинских записей/отчётов с признаками генетических заболеваний и сформировать требования к системе; создать и адаптировать онтологию ≥500 терминов (заболевания, симптомы/фенотипы, диагнозы) для последующей интеграции с NLP-модулями. Жүйенің «семантикалық негізін» дайындау: генетикалық аурулардың белгілері бар 10 000 –нан астам медициналық жазбаларды/есептерді жинау, талдау және жүйелік талаптарды қалыптастыру; NLP модульдермен интеграция жасау үшін 500-ден астым терминнен (аурулар, симптомдар/фенотиптер, диагноздар) тұратын онтологияны жасау және бейімдеу. - Корпусная подготовка и лингвистический анализ: анонимизация, нормализация, выделение целевых сущностей (GENE, CDNA_PROT, DISEASE, PHENOTYPE и др.), статистика корпуса. - Аннотирование в Label Studio с независимой экспертной валидацией; экспорт JSON, готовность к NER/RE. - Использование библиотек и справочников: Python/pandas, spaCy, NLTK, Stanza; нормативы и базы HGVS, OMIM, ClinVar, HPO для нормализации терминов. - Онтологическое моделирование: проектирование классов Disease/Phenotype/Gene/Variant/Inheritance и отношений (например, gene_associated_with, variant_significance), реализация в OWL 2.0 с reasoning (HermiT) и SPARQL; расширение словаря Word2Vec/FastText; совместимость с HPO/OMIM/Orphanet. - Корпусты дайындау және лингвистикалық талдау: анонимдеу, қалыпқа келтіру, мақсатты мәндерді алу (GENE, CDNA_PROT, DISEASE, PHENOTYPE және т.б.), корпус статистикасы. - Label Studio бағдарламасында аннотация жасау және тәуелсіз сараптамалық тексеру; JSON форматында экспорттау, NER/RE-ге дайындау. - Кітапханалар мен анықтамалық материалдарды пайдалану: Python/pandas, spaCy, NLTK, Stanza; терминдерді қалыпқа келтіру үшін HGVS, OMIM, ClinVar және HPO нормативтері мен дерекқорларын пайдалану. - Онтологиялық модельдеу: Disease/Phenotype/Gene/Variant/Inheritance класстарын және қатынастарды (мысалы, gene_associated_with, variant_significance) жобалау, OWL 2.0 Reasoning (HermiT) мен SPARQL-де жүзеге асыру, Word2Vec/FastText сөздік кеңейтімі; HPO/OMIM/Orphanet үйлесімділігі выполнен сбор и анализ ≥10 000 записей, сформированы требования; создана и адаптирована онтология ≥500 терминов 10 000-нан астам жазбаларды жинау және талдау орындалды, талаптар қалыптастырылды; 500-ден астам терминнен тұратын онтология жасалып, бейімделді. Технико-экономические показатели разрабатываемый системы напрямую влияют на повышение точности получения медицинских значений и связей за счет использования аннотированного корпуса и интеграции с онтологической моделью генетических заболеваний и повышают точность получаемых данных. Использование нормализованных терминов и взаимосвязей, согласованных с международными базами данных (HPO, OMIM, Orphanet), обеспечивает стандартизированную обработку и сокращает время анализа медицинских текстов на 20–30%. Реализация онтологического подхода улучшает воспроизводимость и интероперабельность данных, снижает нагрузку на экспертов и объем ручной разметки. Экономическая эффективность проявляется в снижении затрат на подготовку и обработку данных, а также в повышении качества и скорости работы систем клинического генетического анализа. Әзірленетін жүйенің техникалық-экономикалық көрсеткіштеріне аннотацияланған корпусты пайдалану және генетикалық аурулардың онтологиялық моделімен интеграциялау арқылы медициналық мәндер мен байланыстарды алу дәлдігінің артуына тікелей әсер етеді және алынған деректердің нақтылығын жақсартады. Халықаралық дерекқорларға (HPO, OMIM, Orphanet) сәйкестендірілген нормаланған терминдер мен қатынастарды пайдалану стандартталған өңдеуді қамтамасыз етеді және медициналық мәтіндерді талдауға қажетті уақытты 20-30%-ға қысқартады. Онтологиялық тәсілді енгізу деректердің қайталануын және өзара әрекеттесуін жақсартады, сарапшылардың жұмыс жүктемесін және қолмен таңбалау жұмысын азайтады. Шығындардың тиімділігі деректерді дайындау және өңдеу шығындарының азаюымен, сондай-ақ клиникалық генетикалық талдау жүйелерінің сапасы мен жылдамдығының жоғарылауымен көретіледі. Результаты находятся в стадии разработки: подготовлена аннотированная база данных для выявления и автоматического извлечения генетических заболеваний, разработана онтологическая модель, сформированы основные требования к системе. нәтижелер әзірлену сатысында: генетикалық ауруларды анықтау және автоматты шығаруға арналған аннотацияланған дерекқор дайындалды, онтологиялық моделі әзірленіп, жүйенің негізгі талаптары дайындалды. Эффективность работы подтверждается повышением точности и согласованности аннотированных медицинских данных, что позволяет надежно получать значения и взаимосвязи, связанные с генетическими заболеваниями. Разработанная онтологическая модель спроектирована с учетом совместимости с международными базами данных (HPO, OMIM, Orphanet), что повышает интероперабельность и стандартизацию данных. Объединение аннотированных корпусов с онтологией ускоряет процесс анализа и повышает точность результатов. Реализованные решения снижают трудозатраты экспертов и повышают качество последующих моделей NER и Relation Extraction. Полученные результаты могут служить основной базой данных для интеллектуальных систем анализа клинико-генетической информации. Жұмыстың тиімділігі аннотацияланған медициналық деректердің дәлдігі мен бірізділігінің жақсаруымен көрсетіледі, бұл генетикалық аурулармен байланысты мәндер мен байланыстарды сенімді түрде алуға мүмкіндік береді. Әзірленген онтологиялық модель халықаралық дерекқорлармен (HPO, OMIM, Orphanet) сәйкестендіре жасалғандықтан, деректердің өзара әрекеттесуін және стандарттауды жақсартады. Аннотацияланған корпустарды онтологиямен біріктіру, талдау процесін жеделдетеді және нәтижелердің дәлдігін жақсартады. Енгізілген шешімдер сарапшылардың еңбек шығындарын азайтады және кейінгі NER және Relation Extraction модельдерінің сапасын жақсартады. Алынған нәтижелер клиникалық-генетикалық ақпаратты талдауға арналған интеллектуалды жүйелердің негізгі дерекқоры бола алады. Разработанная система может применяться в медицинских учреждениях, научно-исследовательских центрах и биоинформационных лабораториях для автоматизации анализа медицинской документации и выявления сведений о генетических заболеваниях. Она пригодна для интеграции в клинические информационные системы и системы поддержки принятия врачебных решений, что позволит ускорить диагностику, повысить ее точность и оптимизировать работу врачей. Әзірленген жүйе медициналық мекемелерде, ғылыми-зерттеу орталықтарында және биоинформатика зертханаларында медициналық құжаттаманы талдауды автоматтандыру және генетикалық аурулар туралы мәліметтерді анықтау мақсатында қолданылуы мүмкін. Бұл жүйе клиникалық ақпараттық жүйелер мен дәрігерлік шешімдерді қолдау жүйелеріне біріктіруге қолайлы, бұл өз кезегінде диагноз қою үдерісін жеделдетуге, оның дәлдігін арттыруға және дәрігерлердің жұмысын оңтайландыруға мүмкіндік береді. |
||||
| UDC indices | ||||
| 004.8+004.912:61:575 | ||||
| International classifier codes | ||||
| 28.23.00; 20.23.25; | ||||
| Key words in Russian | ||||
| Интеллектуальная система; Обработка естественного языка (NLP); Генетические заболевания; Медицинские тексты; Онтологическое моделирование; Извлечение информации; Электронные медицинские записи (EHR); Семантический анализ; | ||||
| Key words in Kazakh | ||||
| Интеллектуалды жүйе; Табиғи тілдерді өңдеу (NLP); Генетикалық аурулар; Медециналық текстер; Онтологиялық модельдеу; Ақпаратты алу; Электрондық денсаулық жазбалары (EHR); Семантикалық талдау; | ||||
| Head of the organization | ДЖАНЕГИЗОВА АЙСУЛУ САБИРХАНОВНА | / нет | ||
| Head of work | Мукажанов Нуржан Какенович | PhD in Computer Sciences / 21100 – Компьютерные науки и информатика | ||