Inventory number IRN Number of state registration
0225РК00429 AP19680575-OT-25 0123РК01096
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 2 Publications Web of science: 2 Publications Scopus: 2
Number of books Appendicies Sources
1 3 49
Total number of pages Patents Illustrations
106 0 10
Amount of funding Code of the program Table
35432616 AP19680575 30
Name of work
Машинное обучение для полуавтоматического формирования/генерации образовательного контента
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ,Модель
Report authors
Уалиева Ирина Маратовна , Мусабаев Рустам Рафикович , Төлеу Алымжан ,
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Проект направлен в помощь исследователю в его проблеме эффективного использования коллективных знаний из научной базы знаний и представления этих знаний в более простой, понятной и удобочитаемой форме.

Жоба зерттеушілерге ғылыми білім базасынан алынған ұжымдық білімді тиімді пайдалану және бұл білімді қарапайым, түсінікті және оқылатын түрде ұсыну мәселесінде көмектесуге бағытталған.

Цель проекта — разработать языконезависимый, многодокументный метод текстового упрощения с самообучением (unsupervised ML) для автоматического извлечения и обобщения знаний из больших научных корпусов в области Computer Science. Результатом стала программная библиотека, которая позволяет создавать понятный и удобочитаемый образовательный контент на основе научных текстов.

Жобаның мақсаты — Computer Science саласындағы ірі ғылыми корпустардан білімді автоматты түрде алу және қорыту үшін тілге тәуелсіз, көпқұжатты, өздігінен оқытылатын (unsupervised ML) мәтінді жеңілдету әдісін әзірлеу. Нәтижесінде ғылыми мәтіндер негізінде түсінікті әрі оқуға жеңіл білім беру контентін жасауға мүмкіндік беретін бағдарламалық кітапхана әзірленді.

В ходе проекта для анализа больших корпусов текстов использовались методы машинного обучения без учителя (unsupervised ML). Применялись методы векторного представления (эмбеддинг) токенов (на уровне слов, фраз, предложений и документов), автоматического извлечения концепций знаний и построения графа знаний. Граф знаний был представлен в векторной форме методом случайного блуждания для изучения структурных взаимосвязей между концептами. Задача упрощения и реферирования текста была поставлена как глобальная задача оптимизации, а также были разработаны и использованы метрики для оценки эффективности читабельности и многодокументного упрощения.

Жоба барысында үлкен корпусты талдау үшін бақылаусыз машиналық оқыту (unsupervised ML) әдістері қолданылды. Токендерді векторлық ұсыну (эмбеддинг) тәсілдері (сөздер, сөз тіркестері, сөйлемдер және құжаттар деңгейінде), білім ұғымдарын автоматты түрде алу және білім графын құру әдістері пайдаланылды. Білім графы ұғымдар арасындағы құрылымдық байланыстарды зерттеу үшін кездейсоқ серуен әдісін қолданып, векторлық түрде ұсынылды. Мәтінді жеңілдету мен рефераттау міндеті глобал оңтайландыру мәселесі ретінде қойылды, сондай-ақ оқылымдылықты және көпқұжатты жеңілдетудің тиімділігін бағалау метрикалары әзірленіп, қолданылды.

В рамках проекта были разработаны и исследованы новые методы упрощения многодокументного текста с использованием самообучения для создания образовательного контента. Результатом стало создание программной библиотеки KazSim, реализующей предложенные алгоритмы упрощения текста и автоматической оценки читабельности. Новизна проекта заключалась в том, что алгоритм представлял собой уникальную методологию упрощения сложных текстов до понятных, а также в формулировке задачи упрощения как глобальной задачи оптимизации. Разработанные методы и решения соответствовали современному состоянию исследований в области обработки естественного языка и машинного обучения.

В рамках проекта были разработаны и исследованы новые методы упрощения многодокументного текста с использованием самообучения для создания образовательного контента. Результатом стало создание программной библиотеки KazSim, реализующей предложенные алгоритмы упрощения текста и автоматической оценки читабельности. Новизна проекта заключалась в том, что алгоритм представлял собой уникальную методологию упрощения сложных текстов до понятных, а также в формулировке задачи упрощения как глобальной задачи оптимизации. Разработанные методы и решения соответствовали современному состоянию исследований в области обработки естественного языка и машинного обучения.

В рамках проекта была разработана библиотека Python с открытым исходным кодом, реализующая метод упрощения многодокументного текста. Библиотека обеспечивает автоматическое извлечение и преобразование текстов из большого корпуса научных статей в семантическое пространство. Результаты проекта имеют практическое применение при создании образовательного контента и могут быть использованы исследователями, преподавателями и разработчиками образовательных материалов.

Жоба аясында көп құжатты мәтінді жеңілдету әдісін жүзеге асыратын ашық бастапқы кодты Python бағдарламалық кітапханасын әзірленді. Кітапхана ғылыми мақалалардың үлкен корпусынан мәтіндерді семантикалық кеңістікке автоматты түрде алу және картаға түсіру мүмкіндігін берді. Жобаның нәтижелері білім беру мазмұнын жасауда практикалық қолданысқа ие және зерттеушілер, оқытушылар және оқу материалдарын әзірлеушілер пайдалана алады.

Результаты проекта были внедрены в виде программной библиотеки с открытым исходным кодом, размещённой в публичном доступе на платформе GitHub. Разработанные методы и подходы использовались в научных исследованиях и образовательных целях, а также распространялись среди сообщества учёных через публикации и участие в международных конференциях. Полученные результаты могут применяться преподавателями, исследователями и разработчиками учебных материалов для автоматизированного формирования образовательного контента.

Жобаның нәтижелері GitHub платформасында жалпыға қолжетімді ашық бастапқы кодты бағдарламалық кітапхана ретінде енгізілді. Әзірленген әдістер мен тәсілдер ғылыми зерттеулер мен білім беру мақсаттарында қолданылды, сондай-ақ ғылыми қауымдастық арасында басылымдар мен халықаралық конференцияларға қатысу арқылы таратылды. Нәтижелерді мұғалімдер, зерттеушілер және оқу материалдарын әзірлеушілер білім беру мазмұнын автоматтандырылған түрде жасау үшін пайдалана алады.

Полученные результаты продемонстрировали высокую эффективность разработанных методов и программной библиотеки KazSim, обеспечивавшей автоматическое упрощение текстов с сохранением смысловой целостности и информативности. Разработанные алгоритмы показали устойчивость и применимость к различным типам текстов, а созданная библиотека соответствовала современным требованиям в области обработки естественного языка и может использоваться в научных и образовательных целях.

Эксперименттік нәтижелер әзірленген әдістер мен KazSim бағдарламалық кітапханасының жоғары тиімділігін көрсетті, бұл семантикалық тұтастық пен ақпараттық мазмұнды сақтай отырып, мәтінді автоматты түрде жеңілдетуге мүмкіндік берді. Әзірленген алгоритмдер әртүрлі мәтін түрлеріне беріктігін және қолданылуын көрсетті, ал алынған кітапхана табиғи тілді өңдеудегі заманауи талаптарға сай келді және ғылыми және білім беру мақсаттарында пайдаланылуы мүмкін.

Полученные результаты могут применяться в научных исследованиях, образовании и разработке учебных материалов. Разработанная библиотека KazSim может использоваться техническими писателями, преподавателями и исследователями для автоматического формирования и упрощения образовательного контента. Кроме того, созданные методы и программные решения полезны для анализа больших корпусов текстов, генерации учебных материалов и улучшения понимания сложных научных текстов пользователями.

Алынған нәтижелерді ғылыми зерттеулерде, білім беруде және оқу материалдарын әзірлеуде қолдануға болады. Әзірленген KazSim кітапханасын техникалық жазушылар, мұғалімдер және зерттеушілер оқу мазмұнын автоматты түрде жасау және жеңілдету үшін пайдалана алады. Сонымен қатар, әзірленген әдістер мен бағдарламалық шешімдер үлкен мәтіндік корпустарды талдау, оқу материалдарын жасау және күрделі ғылыми мәтіндерді пайдаланушылардың түсінуін жақсарту үшін пайдалы.

UDC indices
004.8
International classifier codes
20.01.00;
Readiness of the development for implementation
Key words in Russian
многодокументное упрощение текстов; семантический анализ; граф знаний; генерация образовательного контента; векторное представление знаний;
Key words in Kazakh
көп-құжатты мәтінді ықшамдау; семантикалық талдау; білім графигі; білім контентін құру; білім эмбедингі;
Head of the organization Бектемесов Мактагали Абдимажитович Доктор физико-математических наук / Профессор
Head of work Уалиева Ирина Маратовна Кандидат физико-математических наук / Ассоциированный профессор
Native executive in charge