Inventory number IRN Number of state registration
0323РК01173 AP19680575-KC-23 0123РК01096
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 27309572 AP19680575
Name of work
Машинное обучение для полуавтоматического формирования/генерации образовательного контента
Type of work Source of funding Report authors
Applied Уалиева Ирина Маратовна
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследования являются методы текстового упрощения с самообучением для создания образовательного контента.

Зерттеу объектісі – білім беру саласына арналған мазмұнды құру үшін өз-өзін оқыту алгоритмдері арқылы мәтінді ықшамдау әдістерін дайындау.

Цель работы – разработать новый языконезависимый, многодокументный метод текстового упрощения с самообучением (unsupervised ML) на основе анализа большого корпуса научных статей в области Computer Science. Затем задача упрощения текстов будет сформулирована в виде задачи глобальной оптимизации, которая будет осуществлять коллективное упрощение/реферирование содержимое множества документов и реализована в программной библиотеке.

Жұмыстың мақсаты - информатика саласындағы ғылыми мақалалардың үлкен корпусын талдау негізінде өз-өзін оқыту алгоритмдері арқылы (бақылаусыз машиналық оқыту) мәтінді ықшамдаудағы, жаңа, тілге тәуелсіз, көп құжатты ықшамдау әдісін жасау. Одан кейін мәтіндерді ықшамдау тапсырманы глобалды оңтайландыру мәселесі ретінде қарастырып көп құжатты мазмұнды бірге ықшамдайтын/жинақтайтын бағдарламалық кітапханасын құру.

Для достижения цели и решения задач исследования на каждом этапе работ применялись различные методы и подходы, такие как: анализ различных концепций и методов упрощения текста; анализ большого корпуса научных статей, находящихся в открытом доступе по информатике (сбор статей из arXiv, других журналов с открытым доступом, Википедии и пр,; эксперименты для оценки производительности классификаторов с использованием индивидуальных и агрегированных признаков.

Мақсатқа жету және зерттеу міндеттерін орындау үшін жұмыстың әр кезеңінде әртүрлі әдістер мен тәсілдер қолданылды, мысалы: мәтінді ықшамдаудың әртүрлі тұжырымдамалары мен әдістерін талдау; информатикадағы ашық қолжетімді ғылыми мақалалардың үлкен корпусын талдау (arXiv, басқа ашық қолжетімді журналдар, Wikipedia және т.б. мақалалар жинағы), және жинақталған мүмкіндіктерді пайдалана отырып жіктеуіштердің жұмысын бағалауға арналған эксперименттер.

Изучены концепции и методы упрощения текста. Подготовлены корпуса научных статей (в области Computer Science) для упрощения многотекстовых документов. Получены результаты исследования методов определения сложности текста. Все полученные результаты обладают достаточной новизной.

Мәтінді ықшамдаудың тұжырымдамалары мен әдістері зерттеледі. Көп құжатты мәтінді ықшамдау үшін ғылыми мақалалардың корпустары (информатика саласында) дайындалды. Мәтіннің күрделілігін анықтау әдістерін зерттеу нәтижелері алынды. Барлық алынған нәтижелер өте жаңа.

Основные конструктивные и технико-экономические показатели – новый метод текстового упрощения с самообучением, сформулированный в виде задачи глобальной оптимизации, который будет осуществлять коллективное упрощение/реферирование содержимое множества документов.

Негізгі индикаторлар мәтінді өз-өзін оқыту алгоритмдері арқылы ықшамдаудың жаңа әдістері және оны көп құжатты мәтінгің мазмұнын ықшамдайтын/жинақтайтын глобалды оңтайландыру мәселесі түрінде құрастыру.

Все выполненные работы направлены на получение единого конечного результата в виде разработанной программной библиотеки.

Барлық орындалған жұмыстар әзірленген бағдарламалық кітапхана түріндегі бір түпкілікті нәтиже алуға бағытталған.

Полученные результаты направлены на получение эффективных методов упрощения текстов.

Алынған нәтижелер мәтіндерді ықшамдаудың тиімді әдістерін алуға бағытталған.

Научные и теоретические результаты, полученные в ходе этого проекта, будут использованы техническими писателями, разработчиками учебников/учебных пособий, школьными учителями, преподавателями ВУЗов и другими исследователями.

Осы жоба барысында алынған ғылыми-теориялық нәтижелерді техникалық, оқулық/оқу құралдарын әзірлеушілер, мектеп мұғалімдері, университет профессорлары және басқа зерттеушілер пайдаланады.

UDC indices
004.8 Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем. Искусственный интеллект
International classifier codes
20.01.00;
Key words in Russian
многодокументное упрощение текстов; семантический анализ; граф знаний; генерация образовательного контента; векторное представление знаний;
Key words in Kazakh
көп-құжатты мәтінді ықшамдау; семантикалық талдау; білім графигі; білім контентін құру; білім эмбедингі;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Уалиева Ирина Маратовна Кандидат физико-математических наук / -