Inventory number IRN Number of state registration
0324РК01666 AP23487753-KC-24 0124РК00904
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 2
International publications: 2 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 29664238 AP23487753
Name of work
ИННОВАЦИОННЫЕ ТЕХНОЛОГИИ ДЛЯ АВТОМАТИЗИРОВАННОЙ КОРРЕКЦИИ КАЗАХСКОЯЗЫЧНЫХ ТЕКСТОВ: МАШИННОЕ ОБУЧЕНИЕ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗ
Type of work Source of funding Report authors
Fundamental Байтенова Лаура Маратовна
0
1
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Учреждение "Университет "Туран"
Abbreviated name of the service recipient Университет Туран
Abstract

В качестве объекта исследования выступает казахский язык, свод правил/грамматики казахского языка. Предметом исследования является автоматизированный online-корректор казахскоязычных текстов на основе морфологического анализатора.

Зерттеу объектісі ретінде қазақ тілі, қазақ тілінің ережелері/грамматика жинағы болып табылады. Зерттеу пәні морфологиялық анализатор негізінде қазақ тіліндегі мәтіндердің автоматтандырылған онлайн - түзеткіші болып табылады.

Цель работы состоит в разработке инновационной системы автоматической коррекции текстов на казахском языке, использующей передовые методы машинного обучения и морфологического анализа.

Жұмыстың мақсаты - машиналық оқыту мен морфологиялық талдаудың озық әдістерін қолдана отырып, қазақ тіліндегі мәтіндерді автоматты түрде түзетудің инновациялық жүйесін әзірлеу.

Проект включает в себя использование методов машинного обучения, таких как нейронные сети, и методов морфологического анализа для обработки и коррекции текстов. Предварительная обработка текстов, векторизация и обучение моделей - это методы обработки данных. Выбор методов основывается на их способности давать точные результаты и адаптироваться к особенностям казахского языка.

Жоба мәтінді өңдеу және түзету үшін нейрондық желілер сияқты машиналық оқыту әдістерін және морфологиялық талдау әдістерін қолдануды қамтиды. Мәтінді алдын-ала өңдеу, векторлау және модельдік оқыту - бұл деректерді өңдеу әдістері. Әдістерді таңдау олардың дәл нәтиже беру және қазақ тілінің ерекшеліктеріне бейімделу қабілетіне негізделеді.

1. Были исследованы существующие методы морфологического анализа и машинного обучения, применяемые в области языковой поддержки. 2. Завершен обзор литературы и анализ методов морфологического анализа казахского языка. Разработана исследовательская методология, которая станет основой для дальнейших этапов работы. 3. Был осуществлен сбор и подготовка большого объема текстов на казахском языке для анализа морфологической структуры. Использование разнообразных источников для сбора данных и создание сбалансированного и аннотированного корпуса позволит улучшить модели морфологического анализа. В результате исследования был собран и обработан корпус на 100 тысяч предложений из открытых источников и 1 млн. предложений литературного жанра (из 78 наименовании книг). 4. Проведен анализ существующих алгоритмов машинного обучения в области морфологического анализа, что позволило определить их актуальность и применимость к специфике казахского языка. Был проведен сравнительный анализ качества предсказаний двух языковых моделей — KazRoBERTa и mBERT. Проведены практические эксперименты. Полученные практические результаты будут применены в дальнейших исследованиях и разработке задач проекта. Принципиальные отличия и новизна данного проекта от существующих аналогов заключаются в использовании комплексного подхода, что позволяет системе лучше адаптироваться к специфике казахского языка. Были опубликованы 1 статья КОКНВО РК, 1 статья (Scopus /WoS)

1. Тілдік қолдау саласында қолданылатын морфологиялық талдау және машиналық оқыту әдістері зерттелді. 2. Қазақ тілі морфологиялық талдау әдістерінің әдеби шолу мен талдауы аяқталды. Алдағы кезеңдерге негіз болатын зерттеу әдістемесі жасалды. 3. Қазақ тіліндегі морфологиялық құрылымды талдау үшін үлкен көлемдегі мәтіндер жинақталып, дайындалды. Әртүрлі дереккөздерді пайдаланып, деректер жинау және теңдестірілген, аннотацияланған корпус құру морфологиялық талдау модельдерін жақсартуға мүмкіндік береді. Зерттеу нәтижесінде ашық дереккөздерден 100 мың сөйлемнен және 78 кітаптан алынған 1 млн. әдеби жанрдағы сөйлемдерден тұратын корпус жинақталып, өңделді. 4. Қазақ тілі ерекшеліктеріне қолдану мақсатында морфологиялық талдау саласындағы қолданыстағы машиналық оқыту алгоритмдері талданды. KazRoBERTa және mBERT екі тілдік модельдерінің болжам сапасы салыстырмалы түрде талданып, тәжірибелік эксперименттер жүргізілді. Алынған практикалық нәтижелер жобаның келесі зерттеулерінде және міндеттерін әзірлеуде қолданылатын болады. Жобаның негізгі айырмашылығы мен жаңалығы — қазақ тіліне бейімделуге мүмкіндік беретін кешенді тәсілді қолдануында. ҚР ҒЖБССҚЕК-нің басылымында 1 мақала және Scopus / WoS-та 1 мақала жарияланды.

Для реализации проекта проведены следующие мероприятия: публикация 1 статьи в журнале, входящем в базу Scopus, 1 статья в отечественных изданиях, рекомендованных КОКНВО РК, 1 статья в зарубежном издании, участие в Международных научно-практических конференциях с докладами для апробации результатов.

Жобаны іске асыру үшін келесі іс-шаралар өткізілді: Scopus базасына кіретін журналда 1 мақала жариялау, Ғылым және жоғары білім министрлігінің Ғылым және жоғары білім саласындағы сапаны қамтамасыз ету комитеті ұсынған рецензияланатын отандық басылымдарда 1 мақала жариялау, 1 шетелдік басылымдағы мақала, сынақтан өткізу үшін баяндамалары бар халықаралық ғылыми-практикалық конференцияларға қатысу.

-

-

-

-

Автоматизированная коррекция текстов, Образовательные платформы, Издательская деятельность, Бизнес-документация, Государственные документы.

Мәтіндерді автоматтандырылған түзету, білім беру платформалары, баспа қызметі, Бизнес-құжаттама, мемлекеттік құжаттар.

UDC indices
004.912
International classifier codes
20.19.27;
Key words in Russian
инновационная система; машинное обучение; морфологический анализ; корректор текста; интеллектуальный анализ;
Key words in Kazakh
инновациялық жүйе; машиналық оқыту; морфологиялық талдау; мәтін түзеткіші; зияткерлік талдау;
Head of the organization Алшанов Рахман Алшанович Доктор экономических наук / профессор
Head of work Байтенова Лаура Маратовна Доктор экономических наук / ассоциированный профессор