| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00921 | AP23487753-KC-25 | 0124РК00904 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 7 | ||||
| International publications: 2 | Publications Web of science: 0 | Publications Scopus: 0 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 29994349 | AP23487753 | ||
| Name of work | ||||
| ИННОВАЦИОННЫЕ ТЕХНОЛОГИИ ДЛЯ АВТОМАТИЗИРОВАННОЙ КОРРЕКЦИИ КАЗАХСКОЯЗЫЧНЫХ ТЕКСТОВ: МАШИННОЕ ОБУЧЕНИЕ И МОРФОЛОГИЧЕСКИЙ АНАЛИЗ | ||||
| Type of work | Source of funding | Report authors | ||
| Fundamental | Байтенова Лаура Маратовна | |||
|
0
0
0
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | Нет | |||
| Full name of the service recipient | ||||
| Учреждение "Университет "Туран" | ||||
| Abbreviated name of the service recipient | Университет Туран | |||
| Abstract | ||||
|
В качестве объекта исследования выступает казахский язык, свод правил/грамматики казахского языка. Предметом исследования является автоматизированный online-корректор казахскоязычных текстов на основе морфологического анализатора. Зерттеу объектісі ретінде қазақ тілі, қазақ тілінің ережелері/грамматика жинағы болып табылады. Зерттеу пәні морфологиялық анализатор негізінде қазақ тіліндегі мәтіндердің автоматтандырылған онлайн - түзеткіші болып табылады. Цель работы состоит в разработке инновационной системы автоматической коррекции текстов на казахском языке, использующей передовые методы машинного обучения и морфологического анализа. Жұмыстың мақсаты - машиналық оқыту мен морфологиялық талдаудың озық әдістерін қолдана отырып, қазақ тіліндегі мәтіндерді автоматты түрде түзетудің инновациялық жүйесін әзірлеу. Проект включает в себя использование методов машинного обучения, таких как нейронные сети, и методов морфологического анализа для обработки и коррекции текстов. Предварительная обработка текстов, векторизация и обучение моделей - это методы обработки данных. Выбор методов основывается на их способности давать точные результаты и адаптироваться к особенностям казахского языка. Жоба мәтінді өңдеу және түзету үшін нейрондық желілер сияқты машиналық оқыту әдістерін және морфологиялық талдау әдістерін қолдануды қамтиды. Мәтінді алдын-ала өңдеу, векторлау және модельдік оқыту - бұл деректерді өңдеу әдістері. Әдістерді таңдау олардың дәл нәтиже беру және қазақ тілінің ерекшеліктеріне бейімделу қабілетіне негізделеді. В ходе исследования разработаны алгоритмы интеграции гибридного морфологического анализатора казахского языка с офисными и онлайн-платформами (Microsoft Word, Google Docs, KazType) через плагины, использующие форматы JSON и XML. Проведено тестирование устойчивости передачи данных: скорость обработки составила 0,8 с на 100 слов. Создан корпус из 10 000 предложений, обеспечивший точность морфоанализа 92 %. Предложена гибридная рамка анализа ошибок, объединяющая лингвистические правила (Apertium Turkic lexicon) и вероятностные классификаторы, обученные на корпусе из 120 198 предложений. Достигнут прирост F1 на 12 п.п. и увеличение точности препроцессинга до 96 %. Сформирован лингвистический ресурс - более 70 000 основ, 5 136 аффиксов и словарь нормативных словоформ; выявлена русскописная интерференция как основной источник ошибок. Разработан transformer-усиленный фреймворк контекстного морфологического парсинга с joint-декодированием морфемных границ и грамматических меток. Эксперименты показали рост F1 по сегментации на 3,7 % и accuracy на 4,2 % по сравнению с CNN-BiLSTM-базлайнами. Модель продемонстрировала устойчивость и масштабируемость. Научная новизна - создание воспроизводимого конвейера морфологической обработки для агглютинативного языка и интеграция гибридного анализатора в редакторы для автоматической коррекции в реальном времени. Зерттеу нәтижесінде қазақ тіліне арналған гибридті морфологиялық талдағышты офис және онлайн платформалармен (Microsoft Word, Google Docs, KazType) біріктіруге арналған алгоритмдер әзірленді. JSON және XML форматтарын пайдаланатын арнайы плагиндер арқылы деректер алмасу қамтамасыз етілді. Кешенді тестілеу нәтижесінде жүйенің тұрақтылығы расталды: өңдеу жылдамдығы 100 сөзге шамамен 0,8 секунд, морфологиялық талдау дәлдігі 92 % болды. Қателерді талдаудың гибридті рамкасы ұсынылып, ол Apertium Turkic lexicon негізіндегі лингвистикалық ережелер мен 120 198 сөйлемнен тұратын корпусқа үйретілген ықтималдық классификаторларын біріктірді. F1 метрикасы 12 п.п.-ға өсіп, алдын ала өңдеу дәлдігі 96 %-ға жетті. 70 000 түбір мен 5 136 аффикс қамтылған лингвистикалық ресурс қалыптастырылды. Негізгі қате көзі - орыс жазуының интерференциясы екені анықталды. Сонымен қатар, морфемалар шекаралары мен грамматикалық белгілерді біріктірілген (joint) декодтау тәсілімен анықтайтын Transformer-негізді контекстік талдау фреймворкі жасалды. Сегментация бойынша F1 3,7 %-ға, ал дәлдік (accuracy) 4,2 %-ға артты. Модель жаңа морфемаларды өңдеуде тұрақтылық пен жалпылау қабілетін көрсетті. Ғылыми жаңалығы - агглютинативті тілге арналған морфологиялық өңдеудің қайта өндіруге болатын конвейерін және офистік редакторларға біріктірілетін нақты уақытта автоматты түзету жүйесін ұсыну. Для реализации проекта проведён комплекс мероприятий, направленных на апробацию и распространение полученных научных результатов. Опубликованы 2 статьи в международном рецензируемом журнале Procedia Computer Science (Elsevier, Scopus) и 1 статья в отечественном издании, рекомендованном КОКНВО РК. Получено авторское свидетельство № 57681 от 6 мая 2025 г. на монографию «Автоматизация и машинное обучение для казахского языка: от морфологии к облачным сервисам», подтверждающее оригинальность и правовую защиту разработанных методов. Принята к публикации научная статья «Hybrid Artificial Intelligence Architectures for Automatic Text Correction in the Kazakh Language» в международный журнал Frontiers in Artificial Intelligence (Scopus). Научные результаты прошли апробацию на конференции «Роботизация бизнес-процессов» (16 января 2025 г., г. Алматы, Университет «Туран»), где представлено 6 докладов исследовательской группы по тематике нейронных сетей, морфологического анализа и экономической эффективности внедрения системы. Представленные публикации и мероприятия подтверждают научную и практическую значимость проекта. Жобаны іске асыру мақсатында алынған ғылыми нәтижелерді апробациялау және таратуға бағытталған іс-шаралар кешені жүргізілді. Procedia Computer Science (Elsevier, Scopus) халықаралық рецензияланатын журналында 2 мақала және ҚР БҒМ КОКНВО ұсынған отандық басылымда 1 мақала жарияланды. 2025 жылғы 6 мамырда №57681 авторлық куәлік алынды — «Қазақ тілі үшін автоматтандыру және машиналық оқыту: морфологиядан бұлттық сервистерге дейін» атты монография әзірленген әдістердің түпнұсқалығын және зияткерлік меншік құқығын растайды. «Hybrid Artificial Intelligence Architectures for Automatic Text Correction in the Kazakh Language» атты ғылыми мақала халықаралық Frontiers in Artificial Intelligence журналына (Scopus) жариялауға қабылданды. Ғылыми нәтижелер «Бизнес-процестерді роботтандыру» конференциясында (2025 жылғы 16 қаңтар, Алматы қ., «Тұран» университеті) апробациядан өтті, онда зерттеу тобы нейрондық желілерді қолдану, морфологиялық талдау және жүйені енгізудің экономикалық тиімділігі тақырыптарында 6 баяндама ұсынды. Жарияланған еңбектер мен өткізілген іс-шаралар жобаның ғылыми және практикалық маңыздылығын дәлелдейді. На основе результатов, представленных в опубликованных публикациях подтверждается уровень готовности разработанных технологий к практическому применению. Решения прошли многоэтапное тестирование на корпусе из более чем 120 000 предложений, включающем образовательные тексты, новости, социальные сети и официальные публикации. Сформирована лингвистическая база с более чем 70 000 основ, 5 136 аффиксами и словарём корректных словоформ, обеспечивающая устойчивую работу системы при обработке неструктурированных данных. Создан прототип морфологического анализатора, интегрированный с Microsoft Word, Google Docs и KazType, автоматически распознающий и исправляющий морфологические и орфографические ошибки. Тестирование подтвердило стабильность и корректность работы, совместимость с API и устойчивость к ошибкам ввода. Гибридная рамка анализа ошибок апробирована на 3 000 записей, обеспечив прирост точности и формирование профилей ошибок. Transformer-фреймворк контекстного парсинга улучшил F₁ на 3,7 % и accuracy на 4,2 % по сравнению с базовыми моделями. Архитектура с joint decoding и character-aware attention доказала масштабируемость и надёжность. Жарияланған ғылыми еңбектер нәтижелері әзірленген технологиялардың практикалық қолдануға дайын екендігін дәлелдейді. Шешімдер 120 000-нан астам сөйлемнен тұратын корпус негізінде көпсатылы сынақтан өтті, оған білім беру мәтіндері, жаңалықтар, әлеуметтік желілер және ресми жарияланымдар енгізілді. 70 000-нан астам түбір, 5 136 аффикс және дұрыс сөз формаларының сөздігін қамтитын лингвистикалық база құрылды, бұл жүйенің құрылымданбаған деректермен тұрақты жұмысын қамтамасыз етті. Microsoft Word, Google Docs және KazType платформаларымен біріктірілген морфологиялық талдағыш прототипі әзірленіп, морфологиялық және орфографиялық қателерді автоматты түрде анықтап, түзетуге мүмкіндік береді. Тестілеу нәтижелері жүйенің тұрақтылығы мен API үйлесімділігін және енгізу қателеріне төзімділігін растады. Қателерді талдаудың гибридті рамкасы 3 000 жазбада апробацияланып, дәлдік көрсеткіштерін жақсартты және қателердің негізгі түрлері бойынша профильдер жасалды. Transformer-негізді контекстік талдау фреймворкі F1 көрсеткішін 3,7 %-ға, ал дәлдікті (accuracy) 4,2 %-ға арттырды. Joint decoding және character-aware attention архитектурасы модельдің сенімділігі мен масштабталу мүмкіндігін дәлелдеді. В результате реализации проекта проведена всесторонняя оценка эффективности разработанных решений на уровне технических, алгоритмических и модельных показателей. Анализ производительности и точности подтвердил достижение заявленных целей и практическую применимость предложенных методов в автоматизированных системах морфологического анализа и коррекции казахскоязычных текстов. Техническая эффективность: Скорость обработки составила около 0,8 секунды на 100 слов при стабильной работе плагинов и корректной передаче данных. Точность морфологического анализа достигла 92 % на тестовых наборах. Рост показателей обеспечен за счёт расширения лексикона и внедрения гибридных моделей, что повысило устойчивость системы при обработке текстов различной сложности. Алгоритмическая эффективность: Гибридная рамка анализа ошибок показала прирост F1-метрики на 12 процентных пунктов по сравнению с базовыми системами, а точность препроцессинга увеличена до 96 %. Эти результаты свидетельствуют о снижении доли ложных срабатываний и повышении полноты выявления ошибок в неструктурированных и «шумных» данных. Модельная эффективность: Transformer-усиленный парсер обеспечил улучшение F1 по сегментации на 3,7 % и повышение accuracy маркировки на 4,2 % относительно современных SOTA-базлайнов. Такой прирост снижает каскадное накопление ошибок и повышает качество лемматизации и теггинга в режиме реального времени. Жобаны іске асыру нәтижесінде әзірленген шешімдердің тиімділігі техникалық, алгоритмдік және модельдік көрсеткіштер деңгейінде жан-жақты бағаланды. Өнімділік пен дәлдікке жүргізілген талдау қойылған мақсаттардың орындалғанын және қазақтілді мәтіндерді морфологиялық талдау мен түзетудің автоматтандырылған жүйелерінде ұсынылған әдістердің практикалық қолдануға жарамдылығын растады. Техникалық тиімділік: Өңдеу жылдамдығы 100 сөзге шамамен 0,8 секундты құрады, плагиндердің тұрақты жұмысы мен деректердің дұрыс берілуі қамтамасыз етілді. Морфологиялық талдау дәлдігі тестілік деректер жиынында 92 % деңгейіне жетті. Көрсеткіштердің өсуі лексиконды кеңейту және гибридті модельдерді енгізу есебінен қамтамасыз етіліп, әртүрлі күрделіліктегі мәтіндерді өңдеу кезінде жүйенің тұрақтылығын арттырды. Алгоритмдік тиімділік: Қателерді талдаудың гибридті рамкасы базалық жүйелермен салыстырғанда F1 метрикасының 12 пайыздық пунктке өсуін көрсетті, ал алдын ала өңдеу дәлдігі 96 %-ға дейін артты. Бұл нәтижелер құрылымданбаған және «шулы» деректердегі қателерді анықтау толықтығын арттырып, жалған сигналдардың үлесін азайтқанын көрсетеді. Модельдік тиімділік: Transformer архитектурасымен күшейтілген парсер сегментация бойынша F1 көрсеткішін 3,7 %-ға, ал белгілерді анықтау дәлдігін (accuracy) 4,2 %-ға жақсартты. Мұндай өсім қателердің каскадтық жинақталуын азайтып, нақты уақыт режимінде лемматизация мен тегтеудің сапасын арттыруға мүмкіндік береді. Автоматизированная коррекция текстов, образовательные платформы, медийные системы, издательская деятельность, Бизнес-документация, государственные документы. Мәтіндерді автоматтандырылған түзету, білім беру платформалары, медиажүйелер, баспа қызметі, Бизнес-құжаттама, мемлекеттік құжаттар. |
||||
| UDC indices | ||||
| 004.912 | ||||
| International classifier codes | ||||
| 20.19.27; | ||||
| Key words in Russian | ||||
| инновационная система; машинное обучение; морфологический анализ; корректор текста; интеллектуальный анализ; | ||||
| Key words in Kazakh | ||||
| инновациялық жүйе; машиналық оқыту; морфологиялық талдау; мәтін түзеткіші; зияткерлік талдау; | ||||
| Head of the organization | Алшанов Рахман Алшанович | Доктор экономических наук / профессор | ||
| Head of work | Байтенова Лаура Маратовна | Доктор экономических наук / ассоциированный профессор | ||