Inventory number IRN Number of state registration
0325РК00697 AP25793799-KC-25 0125РК00238
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 9993330 AP25793799
Name of work
Адаптивная система перевода текстов и обучения казахскому языку на основе алгоритмов нейронных сетей
Type of work Source of funding Report authors
Applied Еркебұлан Гүлнұр Тұратайқызы
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Таразский университет имени М.Х. Дулати"
Abbreviated name of the service recipient Некоммерческое акционерное общество "Таразский университет имени М.Х. Дулати"
Abstract

Объектами исследования являются нейронные сети для перевода текстов и определения уровня сложности (A1-C2), разработка веб-интерфейса с запрашиваемыми функционалом.

Зерттеу нысандары-мәтіндерді аударуға және күрделілік деңгейін анықтауға арналған нейрондық желілер (A1-C2), сұралған функционалдығы бар веб-интерфейсті әзірлеу.

Цель проекта — разработать адаптивную систему обучения казахскому языку, которая с помощью нейронных сетей предоставляет переводы слов и словосочетаний с указанием уровня сложности, определяет общий уровень текста, и позволяет интерактивно изменять уровни сложности на сайте, повышая эффективность самостоятельного изучения языка пользователями.

Жобаның мақсаты-қазақ тілін оқытудың бейімделген жүйесін әзірлеу, ол нейрондық желілердің көмегімен күрделілік деңгейін көрсете отырып, сөздер мен сөз тіркестерінің аудармаларын ұсынады, мәтіннің жалпы деңгейін анықтайды және сайттағы күрделілік деңгейлерін интерактивті түрде өзгертуге мүмкіндік береді.

Основными методами исследования являются: а) Оценка точности нейронной сети. Модель обучается на корпусе казахско-русских текстов различной сложности для решения задач перевода и классификации по уровням (A1-C2). Качество работы оценивается по метрикам accuracy, recall и F1-score. б) Корпусный анализ данных. Включает сбор, очистку и нормализацию текстов на казахском языке, что обеспечивает высокое качество данных для обучения модели и формирование базы текстов для системы. в) Тестирование модели. Проводится серия экспериментов для проверки точности и производительности системы на новых текстах. г) Пользовательское тестирование. Реальные пользователи оценивают удобство работы системы, корректность переводов и эффективность изменения уровней сложности. Все методы взаимосвязаны: корпусный анализ подготавливает качественные данные, машинное обучение обеспечивает точность перевода и классификации, а тестирование подтверждает эффективность и практическую применимость системы.

Зерттеудің негізгі әдістері: а) нейрондық желінің дәлдігін бағалау. Модель аударма және деңгей бойынша жіктеу (A1-C2) міндеттерін шешу үшін әр түрлі күрделіліктегі қазақ–орыс мәтіндерінің корпусында оқытылады. Жұмыс сапасы accuracy, recall және F1-score көрсеткіштерімен бағаланады. б) деректерді Корпустық талдау. Қазақ тіліндегі мәтіндерді жинауды, тазалауды және қалыпқа келтіруді қамтиды, бұл модельді оқыту үшін деректердің жоғары сапасын және жүйе үшін мәтіндер базасын қалыптастыруды қамтамасыз етеді. в) модельді тестілеу. Жаңа мәтіндерде жүйенің дәлдігі мен өнімділігін тексеру үшін бірқатар эксперименттер жүргізілуде. г) пайдаланушыны тестілеу. Нақты пайдаланушылар жүйенің ыңғайлылығын, аудармалардың дұрыстығын және қиындық деңгейлерін өзгерту тиімділігін бағалайды. Барлық әдістер бір-бірімен байланысты: корпусты талдау сапалы деректерді дайындайды, Машиналық оқыту аударма мен жіктеудің дәлдігін қамтамасыз етеді, ал тестілеу жүйенің тиімділігі мен практикалық қолданылуын растайды.

Разработана и обучена нейронная сеть для перевода и классификации текстов по уровням (A1-C2). Сформирован корпус из 200 текстов разного уровня сложности, очищенные и нормализованные данные для обучения нейросети. Создана база данных для хранения обработанных текстов и их классификации по уровням сложности (A1-C2). Новизна заключается в разработке и обучении нейронной сети, совмещающей функции автоматического перевода и определения уровня языковой сложности текстов (A1–C2) на основе лексико-грамматических признаков. Впервые предложен подход к интеграции перевода и классификации внутри единой архитектуры модели. Создан корпус казахских текстов, прошедших очистку и нормализацию, что обеспечивает основу для дальнейшей автоматической разметки по уровням CEFR. Разработана структура базы данных, позволяющая систематизировать результаты обработки текстов и использовать их для лингвистических, образовательных и исследовательских целей.

Мәтіндерді деңгей бойынша аудару және жіктеу үшін нейрондық желі жасалды және оқытылды (A1-C2). Әр түрлі деңгейдегі 200 мәтіннен тұратын корпус, нейрондық желіні оқыту үшін тазартылған және қалыпқа келтірілген мәліметтер құрылды. Өңделген мәтіндерді сақтау және оларды күрделілік деңгейлері бойынша жіктеу үшін Мәліметтер базасы құрылды (A1-C2). Жаңалық – лексика-грамматикалық белгілерге негізделген мәтіндердің тілдік күрделілік деңгейін (A1-C2) автоматты аудару және анықтау функцияларын біріктіретін нейрондық желіні дамыту және оқыту. Алғаш рет бірыңғай модель архитектурасында аударма мен жіктеуді біріктіру тәсілі ұсынылды. Тазартудан және қалыпқа келтіруден өткен қазақ мәтіндерінің корпусы құрылды, бұл CEFR деңгейлері бойынша одан әрі Автоматты белгілеудің негізін қамтамасыз етеді. Мәтіндерді өңдеу нәтижелерін жүйелеуге және оларды лингвистикалық, білім беру және зерттеу мақсатында пайдалануға мүмкіндік беретін мәліметтер базасының құрылымы жасалды.

Проект предусматривает создание адаптивной системы перевода и обучения казахскому языку с использованием нейронных сетей, рассчитанной на обработку не менее 200 текстов различного уровня сложности (A1-C2). Программный комплекс включает обученную модель перевода, базу данных и веб-интерфейс с интерактивной системой изменения уровней сложности и подсказок. Срок реализации - 36 месяцев. Ожидаемый технико-экономический эффект - повышение эффективности самостоятельного обучения казахскому языку и формирование базы для дальнейшей коммерциализации цифровой образовательной платформы.

Жоба күрделілігі әртүрлі деңгейдегі (A1-C2) кемінде 200 мәтінді өңдеуге есептелген нейрондық желілерді пайдалана отырып, қазақ тілін аударудың және оқытудың бейімделген жүйесін құруды көздейді. Бағдарламалық жасақтама аударманың оқытылған моделін, мәліметтер базасын және интерактивті күрделілік деңгейлері мен анықтамаларын өзгерту жүйесі бар веб-интерфейсті қамтиды. Іске асыру мерзімі - 36 ай. Күтілетін техникалық-экономикалық тиімділік - қазақ тілін өз бетінше оқытудың тиімділігін арттыру және цифрлық білім беру платформасын одан әрі коммерцияландыру үшін базаны қалыптастыру.

Степень внедрения за первый год составляет 35-40%. Создан фундамент системы: разработана и обучена модульная нейронная сеть для перевода и автоматического определения уровней сложности (A1–C2), реализованы ключевые компоненты – перевод Kaz→Ru, кросс-языковое выравнивание, определение CEFR-уровней слов и классификация текста. Все скрипты и инструкции размещены на GitHub. Сформирован корпус из 200 казахских текстов: выполнен парсинг, фильтрация, ручная доработка и профессиональный перевод, получены очищенные и нормализованные данные. Создана база данных kaz2rus с таблицами текстов, CEFR-классификацией и статистикой; подготовлен SQL-скрипт и выполнено развёртывание на локальном сервере. Эти результаты формируют технологическую основу для следующего этапа – оптимизации нейронной сети, улучшения показателей точности классификации.

Бірінші жылы енгізу деңгейі 35-40% құрайды. Жүйенің іргетасы құрылды: күрделілік деңгейлерін (A1–C2) аудару және автоматты түрде анықтау үшін модульдік нейрондық желі әзірленді және оқытылды, негізгі компоненттер – Kaz→Ru аудармасы, кросс-тілдік туралау, CEFR-сөз деңгейлерін анықтау және мәтінді жіктеу жүзеге асырылды. Барлық сценарийлер мен нұсқаулар GitHub сайтында орналастырылған. Қазақтың 200 мәтінінен тұратын корпус құрылды: парсинг, сүзу, қолмен пысықтау және кәсіби аударма жасалды, тазартылған және қалыпқа келтірілген деректер алынды. Kaz2rus деректер базасы мәтін кестелерімен, CEFR-жіктеуімен және статистикасымен құрылды; SQL-сценарий дайындалды және жергілікті серверде орналастыру орындалды. Бұл нәтижелер келесі кезеңнің технологиялық негізін құрайды – нейрондық желіні оңтайландыру, жіктеу дәлдігінің көрсеткіштерін жақсарту.

Полученные в первый год результаты демонстрируют высокую научно-техническую и практическую эффективность проекта. Созданная модульная нейронная сеть, корпус из 200 тщательно отобранных и профессионально переведённых текстов, а также разработанная база данных формируют целостную и воспроизводимую инфраструктуру для дальнейшей работы. Архитектура решения обеспечивает масштабируемость и готовность к интеграции в веб-платформу обучения казахскому языку, сокращая потребность в ручной обработке текстов и повышая точность классификации по уровням сложности. Проект создаёт устойчивую основу для продолжения исследований в области NLP и открывает возможности для последующей коммерциализации образовательной платформы.

Бірінші жылы алынған нәтижелер жобаның жоғары ғылыми-техникалық және практикалық тиімділігін көрсетеді. Құрылған модульдік нейрондық желі, мұқият таңдалған және кәсіби түрде аударылған 200 мәтіннің корпусы және әзірленген дерекқор әрі қарай жұмыс істеу үшін тұтас және қайталанатын инфрақұрылымды құрайды. Шешімнің архитектурасы мәтіндерді қолмен өңдеу қажеттілігін азайта отырып және күрделілік деңгейлері бойынша жіктеудің дәлдігін арттыра отырып, қазақ тілін оқытудың веб-платформасына кіріктірудің ауқымдылығын және дайындығын қамтамасыз етеді. Жоба NLP зерттеулерін жалғастыру үшін тұрақты негіз жасайды және білім беру платформасын кейіннен коммерцияландыру мүмкіндіктерін ашады.

1. Образовательные учреждения: внедрение системы в учебные заведения Казахстана для повышения уровня владения казахским языком у учащихся разных возрастных групп. 2. Самостоятельные учащиеся: система полезна для индивидуального изучения казахского языка. 3. Лингвистические центры: Результаты проекта могут быть использованы в специализированных школах и центрах по обучению казахскому языку как иностранному.

1. Білім беру мекемелері: әртүрлі жас топтарындағы оқушылардың қазақ тілін меңгеру деңгейін арттыру үшін Қазақстанның оқу орындарына жүйені енгізу. 2. Дербес оқушылар: жүйе қазақ тілін жеке үйренуге пайдалы. 3. Лингвистикалық орталықтар: жоба нәтижелерін мамандандырылған мектептерде және қазақ тілін шет тілі ретінде оқыту орталықтарында пайдалануға болады.

UDC indices
004.032.26
International classifier codes
20.23.25;
Key words in Russian
полиязычные тексты; нейронные сети; метод чтения Ильи Франка; искусственный интеллект; Классификация текста; адаптивное обучение; казахский язык; машинный перевод; определение уровня сложности текста; обработка естественного языка;
Key words in Kazakh
көптілді мәтіндер; нейрондық желілер; Илья Франктың оқу әдісі; жасанды интеллект; Мәтіннің жіктелуі; адаптивті оқыту; қазақ тілі; машиналық аударма; мәтіннің күрделілік деңгейін анықтау; табиғи тілді өңдеу;
Head of the organization Байжуманов Мухтар Казбекович Кандидат физико-математических наук, PhD / Доцент
Head of work Еркебұлан Гүлнұр Тұратайқызы Phd / Phd