Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0322РК00833 | AP09259556-KC-22 | 0121РК00594 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 5 | ||||
International publications: 2 | Publications Web of science: 1 | Publications Scopus: 2 | ||
Patents | Amount of funding | Code of the program | ||
0 | 22983615.5 | AP09259556 | ||
Name of work | ||||
Разработка методов и систем комплексного обучения и обработки естественного языка на основе технологий искусственного интеллекта | ||||
Type of work | Source of funding | Report authors | ||
Applied | Рахимова Диана Рамазановна | |||
0
0
0
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||||
Abbreviated name of the service recipient | ИИВТ | |||
Abstract | ||||
Современные технологии обработки и обучения естественного языка. Табиғи тілді өңдеу мен оқытудың заманауи технологиялары. Целью данной работы является не только теоретическая и методологическая работа по исследованию эффективных платформ по обучению, с акцентом на государственный казахский язык, а разработка методов, алгоритмов и инструментальных средств для создания эффективных систем обучения казахскому языку с использованием систем искусственного интеллекта, включая машинный перевод, машинное обучение и распознавание речи. Жұмыстың мақсаты мемлекеттік қазақ тіліне баса назар аудара отырып, оқыту бойынша тиімді платформаларды зерттеу бойынша теориялық және әдіснамалық жұмыс қана емес, машиналық аударма, машиналық оқыту және сөйлеуді тануды қоса алғанда, жасанды интеллект жүйелерін пайдалана отырып, қазақ тілін оқытудың тиімді жүйелерін құру үшін әдістерді, алгоритмдерді және аспаптық құралдарды әзірлеу болып табылады. Модели, методы и программные средства по обработке естественного языка, формальные грамматики, семантический анализ естественного языка,машинное обучение. Формальды грамматика, табиғи тілді өңдеуге және семантикалық талдауға, машиналық оқытуға арналған модельдер, әдістер және бағдарламалық құралдар Согласно календарного плана договора были получены следующие результаты: -Произведен сбор новых параллельных текстов с помощью алгоритма выравнивания. Общая база состоит из 6 млн пары предложении. Разработан алгоритма выравнивания (Alignment) для параллельных текстов. По практическим результатам точность выравнивания разработанного алгоритма составило не менее 76 процентов. -Разработан морфологический анализатор государственного языка. Алгоритм работы морфологического анализатора казахского языка состоит в последовательном применении всех описанных и других правил вывода с накоплением полученных результатов морфологического разбора в результирующей структуре. Всего описываемая база данных содержит около 80 000 начальных словоформ казахского языка. -Разработана система машинного перевода для государственного языка на основе архитектур BRNN и Transformer. Произведена программная реализация системы и обучение моделей проводилось на платформе- OpenNMT. Качество обученных моделей оценивали с помощью показателей BLEU, WER и TER. -Разработка модуля распознавания речи государственного языка, которая направлена на решение задачи с ограниченным речевым ресурсом в рамках интегральной архитектуры. Произведены обработка и сбор датасета речи казахского языка. Были выполнены обратка речевых сигналов, выделение речевых признаков, построение акустических и языковых моделей. Обработка данных для корпуса были проведены с использованием технологии Python 3.8. Келісімшарттың күнтізбелік жоспарына сәйкес келесі нәтижелер алынды: -Тегістеу алгоритмі арқылы жаңа параллель мәтіндер корпусы жиналды. Жалпы деректор қоры 6 миллион сөйлем жұбынан тұрады. Параллель мәтіндер үшін туралау алгоритмі әзірленді. Практикалық нәтижелерге сәйкес әзірленген алгоритмнің туралау дәлдігі кем дегенде 76 пайызды құрады. – Мемлекеттік тілдің морфологиялық анализаторы жасалды. Қазақ тілінің морфологиялық анализаторының жұмыс алгоритмі морфологиялық талдау нәтижелерін алынған құрылымға жинақтай отырып, барлық қорытынды ережелерді (толық іздеу әдісін қолдана отырып) дәйекті қолданудан тұрады. Барлығы сипатталған мәліметтер базасында қазақ тілінің 80 000-ға жуық бастапқы сөз формалары бар. - BRNN және Transformer архитектуралары негізінде мемлекеттік тілге машиналық аударма жүйесі әзірленді. OpenNMT платформасында машиналық аударма жүйесін бағдарламалық қамтамасыз ету жүзеге асырылды және модельдер оқытылды. Оқытылған үлгілердің сапасы BLEU, WER және TER метрикалары арқылы бағаланды. - Біріктірілген архитектура аясында шектеулі сөйлеу ресурсы бар мәселені шешуге бағытталған мемлекеттік тілдегі сөйлеуді тану модулін әзірлеу. Қазақ тілі сөйлеуінің деректер жинағын өңдеу және жинау. Сөйлеу сигналдарын қайтару, сөйлеу ерекшеліктерін алу, акустикалық және тілдік модельдерді құру орындалды. Корпус үшін деректерді өңдеу Python 3.8 технологиясы арқылы жүзеге асырылды. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.
Потребителями разработанной комплексом обучающей системы будут все слои населения Казахстана, государственные и учебные учреждения, а потребителями научных результатов будут: ученые и исследователи (как в области информатики, так и лингвистики), разработчики, поставщики и конечные пользователи. Әзірлеген кешен оқыту жүйесінің тұтынушылары Қазақстан халқының барлық топтары, мемлекеттік және оқу орындары. Ал ғылыми нәтижелердің тұтынушылары: ғалымдар мен зерттеушілер (информатика және лингвистика саласында ), әзірлеушілер, қарапайым тұтынушылар. |
||||
UDC indices | ||||
004.421, 004.912 | ||||
International classifier codes | ||||
20.00.00; 28.23.00; | ||||
Key words in Russian | ||||
компьютерная лингвистика; лингвистический корпус; машинное обучение; машинный перевод; речевые технологий; | ||||
Key words in Kazakh | ||||
компьютерлік лингвистика; лингвистикалық корпус; машиналық оқыту; машиналық аударма; сөйлеу технологиялары; | ||||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор | ||
Head of work | Рахимова Диана Рамазановна | PhD / Ассоциированный профессор |