Inventory number IRN Number of state registration
0220РК01229 AP05132950-OT-20 0118РК00127
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 8
International publications: 3 Publications Web of science: 0 Publications Scopus: 1
Number of books Appendicies Sources
1 5 52
Total number of pages Patents Illustrations
115 0 33
Amount of funding Code of the program Table
10000000 AP05132950 13
Name of work
Разработка информационно-аналитической поисковой системы для казахского языка
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Рахимова Диана Рамазановна , Тукеев Уалшер Ануарбекович , Шормакова Асем Ноябревна , Жуманов Жандос Маратович , Давлетова Сауле Анерована , Тұрғанбаева Әлия Оралбайқызы , Давлетов Даурен Ерикович ,
1
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

информационно-поисковые системы , казахский язык

ақпараттық іздеу жүйелері, қазақ тілі

Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке.

Жобаның мақсаты – қазақ тіліндегі дереккөздерден, мәтіндер мен деректердің үлкен жиынынан жаңа ақпарат пен білімді алу үшін компьютерлік лингвистиканың жаңа жетістіктерін қолдана отырып табиғи тілдерді өңдеу саласындағы заманауи технологиялар негізінде мәтіндік деректерді өңдеудің тиімді алгоритмдерін және модельдерін құру болып табылады.

Методы исследования – формальные грамматики, статистические методы, семантические модели.

Зерттеу әдістері - формальды грамматика, статистикалық әдістер, семантикалық модельдер.

В результате выполнения работ получены следующие результаты: Для анализа и сегментации данных была разработана полная система классификация аффиксов и суффиксов казахского языка. Построены детерминированные конечные автоматы для сразличных частей речи. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Для сбора и обработки больших данных разработана модель и система размеченного корпуса, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка. Произведена программная реализация алгоритмов и получены обработанные, классифицированные данные на казахском языке. Для разработки инструментов семантического анализа естественно-языковых текстов был разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением методов искусственного интеллекта для обработки и анализа больших данных. В качестве практической реализации была разработана информационная система для сбора и анализа информации слабоструктурированных текстовых данных на казахском языке.

Жұмыс нәтижесінде келесі нәтижелер алынды: Мәліметтерді талдау және сегментациялау үшін қазақ тілінің жалғаулары мен жұрнақтарын жіктеудің толық жүйесі жасалды. Сөйлемнің әртүрлі сөз табтары үшін детерминирленген ақырлы күй автоматтары құрастырылған. Қазақ тілінің үшін жасалған жалғаулары мен жұрнақтарының классификациялық жүйені қолдана отырып, lexicon-free stemming алгоритмы құрылды. Үлкен деректерді жинау және өңдеу үшін белгіленген корпустың моделі мен жүйесі жасалды, олардың айырықша белгілері - қазақ тілінің қасиеттерін ескере отырып, деректерді өңдеу модульдері (токенизация, лемматизация, морфологиялық талдау) әзірленді. Алгоритмдердің бағдарламалық қамтамасыздандыруы жүзеге асырылып, қазақ тіліндегі өңделген, жіктелген мәліметтер алынды. Табиғи тілдегі мәтіндерді семантикалық талдау құралдарын жасау үшін үлкен деректерді өңдеу және талдау үшін жасанды интеллект әдістерін қолдана отырып әр түрлі мақсаттарға арналған қолданбалы бағдарламалық жасақтама құру арқылы ақпараттық-аналитикалық өңдеуге арналған модуль жасалды. Практикалық іске асыру ретінде қазақ тіліндегі жартылай құрылымдық мәтіндік мәліметтерден ақпараттар жинауға және талдауға арналған ақпараттық жүйе жасалды.

Расходование средств финансирования производится согласно утвержденной смете.

Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі.

Разработан прототип системы. Данная система прошла апробацию и получили экспертное заключение от ТОО Alem Research. Результаты исследований прошли апробацию на международных конференциях и научных семинарах.

Жүйенің прототипі әзірленді. Жүйе «Alem Research» ЖШС қызметкерлерімен тексеріліп, сараптама қорытындысы берілді. Зерттеу нәтижелері халықаралық конференциялар мен ғылыми семинарларда талқыланды.

Разработаны технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка.

Тиімді көрсеткішке ие қазақ тілінің ақпараттық іздеу технология (моделдері, алгоритмдері және бағдарламалары) әзірленді. Дайындалған технологияны қолдану қазақ тілінің іздеу жүйесінің үлгісі арқылы көрсетіледі

Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке.

Қолдану аймағы: Ғылыми-техникалық қызметтің нәтижелері әртүрлі салаларда қазақ тіліндегі құжаттаманы және деректерді талдау мен іздеуде қолданылуы мүмкін.

UDC indices
004.421,004.912
International classifier codes
20.23.00; 20.23.17; 16.31.21;
Readiness of the development for implementation
Key words in Russian
ИНФОРМАЦИОННО-ПОИСКОВАЯ; СИСТЕМА; КАЗАХСКИЙ; ЯЗЫК; ТЕХНОЛОГИЯ;
Key words in Kazakh
АҚПАРАТТЫҚ ІЗДЕУ; ЖҮЙЕСІ; ҚАЗАҚ; ТІЛІ; ТЕХНОЛОГИЯ;
Head of the organization Калимолдаев Максат Нурадилович Доктор физико-математических наук / профессор
Head of work Рахимова Диана Рамазановна PhD / нет
Native executive in charge