Inventory number | IRN | Number of state registration |
---|---|---|
0220РК01229 | AP05132950-OT-20 | 0118РК00127 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 8 | ||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 1 |
Number of books | Appendicies | Sources |
1 | 5 | 52 |
Total number of pages | Patents | Illustrations |
115 | 0 | 33 |
Amount of funding | Code of the program | Table |
10000000 | AP05132950 | 13 |
Name of work | ||
Разработка информационно-аналитической поисковой системы для казахского языка | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Рахимова Диана Рамазановна , Тукеев Уалшер Ануарбекович , Шормакова Асем Ноябревна , Жуманов Жандос Маратович , Давлетова Сауле Анерована , Тұрғанбаева Әлия Оралбайқызы , Давлетов Даурен Ерикович , | ||
1
0
0
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||
Abbreviated name of the service recipient | ИИВТ | |
Abstract | ||
информационно-поисковые системы , казахский язык ақпараттық іздеу жүйелері, қазақ тілі Целью проекта является разработка эффективных алгоритмов и моделей обработки текстовых данных, на основе современных технологий в области обработки естественного языка с использованием последних достижений компьютерной лингвистики для получения новой информации и знаний из больших массивов данных и текстов на казахском языке. Жобаның мақсаты – қазақ тіліндегі дереккөздерден, мәтіндер мен деректердің үлкен жиынынан жаңа ақпарат пен білімді алу үшін компьютерлік лингвистиканың жаңа жетістіктерін қолдана отырып табиғи тілдерді өңдеу саласындағы заманауи технологиялар негізінде мәтіндік деректерді өңдеудің тиімді алгоритмдерін және модельдерін құру болып табылады. Методы исследования – формальные грамматики, статистические методы, семантические модели. Зерттеу әдістері - формальды грамматика, статистикалық әдістер, семантикалық модельдер. В результате выполнения работ получены следующие результаты: Для анализа и сегментации данных была разработана полная система классификация аффиксов и суффиксов казахского языка. Построены детерминированные конечные автоматы для сразличных частей речи. Разработан lexicon-free stemming алгоритм с использованием разработанной системой классификации окончаний казахского языка. Для сбора и обработки больших данных разработана модель и система размеченного корпуса, отличительными особенностями является разработанные модули (токенезация, лемматизация, морфологический анализ) обработки данных с учетом свойств казахского языка. Произведена программная реализация алгоритмов и получены обработанные, классифицированные данные на казахском языке. Для разработки инструментов семантического анализа естественно-языковых текстов был разработан модуль информационно-аналитической обработки путем создания прикладного программного решения различного назначения с применением методов искусственного интеллекта для обработки и анализа больших данных. В качестве практической реализации была разработана информационная система для сбора и анализа информации слабоструктурированных текстовых данных на казахском языке. Жұмыс нәтижесінде келесі нәтижелер алынды: Мәліметтерді талдау және сегментациялау үшін қазақ тілінің жалғаулары мен жұрнақтарын жіктеудің толық жүйесі жасалды. Сөйлемнің әртүрлі сөз табтары үшін детерминирленген ақырлы күй автоматтары құрастырылған. Қазақ тілінің үшін жасалған жалғаулары мен жұрнақтарының классификациялық жүйені қолдана отырып, lexicon-free stemming алгоритмы құрылды. Үлкен деректерді жинау және өңдеу үшін белгіленген корпустың моделі мен жүйесі жасалды, олардың айырықша белгілері - қазақ тілінің қасиеттерін ескере отырып, деректерді өңдеу модульдері (токенизация, лемматизация, морфологиялық талдау) әзірленді. Алгоритмдердің бағдарламалық қамтамасыздандыруы жүзеге асырылып, қазақ тіліндегі өңделген, жіктелген мәліметтер алынды. Табиғи тілдегі мәтіндерді семантикалық талдау құралдарын жасау үшін үлкен деректерді өңдеу және талдау үшін жасанды интеллект әдістерін қолдана отырып әр түрлі мақсаттарға арналған қолданбалы бағдарламалық жасақтама құру арқылы ақпараттық-аналитикалық өңдеуге арналған модуль жасалды. Практикалық іске асыру ретінде қазақ тіліндегі жартылай құрылымдық мәтіндік мәліметтерден ақпараттар жинауға және талдауға арналған ақпараттық жүйе жасалды. Расходование средств финансирования производится согласно утвержденной смете. Қаражат жұмсауы бекітілген құжатқа сәйкес жүргізіледі. Разработан прототип системы. Данная система прошла апробацию и получили экспертное заключение от ТОО Alem Research. Результаты исследований прошли апробацию на международных конференциях и научных семинарах. Жүйенің прототипі әзірленді. Жүйе «Alem Research» ЖШС қызметкерлерімен тексеріліп, сараптама қорытындысы берілді. Зерттеу нәтижелері халықаралық конференциялар мен ғылыми семинарларда талқыланды. Разработаны технология (модели, алгоритмы и программы) информационного поиска казахского языка с эффективным показателем. Применимость разработанной технологией будет показана опытным образцом поисковой системы для казахского языка. Тиімді көрсеткішке ие қазақ тілінің ақпараттық іздеу технология (моделдері, алгоритмдері және бағдарламалары) әзірленді. Дайындалған технологияны қолдану қазақ тілінің іздеу жүйесінің үлгісі арқылы көрсетіледі Область применения: полученные результаты научно-технической деятельности могут быть применены в различных отраслях при анализе и поиске документаций и текстовых материалов на казахском языке. Қолдану аймағы: Ғылыми-техникалық қызметтің нәтижелері әртүрлі салаларда қазақ тіліндегі құжаттаманы және деректерді талдау мен іздеуде қолданылуы мүмкін. |
||
UDC indices | ||
004.421,004.912 | ||
International classifier codes | ||
20.23.00; 20.23.17; 16.31.21; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
ИНФОРМАЦИОННО-ПОИСКОВАЯ; СИСТЕМА; КАЗАХСКИЙ; ЯЗЫК; ТЕХНОЛОГИЯ; | ||
Key words in Kazakh | ||
АҚПАРАТТЫҚ ІЗДЕУ; ЖҮЙЕСІ; ҚАЗАҚ; ТІЛІ; ТЕХНОЛОГИЯ; | ||
Head of the organization | Калимолдаев Максат Нурадилович | Доктор физико-математических наук / профессор |
Head of work | Рахимова Диана Рамазановна | PhD / Ассоциированный профессор |
Native executive in charge |