Inventory number IRN Number of state registration
0220РК00667 AP05133550-OT-20 0118РК00152
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 1
Implemented
Publications
Native publications: 7
International publications: 8 Publications Web of science: 0 Publications Scopus: 6
Number of books Appendicies Sources
1 6 29
Total number of pages Patents Illustrations
116 0 3
Amount of funding Code of the program Table
11000000 AP05133550 3
Name of work
Модели и методы семантического анализа и представления смысла текста в компьютерной лингвистике.
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Еримбетова Айгерим Сембековна , Мурзин Федор Александрович , Батура Татьяна Викторовна , Сагнаева Сауле Кайроллиевна , Самбетбаева Мадина Аралбаевна , Жанабеков Айсултан Женисбайулы ,
0
0
0
2
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Объектом исследований являются процессы поиска, обработки, синтаксического и семантического анализа информации, содержащейся в массивах неструктурированных данных на русском, английском, казахском и турецком языках, в том числе анафорические и риторические отношения в русском и казахском языках.

Зерттеу объектісі орыс, ағылшын, қазақ және түрік тілдеріндегі құрылымдалмаған деректер массивтеріндегі ақпаратты, оның ішінде орыс және қазақ тілдеріндегі анафориялық және риторикалық қатынастарды іздеу, өңдеу, синтаксистік және семантикалық талдау үрдістері болып табылады.

Целью проекта является разработка моделей и методов более эффективного использования: ИПС; систем тематической классификации текстов; процессов автоматического реферирования; программного обеспечении, предназначенного для акцепции важной информации из больших неструктурированных массивов знаний; систем безопасности.

Жобаның мақсаты: АІЖ, мәтіндерді тақырыптық жіктеу жүйелерін; автоматты реферирлеу үрдістері; білімнің үлкен құрылымдалмаған массивтерінен маңызды ақпаратты акцептеуге арналған бағдарламалық қамтамасыз етуді; қауіпсіздік жүйелерін неғұрлым тиімді пайдаланудың модельдері мен әдістерін әзірлеу болып табылады:

Методы исследования: методы синтаксического и семантического анализа текстов, формальных языков, современные технологии программирования. В ходе выполнения проекта разработаны новые логические и теоретико-модельные методы для компьютерной лингвистики, исследованы логические свойства системы связей синтаксического анализатора Link Grammar Parser; установлены логические свойства анафорических связей и риторических отношений; реализована система обнаружения риторических отношений на основе предложенных новых методов сегментации текстов; разработаны методы выделения элементарных дискурсивных единиц (ЭДЕ) и установления отношений между ними; разработан метаязык для формального описания различных случаев местоименной анафоры в русском языке и алгоритмы автоматического обнаружения анафорических связей на основе машинного обучения; разработаны теоретические основы и алгоритмы для обнаружения описаний событий в текстах на естественном языке.

Зерттеу әдістері: мәтіндерді, формальды тілдерді синтаксистік және семантикалық талдау әдістері, бағдарламалаудың заманауи технологиялары. Жобаны орындау барысында компьютерлік лингвистикаға арналған жаңа логикалық және теориялық-модельдік әдістер әзірленді, Link Grammar Parser синтаксистік талдауышының байланыс жүйесінің логикалық қасиеттері зерттелді; анафориялық байланыстар мен риторикалық қатынастардың логикалық қасиеттері белгіленді; мәтіндерді сегментациялаудың ұсынылған жаңа әдістері негізінде риторикалық қатынастарды анықтау жүйесі іске асырылды; қарапайым дискурсивті бірліктерді (ҚДБ) бөлу және олардың арасындағы қатынастарды орнату әдістері жасалды; орыс тіліндегі прономинальды анафораның әртүрлі жағдайларын ресми сипаттауға арналған мета-тіл және машиналық оқыту негізінде анафориялық байланыстарды автоматты түрде анықтау алгоритмдері жасалды; табиғи тілдегі мәтіндердегі оқиғалардың сипаттамаларын анықтауға арналған теориялық негіздер мен алгоритмдер жасалды.

Новизна результатов работы заключается в: использовании формальных описаний риторических структур, в том числе на основе диаграмм анализатора LGP; применении процедуры сглаживания, позволяющей сделать текст автоматически получаемого реферата более связным и последовательным; проведении детального анализа свойств анафорических связей и риторических отношений посредством применения логики предикатов первого и второго порядка; использовании идей из математической логики для формализации семантических понятий из лингвистики; использовании алгоритмов машинного обучения и корпусов текстов, в том числе, применительно к русскому, английскому, казахскому и турецкому языкам.

Жұмыс нәтижелерінің жаңалығы: риторикалық құрылымдардың ресми сипаттамаларын, оның ішінде LGP анализаторының диаграммалары негізінде қолдану; автоматты түрде алынған реферат мәтінін үйлесімді және дәйекті етуге мүмкіндік беретін тегістеу процедурасын қолдану; бірінші және екінші ретті предикаттық логиканы қолдану арқылы анафориялық байланыстар мен риторикалық қатынастардың қасиеттеріне егжей-тегжейлі талдау жүргізу; лингвистикадан семантикалық ұғымдарды ресімдеу үшін математикалық логикадан идеяларды қолдану; Машиналық оқыту алгоритмдері мен мәтін корпустарын қолдану, оның ішінде орыс, ағылшын, қазақ және түрік тілдеріне қатысты болды.

Формально описана методика обнаружения важных элементов в тексте, базирующаяся на понятиях теории риторических структур для построения квазиреферата. Разработанный гибридный метод позволяет получать рефераты (аннотации) высокого качества и определять темы текстов на русском языке в виде набора ключевых терминов. Система реализована на языке Python3, также используется инструмент для работы с базами данных PostgreSQL. Рассмотрен один из видов анафорических отношений – местоименная анафора, исследованы ее лингвистическая составляющая, изучена проблема ее автоматического обнаружения, разработан программный инструмент для обнаружения местоименной анафоры. Предложен процесс применения конструкции Генкина в компьютерной лингвистике с целью отображения семантики; Разработан алгоритм для определения частей речи английского, казахского и турецкого языков на основе машинного обучения.

Квазиреферат жасау үшін риторикалық құрылым теориясы түсінігіне негізделген маңызды элементтерді табу әдістемесі формальды сипатталды. Жасалған гибридті әдіс жоғары сапалы рефераттарды (аннотация) алуға және кілттік терминдер жиынтығы түрінде орыс тілінде мәтіннің тақырыбын анықтауға мүмкіндік береді. Жүйе Python3 тілінде жасалған және де PostgreSQL деректер қорымен жұмыс істеу үшін құрал қолданылды. Анафоралық қатынастың бір түрі яғни есімдік анафорасы қарастырылды, оның лингвистикалық құраушысы зерттелді, оның автоматты түрде табылуы мәселелері қарастырылды, есімдік анафорасының табу үшін бағдарламалық құрал жасалды. Компьютерлік лингвистикада семантиканы анықтау мақсатында Генкин конструкциясын қолдану процесі ұсынылды. Машиналық оқыту негізінде ағылшын, қазақ және түрік тілдерінің сөз таптары үшін алгоритм жасалды.

Публикации в рецензируемых научных изданиях, имеющих процентиль по CiteScore в базе Scopus, в научно-практических изданиях, апробация результатов исследования на международных и республиканских конференциях, результаты научного исследования были внедрены в учебный курс и используются в процессе обучения студентов факультета информационных технологий Международного университета Астана по учебному курсу «Прикладной искусственный интеллект». Получен 1 охранный документ на объект авторского права.

Scopus базасында CiteScore бойынша пайызы бар рецензияланатын ғылыми басылымдар, ғылыми-практикалық басылымдардағы жарияланымдар, зерттеу нәтижелерін халықаралық және республикалық конференцияларда апробациялау, ғылыми зерттеу нәтижелері оқу курсына енгізілді және Астана Халықаралық университеті Ақпараттық технологиялар факультетінің студенттеріне «Қолданбалы жасанды интеллект» оқу курсы бойынша оқыту процесінде пайдаланылады. Авторлық құқық объектісіне 1 қорғау құжаты алынды.

календарный план работ на 2020 год полностью выполнен.

2020 жылға негізделген күнтізбелік жоспар толық орындалды

задачи семантического анализа текста, машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ.

мәтінді семантикалық талдау, машиналық аударма, мәтіндерді автоматты рефераттау, МАӨ бөлігінде іздеу және диалогтық жүйелерде және басқа да жасанды интеллект автоматты жүйелерде ақпарат алу міндеттері.

UDC indices
004.912; 054; 032.26; 656; 424
International classifier codes
20.23.19; 20.53.19; 20.23.00; 20.23.25;
Readiness of the development for implementation
Key words in Russian
информационные системы; семантический анализ; информационно-поисковая система; автоматическая обработка текста; извлечение информации;
Key words in Kazakh
ақпараттық жүйелер; семантикалық талдау; ақпараттық-іздеу жүйелері; мәтінді автоматты түрде өңдеу; ақпаратты шығарып алу;
Head of the organization Калимолдаев Максат Нурадилович Доктор физико-математических наук / профессор
Head of work Еримбетова Айгерим Сембековна Доктор философии (PhD) / ассоциированный профессор
Native executive in charge