Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0220РК00667	AP05133550-OT-20	0118РК00152
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 1 Implemented
Publications
Native publications: 7
International publications: 8	Publications Web of science: 0	Publications Scopus: 6
Number of books	Appendicies	Sources
1	6	29
Total number of pages	Patents	Illustrations
116	0	3
Amount of funding	Code of the program	Table
11000000	AP05133550	3
Name of work
Модели и методы семантического анализа и представления смысла текста в компьютерной лингвистике.
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Метод, способ
Report authors
Еримбетова Айгерим Сембековна , Мурзин Федор Александрович , Батура Татьяна Викторовна , Сагнаева Сауле Кайроллиевна , Самбетбаева Мадина Аралбаевна , Жанабеков Айсултан Женисбайулы ,
Engineers from production 0 Undergraduates 0 Doctoral students 0 Foreign scientists 2
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : Объектом исследований являются процессы поиска, обработки, синтаксического и семантического анализа информации, содержащейся в массивах неструктурированных данных на русском, английском, казахском и турецком языках, в том числе анафорические и риторические отношения в русском и казахском языках. The object of research, development or design (in Kazakh) : Зерттеу объектісі орыс, ағылшын, қазақ және түрік тілдеріндегі құрылымдалмаған деректер массивтеріндегі ақпаратты, оның ішінде орыс және қазақ тілдеріндегі анафориялық және риторикалық қатынастарды іздеу, өңдеу, синтаксистік және семантикалық талдау үрдістері болып табылады. Aim of work (in Russian) : Целью проекта является разработка моделей и методов более эффективного использования: ИПС; систем тематической классификации текстов; процессов автоматического реферирования; программного обеспечении, предназначенного для акцепции важной информации из больших неструктурированных массивов знаний; систем безопасности. Aim of work (in Kazakh) : Жобаның мақсаты: АІЖ, мәтіндерді тақырыптық жіктеу жүйелерін; автоматты реферирлеу үрдістері; білімнің үлкен құрылымдалмаған массивтерінен маңызды ақпаратты акцептеуге арналған бағдарламалық қамтамасыз етуді; қауіпсіздік жүйелерін неғұрлым тиімді пайдаланудың модельдері мен әдістерін әзірлеу болып табылады: Методы исследования (на русском) : Методы исследования: методы синтаксического и семантического анализа текстов, формальных языков, современные технологии программирования. В ходе выполнения проекта разработаны новые логические и теоретико-модельные методы для компьютерной лингвистики, исследованы логические свойства системы связей синтаксического анализатора Link Grammar Parser; установлены логические свойства анафорических связей и риторических отношений; реализована система обнаружения риторических отношений на основе предложенных новых методов сегментации текстов; разработаны методы выделения элементарных дискурсивных единиц (ЭДЕ) и установления отношений между ними; разработан метаязык для формального описания различных случаев местоименной анафоры в русском языке и алгоритмы автоматического обнаружения анафорических связей на основе машинного обучения; разработаны теоретические основы и алгоритмы для обнаружения описаний событий в текстах на естественном языке. Методы исследования (на казахском) : Зерттеу әдістері: мәтіндерді, формальды тілдерді синтаксистік және семантикалық талдау әдістері, бағдарламалаудың заманауи технологиялары. Жобаны орындау барысында компьютерлік лингвистикаға арналған жаңа логикалық және теориялық-модельдік әдістер әзірленді, Link Grammar Parser синтаксистік талдауышының байланыс жүйесінің логикалық қасиеттері зерттелді; анафориялық байланыстар мен риторикалық қатынастардың логикалық қасиеттері белгіленді; мәтіндерді сегментациялаудың ұсынылған жаңа әдістері негізінде риторикалық қатынастарды анықтау жүйесі іске асырылды; қарапайым дискурсивті бірліктерді (ҚДБ) бөлу және олардың арасындағы қатынастарды орнату әдістері жасалды; орыс тіліндегі прономинальды анафораның әртүрлі жағдайларын ресми сипаттауға арналған мета-тіл және машиналық оқыту негізінде анафориялық байланыстарды автоматты түрде анықтау алгоритмдері жасалды; табиғи тілдегі мәтіндердегі оқиғалардың сипаттамаларын анықтауға арналған теориялық негіздер мен алгоритмдер жасалды. Obtained results and novelty (in Russian) : Новизна результатов работы заключается в: использовании формальных описаний риторических структур, в том числе на основе диаграмм анализатора LGP; применении процедуры сглаживания, позволяющей сделать текст автоматически получаемого реферата более связным и последовательным; проведении детального анализа свойств анафорических связей и риторических отношений посредством применения логики предикатов первого и второго порядка; использовании идей из математической логики для формализации семантических понятий из лингвистики; использовании алгоритмов машинного обучения и корпусов текстов, в том числе, применительно к русскому, английскому, казахскому и турецкому языкам. Obtained results and novelty (in Kazakh) : Жұмыс нәтижелерінің жаңалығы: риторикалық құрылымдардың ресми сипаттамаларын, оның ішінде LGP анализаторының диаграммалары негізінде қолдану; автоматты түрде алынған реферат мәтінін үйлесімді және дәйекті етуге мүмкіндік беретін тегістеу процедурасын қолдану; бірінші және екінші ретті предикаттық логиканы қолдану арқылы анафориялық байланыстар мен риторикалық қатынастардың қасиеттеріне егжей-тегжейлі талдау жүргізу; лингвистикадан семантикалық ұғымдарды ресімдеу үшін математикалық логикадан идеяларды қолдану; Машиналық оқыту алгоритмдері мен мәтін корпустарын қолдану, оның ішінде орыс, ағылшын, қазақ және түрік тілдеріне қатысты болды. The main constructive and technical economic indicators (in Russian) : Формально описана методика обнаружения важных элементов в тексте, базирующаяся на понятиях теории риторических структур для построения квазиреферата. Разработанный гибридный метод позволяет получать рефераты (аннотации) высокого качества и определять темы текстов на русском языке в виде набора ключевых терминов. Система реализована на языке Python3, также используется инструмент для работы с базами данных PostgreSQL. Рассмотрен один из видов анафорических отношений – местоименная анафора, исследованы ее лингвистическая составляющая, изучена проблема ее автоматического обнаружения, разработан программный инструмент для обнаружения местоименной анафоры. Предложен процесс применения конструкции Генкина в компьютерной лингвистике с целью отображения семантики; Разработан алгоритм для определения частей речи английского, казахского и турецкого языков на основе машинного обучения. The main constructive and technical economic indicators (in Kazakh) : Квазиреферат жасау үшін риторикалық құрылым теориясы түсінігіне негізделген маңызды элементтерді табу әдістемесі формальды сипатталды. Жасалған гибридті әдіс жоғары сапалы рефераттарды (аннотация) алуға және кілттік терминдер жиынтығы түрінде орыс тілінде мәтіннің тақырыбын анықтауға мүмкіндік береді. Жүйе Python3 тілінде жасалған және де PostgreSQL деректер қорымен жұмыс істеу үшін құрал қолданылды. Анафоралық қатынастың бір түрі яғни есімдік анафорасы қарастырылды, оның лингвистикалық құраушысы зерттелді, оның автоматты түрде табылуы мәселелері қарастырылды, есімдік анафорасының табу үшін бағдарламалық құрал жасалды. Компьютерлік лингвистикада семантиканы анықтау мақсатында Генкин конструкциясын қолдану процесі ұсынылды. Машиналық оқыту негізінде ағылшын, қазақ және түрік тілдерінің сөз таптары үшін алгоритм жасалды. Level of implementation (in Russian) : Публикации в рецензируемых научных изданиях, имеющих процентиль по CiteScore в базе Scopus, в научно-практических изданиях, апробация результатов исследования на международных и республиканских конференциях, результаты научного исследования были внедрены в учебный курс и используются в процессе обучения студентов факультета информационных технологий Международного университета Астана по учебному курсу «Прикладной искусственный интеллект». Получен 1 охранный документ на объект авторского права. Level of implementation (in Kazakh) : Scopus базасында CiteScore бойынша пайызы бар рецензияланатын ғылыми басылымдар, ғылыми-практикалық басылымдардағы жарияланымдар, зерттеу нәтижелерін халықаралық және республикалық конференцияларда апробациялау, ғылыми зерттеу нәтижелері оқу курсына енгізілді және Астана Халықаралық университеті Ақпараттық технологиялар факультетінің студенттеріне «Қолданбалы жасанды интеллект» оқу курсы бойынша оқыту процесінде пайдаланылады. Авторлық құқық объектісіне 1 қорғау құжаты алынды. Efficiency (in Russian) : календарный план работ на 2020 год полностью выполнен. Efficiency (in Kazakh) : 2020 жылға негізделген күнтізбелік жоспар толық орындалды Field of application (in Russian) : задачи семантического анализа текста, машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ. Field of application (in Kazakh) : мәтінді семантикалық талдау, машиналық аударма, мәтіндерді автоматты рефераттау, МАӨ бөлігінде іздеу және диалогтық жүйелерде және басқа да жасанды интеллект автоматты жүйелерде ақпарат алу міндеттері.
UDC indices
004.912; 054; 032.26; 656; 424
International classifier codes
20.23.19; 20.53.19; 20.23.00; 20.23.25;
Readiness of the development for implementation
Key words in Russian
информационные системы; семантический анализ; информационно-поисковая система; автоматическая обработка текста; извлечение информации;
Key words in Kazakh
ақпараттық жүйелер; семантикалық талдау; ақпараттық-іздеу жүйелері; мәтінді автоматты түрде өңдеу; ақпаратты шығарып алу;
Head of the organization	Калимолдаев Максат Нурадилович	Academic degree/title: Доктор физико-математических наук / профессор
Head of work	Еримбетова Айгерим Сембековна	Academic degree/title : Доктор философии (PhD) / ассоциированный профессор
Native executive in charge		Academic degree/title:

Eng

Қаз

Рус