Inventory number | IRN | Number of state registration |
---|---|---|
0220РК00667 | AP05133550-OT-20 | 0118РК00152 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 1 Implemented |
Publications | ||
Native publications: 7 | ||
International publications: 8 | Publications Web of science: 0 | Publications Scopus: 6 |
Number of books | Appendicies | Sources |
1 | 6 | 29 |
Total number of pages | Patents | Illustrations |
116 | 0 | 3 |
Amount of funding | Code of the program | Table |
11000000 | AP05133550 | 3 |
Name of work | ||
Модели и методы семантического анализа и представления смысла текста в компьютерной лингвистике. | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Еримбетова Айгерим Сембековна , Мурзин Федор Александрович , Батура Татьяна Викторовна , Сагнаева Сауле Кайроллиевна , Самбетбаева Мадина Аралбаевна , Жанабеков Айсултан Женисбайулы , | ||
0
0
0
2
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||
Abbreviated name of the service recipient | ИИВТ | |
Abstract | ||
Объектом исследований являются процессы поиска, обработки, синтаксического и семантического анализа информации, содержащейся в массивах неструктурированных данных на русском, английском, казахском и турецком языках, в том числе анафорические и риторические отношения в русском и казахском языках. Зерттеу объектісі орыс, ағылшын, қазақ және түрік тілдеріндегі құрылымдалмаған деректер массивтеріндегі ақпаратты, оның ішінде орыс және қазақ тілдеріндегі анафориялық және риторикалық қатынастарды іздеу, өңдеу, синтаксистік және семантикалық талдау үрдістері болып табылады. Целью проекта является разработка моделей и методов более эффективного использования: ИПС; систем тематической классификации текстов; процессов автоматического реферирования; программного обеспечении, предназначенного для акцепции важной информации из больших неструктурированных массивов знаний; систем безопасности. Жобаның мақсаты: АІЖ, мәтіндерді тақырыптық жіктеу жүйелерін; автоматты реферирлеу үрдістері; білімнің үлкен құрылымдалмаған массивтерінен маңызды ақпаратты акцептеуге арналған бағдарламалық қамтамасыз етуді; қауіпсіздік жүйелерін неғұрлым тиімді пайдаланудың модельдері мен әдістерін әзірлеу болып табылады: Методы исследования: методы синтаксического и семантического анализа текстов, формальных языков, современные технологии программирования. В ходе выполнения проекта разработаны новые логические и теоретико-модельные методы для компьютерной лингвистики, исследованы логические свойства системы связей синтаксического анализатора Link Grammar Parser; установлены логические свойства анафорических связей и риторических отношений; реализована система обнаружения риторических отношений на основе предложенных новых методов сегментации текстов; разработаны методы выделения элементарных дискурсивных единиц (ЭДЕ) и установления отношений между ними; разработан метаязык для формального описания различных случаев местоименной анафоры в русском языке и алгоритмы автоматического обнаружения анафорических связей на основе машинного обучения; разработаны теоретические основы и алгоритмы для обнаружения описаний событий в текстах на естественном языке. Зерттеу әдістері: мәтіндерді, формальды тілдерді синтаксистік және семантикалық талдау әдістері, бағдарламалаудың заманауи технологиялары. Жобаны орындау барысында компьютерлік лингвистикаға арналған жаңа логикалық және теориялық-модельдік әдістер әзірленді, Link Grammar Parser синтаксистік талдауышының байланыс жүйесінің логикалық қасиеттері зерттелді; анафориялық байланыстар мен риторикалық қатынастардың логикалық қасиеттері белгіленді; мәтіндерді сегментациялаудың ұсынылған жаңа әдістері негізінде риторикалық қатынастарды анықтау жүйесі іске асырылды; қарапайым дискурсивті бірліктерді (ҚДБ) бөлу және олардың арасындағы қатынастарды орнату әдістері жасалды; орыс тіліндегі прономинальды анафораның әртүрлі жағдайларын ресми сипаттауға арналған мета-тіл және машиналық оқыту негізінде анафориялық байланыстарды автоматты түрде анықтау алгоритмдері жасалды; табиғи тілдегі мәтіндердегі оқиғалардың сипаттамаларын анықтауға арналған теориялық негіздер мен алгоритмдер жасалды. Новизна результатов работы заключается в: использовании формальных описаний риторических структур, в том числе на основе диаграмм анализатора LGP; применении процедуры сглаживания, позволяющей сделать текст автоматически получаемого реферата более связным и последовательным; проведении детального анализа свойств анафорических связей и риторических отношений посредством применения логики предикатов первого и второго порядка; использовании идей из математической логики для формализации семантических понятий из лингвистики; использовании алгоритмов машинного обучения и корпусов текстов, в том числе, применительно к русскому, английскому, казахскому и турецкому языкам. Жұмыс нәтижелерінің жаңалығы: риторикалық құрылымдардың ресми сипаттамаларын, оның ішінде LGP анализаторының диаграммалары негізінде қолдану; автоматты түрде алынған реферат мәтінін үйлесімді және дәйекті етуге мүмкіндік беретін тегістеу процедурасын қолдану; бірінші және екінші ретті предикаттық логиканы қолдану арқылы анафориялық байланыстар мен риторикалық қатынастардың қасиеттеріне егжей-тегжейлі талдау жүргізу; лингвистикадан семантикалық ұғымдарды ресімдеу үшін математикалық логикадан идеяларды қолдану; Машиналық оқыту алгоритмдері мен мәтін корпустарын қолдану, оның ішінде орыс, ағылшын, қазақ және түрік тілдеріне қатысты болды. Формально описана методика обнаружения важных элементов в тексте, базирующаяся на понятиях теории риторических структур для построения квазиреферата. Разработанный гибридный метод позволяет получать рефераты (аннотации) высокого качества и определять темы текстов на русском языке в виде набора ключевых терминов. Система реализована на языке Python3, также используется инструмент для работы с базами данных PostgreSQL. Рассмотрен один из видов анафорических отношений – местоименная анафора, исследованы ее лингвистическая составляющая, изучена проблема ее автоматического обнаружения, разработан программный инструмент для обнаружения местоименной анафоры. Предложен процесс применения конструкции Генкина в компьютерной лингвистике с целью отображения семантики; Разработан алгоритм для определения частей речи английского, казахского и турецкого языков на основе машинного обучения. Квазиреферат жасау үшін риторикалық құрылым теориясы түсінігіне негізделген маңызды элементтерді табу әдістемесі формальды сипатталды. Жасалған гибридті әдіс жоғары сапалы рефераттарды (аннотация) алуға және кілттік терминдер жиынтығы түрінде орыс тілінде мәтіннің тақырыбын анықтауға мүмкіндік береді. Жүйе Python3 тілінде жасалған және де PostgreSQL деректер қорымен жұмыс істеу үшін құрал қолданылды. Анафоралық қатынастың бір түрі яғни есімдік анафорасы қарастырылды, оның лингвистикалық құраушысы зерттелді, оның автоматты түрде табылуы мәселелері қарастырылды, есімдік анафорасының табу үшін бағдарламалық құрал жасалды. Компьютерлік лингвистикада семантиканы анықтау мақсатында Генкин конструкциясын қолдану процесі ұсынылды. Машиналық оқыту негізінде ағылшын, қазақ және түрік тілдерінің сөз таптары үшін алгоритм жасалды. Публикации в рецензируемых научных изданиях, имеющих процентиль по CiteScore в базе Scopus, в научно-практических изданиях, апробация результатов исследования на международных и республиканских конференциях, результаты научного исследования были внедрены в учебный курс и используются в процессе обучения студентов факультета информационных технологий Международного университета Астана по учебному курсу «Прикладной искусственный интеллект». Получен 1 охранный документ на объект авторского права. Scopus базасында CiteScore бойынша пайызы бар рецензияланатын ғылыми басылымдар, ғылыми-практикалық басылымдардағы жарияланымдар, зерттеу нәтижелерін халықаралық және республикалық конференцияларда апробациялау, ғылыми зерттеу нәтижелері оқу курсына енгізілді және Астана Халықаралық университеті Ақпараттық технологиялар факультетінің студенттеріне «Қолданбалы жасанды интеллект» оқу курсы бойынша оқыту процесінде пайдаланылады. Авторлық құқық объектісіне 1 қорғау құжаты алынды. календарный план работ на 2020 год полностью выполнен. 2020 жылға негізделген күнтізбелік жоспар толық орындалды задачи семантического анализа текста, машинного перевода, автоматического реферирования текстов, извлечения информации в поисковых и диалоговых системах и других автоматических системах искусственного интеллекта в части АОТ. мәтінді семантикалық талдау, машиналық аударма, мәтіндерді автоматты рефераттау, МАӨ бөлігінде іздеу және диалогтық жүйелерде және басқа да жасанды интеллект автоматты жүйелерде ақпарат алу міндеттері. |
||
UDC indices | ||
004.912; 054; 032.26; 656; 424 | ||
International classifier codes | ||
20.23.19; 20.53.19; 20.23.00; 20.23.25; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
информационные системы; семантический анализ; информационно-поисковая система; автоматическая обработка текста; извлечение информации; | ||
Key words in Kazakh | ||
ақпараттық жүйелер; семантикалық талдау; ақпараттық-іздеу жүйелері; мәтінді автоматты түрде өңдеу; ақпаратты шығарып алу; | ||
Head of the organization | Калимолдаев Максат Нурадилович | Доктор физико-математических наук / профессор |
Head of work | Еримбетова Айгерим Сембековна | Доктор философии (PhD) / ассоциированный профессор |
Native executive in charge |