Inventory number IRN Number of state registration
0224РК00436 AP14871214-OT-24 0122РК00803
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 5 Publications Web of science: 0 Publications Scopus: 3
Number of books Appendicies Sources
1 4 43
Total number of pages Patents Illustrations
85 0 16
Amount of funding Code of the program Table
32972602.32 AP14871214 4
Name of work
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Аршидинова Мукаддас Тургановна , Еленов Амир Мирхатович , Ахметова Диляра , Акжалова Асель Жолдасовна , Аубакиров Шакарим Ерикулы , Ахметов Искандер Рафаилович , Сейтім Әйгерім Нұржанқызы , НАМ ДИАНА ,
2
2
2
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

процессы автоматического реферирования текста, включающие абстрактивное и экстрактивное реферирование. Это включает в себя общее направление исследований в области обработки естественного языка (NLP), связанное с созданием кратких резюме текстов.

дерексіз және экстрактивті қорытындылауды қоса алғанда, мәтінді автоматты түрде жинақтау процестері. Бұл мәтіндердің қысқаша түйіндемелерін жасауға байланысты табиғи тілді өңдеудегі (NLP) зерттеудің жалпы желісін қамтиды.

Цель проекта заключается в разработке методов для преобразования экстрактивного автоматического реферирования в абстрактивное с использованием сочетания современных архитектур трансформеров и лингвистических моделей когезии текста.

Жобаның мақсаты-заманауи трансформаторлық архитектуралар мен мәтінді біріктірудің лингвистикалық модельдерінің тіркесімін қолдана отырып, экстрактивті Автоматты рефератты абстрактивтіге айналдыру әдістерін әзірлеу.

были использованы методы компьютерного моделирования

компьютерлік модельдеу әдістері қолданылды.

Результаты проекта и их новизна, а именно разработано следующее: 1) Новый метод улучшения связности экстрактивного реферирования, который опубликован в виде Open Source библиотеки: Smooth it up GitHub GitHub - iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) Фреймворк для выявления трендов в научной литературе, который может использоваться для оценки когезии и когерентности текста, опубликованный в виде Open Source библиотеки: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) Подготовлен и опубликован открытый набор данных научных статей, который может быть использован для задач автоматического реферирования текста, оценки когезии и когерентности, а также других исследований в области обработки текстов: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) опубликованы 7 статьи в рецензируемых научных изданиях индексируемых в Science Citation Index Expanded базы Web of Science, 3 из которых имеют процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти).

Жобаның нәтижелері және олардың жаңалығы, атап айтқанда мыналар әзірленді: 1) ашық дереккөз кітапханасы ретінде жарияланған экстрактивті сілтеменің байланысын жақсартудың жаңа әдісі: Smooth it up GitHub GitHub-iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) кітапхананың Open Source түрінде жарияланған мәтіннің когезиясы мен когеренттілігін бағалау үшін пайдаланылуы мүмкін ғылыми әдебиеттердегі трендтерді анықтауға арналған негіз: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) мәтінді автоматты түрде рефераттау, когезия мен когеренттілікті бағалау, сондай-ақ мәтінді өңдеу саласындағы басқа да зерттеулер міндеттері үшін пайдаланылуы мүмкін ғылыми мақалалардың ашық деректер жинағы дайындалды және жарияланды: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) Web of Science базасының Science Citation Index Expanded индекстелетін рецензияланатын ғылыми басылымдарында 7 мақала жарияланды, оның 3-мақала Scopus базасында citescore бойынша кемінде 35 (отыз бес) процентиль бар.

Разработана и оптимизирована архитектура, сочетающая нейронные сети, в частности трансформеры, и лингвистические модели для улучшения когезии текста. Это позволило повысить связность рефератов и адаптировать экстрактивные методы для генерации абстрактивных резюме. Фреймворк для анализа текстов: Создан фреймворк для оценки когезии и когерентности научных текстов. Он может выявлять основные тенденции в научной литературе, а также оценивать качество автоматического реферирования. Набор данных для NLP задач: Опубликован открытый набор данных научных статей для задач автоматического реферирования и оценки связности текстов, что позволяет проводить более точные исследования и тестирование разработанных моделей. Эффективность использования ресурсов: Проект реализован с минимальными затратами на оборудование, так как разработка и тестирование алгоритмов проводились на облачных вычислительных платформах, что сократило расходы на локальную инфраструктуру. Публикационная активность: Перевыполнение плана публикаций демон

Әдіс архитектурасы: нейронды желілерді, атап айтқанда трансформерлерді біріктіретін архитектура, мәтіндік тұтастықты жақсарту үшін лингвистикалық модельдер жасалып, оңтайландырылды. Бұл рефераттардың үйлесімділігін арттыруға және экстракциялық әдістерді абстрактілі түйіндемелерді жасауға бейімдеуге мүмкіндік туғызды. Мәтінді талдау үшін негіз: Ғылыми мәтіндердің үйлесімділігі мен үйлесімділігін бағалау үшін негіз жасалды. Ол ғылыми әдебиеттегі негізгі үрдістерді анықтап, автоматтандырылған рефераттың сапасын бағалай алады. NLP міндеттеріне арналған деректер жиынтығы: әзірленген модельдерді дәлірек зерттеуге және сынауға мүмкіндік беретін мәтіндік үйлесімділікті автоматты түрде рефераттау және бағалау міндеттеріне арналған ғылыми мақалалардың ашық деректер жиынтығы жарияланды.

не предусмотрено.

қарастырылмаған

Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности.

осы жоба жоғары ғылыми-ұйымдастырушылық деңгейде тиімді жүргізіледі, бұған Жариялау белсенділігі бойынша мәлімделген жоспардың асыра орындалуы дәлел.

результаты проекта можно будет применить для решения задач обработки естественного языка.

жоба нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады.Жұмыстың нәтижелері және олардың жаңалығы, атап айтқанда, келесілер әзірленді:

UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
20.19.19;
Readiness of the development for implementation
Key words in Russian
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение;
Key words in Kazakh
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Пак Александр Александрович Кандидат технических наук / ассоциированный профессор
Native executive in charge