Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0224РК00436	AP14871214-OT-24	0122РК00803
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 5	Publications Web of science: 0	Publications Scopus: 3
Number of books	Appendicies	Sources
1	4	43
Total number of pages	Patents	Illustrations
85	0	16
Amount of funding	Code of the program	Table
32972602.32	AP14871214	4
Name of work
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Метод, способ
Report authors
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Аршидинова Мукаддас Тургановна , Еленов Амир Мирхатович , Ахметова Диляра , Акжалова Асель Жолдасовна , Аубакиров Шакарим Ерикулы , Ахметов Искандер Рафаилович , Сейтім Әйгерім Нұржанқызы , НАМ ДИАНА ,
Engineers from production 2 Undergraduates 2 Doctoral students 2 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : процессы автоматического реферирования текста, включающие абстрактивное и экстрактивное реферирование. Это включает в себя общее направление исследований в области обработки естественного языка (NLP), связанное с созданием кратких резюме текстов. The object of research, development or design (in Kazakh) : дерексіз және экстрактивті қорытындылауды қоса алғанда, мәтінді автоматты түрде жинақтау процестері. Бұл мәтіндердің қысқаша түйіндемелерін жасауға байланысты табиғи тілді өңдеудегі (NLP) зерттеудің жалпы желісін қамтиды. Aim of work (in Russian) : Цель проекта заключается в разработке методов для преобразования экстрактивного автоматического реферирования в абстрактивное с использованием сочетания современных архитектур трансформеров и лингвистических моделей когезии текста. Aim of work (in Kazakh) : Жобаның мақсаты-заманауи трансформаторлық архитектуралар мен мәтінді біріктірудің лингвистикалық модельдерінің тіркесімін қолдана отырып, экстрактивті Автоматты рефератты абстрактивтіге айналдыру әдістерін әзірлеу. Методы исследования (на русском) : были использованы методы компьютерного моделирования Методы исследования (на казахском) : компьютерлік модельдеу әдістері қолданылды. Obtained results and novelty (in Russian) : Результаты проекта и их новизна, а именно разработано следующее: 1) Новый метод улучшения связности экстрактивного реферирования, который опубликован в виде Open Source библиотеки: Smooth it up GitHub GitHub - iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) Фреймворк для выявления трендов в научной литературе, который может использоваться для оценки когезии и когерентности текста, опубликованный в виде Open Source библиотеки: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) Подготовлен и опубликован открытый набор данных научных статей, который может быть использован для задач автоматического реферирования текста, оценки когезии и когерентности, а также других исследований в области обработки текстов: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) опубликованы 7 статьи в рецензируемых научных изданиях индексируемых в Science Citation Index Expanded базы Web of Science, 3 из которых имеют процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти). Obtained results and novelty (in Kazakh) : Жобаның нәтижелері және олардың жаңалығы, атап айтқанда мыналар әзірленді: 1) ашық дереккөз кітапханасы ретінде жарияланған экстрактивті сілтеменің байланысын жақсартудың жаңа әдісі: Smooth it up GitHub GitHub-iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) кітапхананың Open Source түрінде жарияланған мәтіннің когезиясы мен когеренттілігін бағалау үшін пайдаланылуы мүмкін ғылыми әдебиеттердегі трендтерді анықтауға арналған негіз: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) мәтінді автоматты түрде рефераттау, когезия мен когеренттілікті бағалау, сондай-ақ мәтінді өңдеу саласындағы басқа да зерттеулер міндеттері үшін пайдаланылуы мүмкін ғылыми мақалалардың ашық деректер жинағы дайындалды және жарияланды: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) Web of Science базасының Science Citation Index Expanded индекстелетін рецензияланатын ғылыми басылымдарында 7 мақала жарияланды, оның 3-мақала Scopus базасында citescore бойынша кемінде 35 (отыз бес) процентиль бар. The main constructive and technical economic indicators (in Russian) : Разработана и оптимизирована архитектура, сочетающая нейронные сети, в частности трансформеры, и лингвистические модели для улучшения когезии текста. Это позволило повысить связность рефератов и адаптировать экстрактивные методы для генерации абстрактивных резюме. Фреймворк для анализа текстов: Создан фреймворк для оценки когезии и когерентности научных текстов. Он может выявлять основные тенденции в научной литературе, а также оценивать качество автоматического реферирования. Набор данных для NLP задач: Опубликован открытый набор данных научных статей для задач автоматического реферирования и оценки связности текстов, что позволяет проводить более точные исследования и тестирование разработанных моделей. Эффективность использования ресурсов: Проект реализован с минимальными затратами на оборудование, так как разработка и тестирование алгоритмов проводились на облачных вычислительных платформах, что сократило расходы на локальную инфраструктуру. Публикационная активность: Перевыполнение плана публикаций демон The main constructive and technical economic indicators (in Kazakh) : Әдіс архитектурасы: нейронды желілерді, атап айтқанда трансформерлерді біріктіретін архитектура, мәтіндік тұтастықты жақсарту үшін лингвистикалық модельдер жасалып, оңтайландырылды. Бұл рефераттардың үйлесімділігін арттыруға және экстракциялық әдістерді абстрактілі түйіндемелерді жасауға бейімдеуге мүмкіндік туғызды. Мәтінді талдау үшін негіз: Ғылыми мәтіндердің үйлесімділігі мен үйлесімділігін бағалау үшін негіз жасалды. Ол ғылыми әдебиеттегі негізгі үрдістерді анықтап, автоматтандырылған рефераттың сапасын бағалай алады. NLP міндеттеріне арналған деректер жиынтығы: әзірленген модельдерді дәлірек зерттеуге және сынауға мүмкіндік беретін мәтіндік үйлесімділікті автоматты түрде рефераттау және бағалау міндеттеріне арналған ғылыми мақалалардың ашық деректер жиынтығы жарияланды. Level of implementation (in Russian) : не предусмотрено. Level of implementation (in Kazakh) : қарастырылмаған Efficiency (in Russian) : Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности. Efficiency (in Kazakh) : осы жоба жоғары ғылыми-ұйымдастырушылық деңгейде тиімді жүргізіледі, бұған Жариялау белсенділігі бойынша мәлімделген жоспардың асыра орындалуы дәлел. Field of application (in Russian) : результаты проекта можно будет применить для решения задач обработки естественного языка. Field of application (in Kazakh) : жоба нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады.Жұмыстың нәтижелері және олардың жаңалығы, атап айтқанда, келесілер әзірленді:
UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
20.19.19;
Readiness of the development for implementation
Key words in Russian
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение;
Key words in Kazakh
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту;
Head of the organization	Мутанов Галимкаир Мутанович	Academic degree/title: Доктор технических наук / профессор
Head of work	Пак Александр Александрович	Academic degree/title : Кандидат технических наук / ассоциированный профессор
Native executive in charge		Academic degree/title:

Eng

Қаз

Рус