Inventory number | IRN | Number of state registration |
---|---|---|
0224РК00436 | AP14871214-OT-24 | 0122РК00803 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 0 | ||
International publications: 5 | Publications Web of science: 0 | Publications Scopus: 3 |
Number of books | Appendicies | Sources |
1 | 4 | 43 |
Total number of pages | Patents | Illustrations |
85 | 0 | 16 |
Amount of funding | Code of the program | Table |
32972602.32 | AP14871214 | 4 |
Name of work | ||
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Аршидинова Мукаддас Тургановна , Еленов Амир Мирхатович , Ахметова Диляра , Акжалова Асель Жолдасовна , Аубакиров Шакарим Ерикулы , Ахметов Искандер Рафаилович , Сейтім Әйгерім Нұржанқызы , НАМ ДИАНА , | ||
2
2
2
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||
Abbreviated name of the service recipient | ИИВТ | |
Abstract | ||
процессы автоматического реферирования текста, включающие абстрактивное и экстрактивное реферирование. Это включает в себя общее направление исследований в области обработки естественного языка (NLP), связанное с созданием кратких резюме текстов. дерексіз және экстрактивті қорытындылауды қоса алғанда, мәтінді автоматты түрде жинақтау процестері. Бұл мәтіндердің қысқаша түйіндемелерін жасауға байланысты табиғи тілді өңдеудегі (NLP) зерттеудің жалпы желісін қамтиды. Цель проекта заключается в разработке методов для преобразования экстрактивного автоматического реферирования в абстрактивное с использованием сочетания современных архитектур трансформеров и лингвистических моделей когезии текста. Жобаның мақсаты-заманауи трансформаторлық архитектуралар мен мәтінді біріктірудің лингвистикалық модельдерінің тіркесімін қолдана отырып, экстрактивті Автоматты рефератты абстрактивтіге айналдыру әдістерін әзірлеу. были использованы методы компьютерного моделирования компьютерлік модельдеу әдістері қолданылды. Результаты проекта и их новизна, а именно разработано следующее: 1) Новый метод улучшения связности экстрактивного реферирования, который опубликован в виде Open Source библиотеки: Smooth it up GitHub GitHub - iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) Фреймворк для выявления трендов в научной литературе, который может использоваться для оценки когезии и когерентности текста, опубликованный в виде Open Source библиотеки: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) Подготовлен и опубликован открытый набор данных научных статей, который может быть использован для задач автоматического реферирования текста, оценки когезии и когерентности, а также других исследований в области обработки текстов: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) опубликованы 7 статьи в рецензируемых научных изданиях индексируемых в Science Citation Index Expanded базы Web of Science, 3 из которых имеют процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти). Жобаның нәтижелері және олардың жаңалығы, атап айтқанда мыналар әзірленді: 1) ашық дереккөз кітапханасы ретінде жарияланған экстрактивті сілтеменің байланысын жақсартудың жаңа әдісі: Smooth it up GitHub GitHub-iskander-akhmetov/Extractive-summaries-coherence-enhancement 2) кітапхананың Open Source түрінде жарияланған мәтіннің когезиясы мен когеренттілігін бағалау үшін пайдаланылуы мүмкін ғылыми әдебиеттердегі трендтерді анықтауға арналған негіз: https://github.com/AlexPak/paper-2024-nu-sustainable-constr 3) мәтінді автоматты түрде рефераттау, когезия мен когеренттілікті бағалау, сондай-ақ мәтінді өңдеу саласындағы басқа да зерттеулер міндеттері үшін пайдаланылуы мүмкін ғылыми мақалалардың ашық деректер жинағы дайындалды және жарияланды: https://data.mendeley.com/datasets/6w74d7x8s4/2 4) Web of Science базасының Science Citation Index Expanded индекстелетін рецензияланатын ғылыми басылымдарында 7 мақала жарияланды, оның 3-мақала Scopus базасында citescore бойынша кемінде 35 (отыз бес) процентиль бар. Разработана и оптимизирована архитектура, сочетающая нейронные сети, в частности трансформеры, и лингвистические модели для улучшения когезии текста. Это позволило повысить связность рефератов и адаптировать экстрактивные методы для генерации абстрактивных резюме. Фреймворк для анализа текстов: Создан фреймворк для оценки когезии и когерентности научных текстов. Он может выявлять основные тенденции в научной литературе, а также оценивать качество автоматического реферирования. Набор данных для NLP задач: Опубликован открытый набор данных научных статей для задач автоматического реферирования и оценки связности текстов, что позволяет проводить более точные исследования и тестирование разработанных моделей. Эффективность использования ресурсов: Проект реализован с минимальными затратами на оборудование, так как разработка и тестирование алгоритмов проводились на облачных вычислительных платформах, что сократило расходы на локальную инфраструктуру. Публикационная активность: Перевыполнение плана публикаций демон Әдіс архитектурасы: нейронды желілерді, атап айтқанда трансформерлерді біріктіретін архитектура, мәтіндік тұтастықты жақсарту үшін лингвистикалық модельдер жасалып, оңтайландырылды. Бұл рефераттардың үйлесімділігін арттыруға және экстракциялық әдістерді абстрактілі түйіндемелерді жасауға бейімдеуге мүмкіндік туғызды. Мәтінді талдау үшін негіз: Ғылыми мәтіндердің үйлесімділігі мен үйлесімділігін бағалау үшін негіз жасалды. Ол ғылыми әдебиеттегі негізгі үрдістерді анықтап, автоматтандырылған рефераттың сапасын бағалай алады. NLP міндеттеріне арналған деректер жиынтығы: әзірленген модельдерді дәлірек зерттеуге және сынауға мүмкіндік беретін мәтіндік үйлесімділікті автоматты түрде рефераттау және бағалау міндеттеріне арналған ғылыми мақалалардың ашық деректер жиынтығы жарияланды. не предусмотрено. қарастырылмаған Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности. осы жоба жоғары ғылыми-ұйымдастырушылық деңгейде тиімді жүргізіледі, бұған Жариялау белсенділігі бойынша мәлімделген жоспардың асыра орындалуы дәлел. результаты проекта можно будет применить для решения задач обработки естественного языка. жоба нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады.Жұмыстың нәтижелері және олардың жаңалығы, атап айтқанда, келесілер әзірленді: |
||
UDC indices | ||
004.032.26, 004.032.22, 004.032.24 | ||
International classifier codes | ||
20.19.19; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение; | ||
Key words in Kazakh | ||
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту; | ||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор |
Head of work | Пак Александр Александрович | Кандидат технических наук / ассоциированный профессор |
Native executive in charge |