Inventory number IRN Number of state registration
0322РК01176 AP14871214-KC-22 0122РК00803
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 11368369.16 AP14871214
Name of work
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов
Type of work Source of funding Report authors
Applied Пак Александр Александрович
1
1
3
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Корпусы данных arXive и Pubmed и методы предварительной обработки данных.

arXive және Pubmed деректер корпусы және деректерді алдын ала өңдеу әдістері.

• Преобразование данных в вид, доступный для восприятия алгоритмом. • Улучшить качество обучения модели путем определения значимых признаков, избежав переобучения.

• Деректерді алгоритм бойынша қабылдауға қолжетімді пішінге түрлендіру. • Мағыналы ерекшеліктерді анықтау арқылы модельдік оқытудың сапасын арттыру, артық сәйкестендірмеу.

На этапе очистки из текста удалены бесполезные для работы данных – таких, как большинство знаков пунктуации, особые символы, скобки и пр. Далее, на этапе препроцессинга, применены следующие методы: • приведение символов к одному регистру; • токенизация — разбиение текста на токены (отдельные компоненты — слова, предложения или фразы); • лемматизация и стемминг — приведение слов к единой форме. • удаление стоп-слов — артиклей, междометий и пр.; • автокоррекция слов, которые написаны неправильно.

Тазалау кезеңінде мәтіннен жұмыс үшін пайдасыз деректер жойылды, мысалы, тыныс белгілерінің көпшілігі, арнайы таңбалар, жақшалар және т.б. Бұдан әрі алдын ала өңдеу сатысында келесі әдістер қолданылды: • символдарды бір жағдайға дейін қысқарту; • токенизация – мәтінді лексемаларға бөлу (бөлек компоненттер – сөздер, сөйлемдер немесе сөз тіркестері); • лемматизация және түбірлеу – сөздерді бір формаға келтіру. • тоқтау сөздерді – артикльдерді, шылауларды және т.б. алып тастау; • қате жазылған сөздерді автоматты түрде түзету.

произведена подготовка данных к работе, приведение к формату, позволяющему проводить дальнейшие эксперименты сделан подбор наиболее подходящей модели перевода аннотации и основного текста статей в векторную форму, работы будут продолжены в следующем отчетном периоде.

деректер жұмысқа дайындалды, одан әрі эксперименттер жүргізуге мүмкіндік беретін форматқа келтірілді мақалалардың авторефераты мен негізгі мәтінін векторлық түрге аударудың ең қолайлы үлгісін таңдау жүргізілді, жұмыс келесі есепті кезеңде жалғасатын болады.

Подход для повышения уровня восприятия алгоритмов и обработки научных текстов на английском языке, алгоритмы и методы для подготовки данных.

Ағылшын тіліндегі ғылыми мәтіндерді өңдеу және алгоритмдерді қабылдау деңгейін арттыру тәсілі, мәліметтерді дайындау алгоритмдері мен әдістері.

на данном этапе проекта внедрения не предусмотрено

жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған

Настоящий этап с высокой степенью эффективности позволяет повысить надежность данных, их интерпретируемость, а также снизить степень риска получения неверных результатов.

Тиімділіктің жоғары дәрежесі бар бұл кезең деректердің сенімділігін, олардың түсіндірмелілігін арттыруға, сонымен қатар қате нәтижелерді алу қаупін азайтуға мүмкіндік береді.

В каждом NLP-проекте качественные данные — это необходимое условие для создания качественных моделей прогнозирования. Поэтому необходимость проведения мониторинга работоспособности данных, решение о проведении действий по предварительной обработке и очистке данных оправданы в целях повышения эффективности модели.

Әрбір NLP жобасында жақсы деректер жақсы болжамды модельдерді құрудың міндетті шарты болып табылады. Сондықтан модельдің тиімділігін арттыру үшін деректердің денсаулығын бақылау қажеттілігі, деректерді алдын ала өңдеу және тазалау бойынша әрекеттерді орындау туралы шешім негізделген.

UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
20.19.19;
Key words in Russian
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение;
Key words in Kazakh
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Пак Александр Александрович Кандидат технических наук / ассоциированный профессор