Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0323РК00076 | AP14871214-KC-23 | 0122РК00803 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 0 | ||||
International publications: 1 | Publications Web of science: 0 | Publications Scopus: 1 | ||
Patents | Amount of funding | Code of the program | ||
0 | 32988751.32 | AP14871214 | ||
Name of work | ||||
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов | ||||
Type of work | Source of funding | Report authors | ||
Applied | Пак Александр Александрович | |||
1
1
3
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||||
Abbreviated name of the service recipient | ИИВТ | |||
Abstract | ||||
Корпусы данных arXive и Pubmed и методы предварительной обработки данных. arXive және Pubmed деректер корпусы және деректерді алдын ала өңдеу әдістері. Преобразование данных в вид, доступный для восприятия алгоритмом. • Улучшить качество обучения модели путем определения значимых признаков, избежав переобучения. Деректерді алгоритм бойынша қабылдауға қолжетімді пішінге түрлендіру. • Мағыналы ерекшеліктерді анықтау арқылы модельдік оқытудың сапасын арттыру, артық сәйкестендірмеу. На этапе очистки из текста удалены бесполезные для работы данных – таких, как большинство знаков пунктуации, особые символы, скобки и пр. Далее, на этапе препроцессинга, применены следующие методы: • приведение символов к одному регистру; • токенизация — разбиение текста на токены (отдельные компоненты — слова, предложения или фразы); • лемматизация и стемминг — приведение слов к единой форме. • удаление стоп-слов — артиклей, междометий и пр.; • автокоррекция слов, которые написаны неправильно. Тазалау кезеңінде мәтіннен жұмыс үшін пайдасыз деректер жойылды, мысалы, тыныс белгілерінің көпшілігі, арнайы таңбалар, жақшалар және т.б. Бұдан әрі алдын ала өңдеу сатысында келесі әдістер қолданылды: • символдарды бір жағдайға дейін қысқарту; • токенизация – мәтінді лексемаларға бөлу (бөлек компоненттер – сөздер, сөйлемдер немесе сөз тіркестері); • лемматизация және түбірлеу – сөздерді бір формаға келтіру. • тоқтау сөздерді – артикльдерді, шылауларды және т.б. алып тастау; • қате жазылған сөздерді автоматты түрде түзету. Сделан подбор наиболее подходящей модели перевода аннотации и основного текста статьей в векторную форму. Проведены эксперименты по выявлению наиболее эффективных метрик близости векторных представлений в векторном пространстве. Сделана оценка результатов сгенерированной автоматической аннотации на основе семантического сходства, работы будут продолжены в следующем отчетном периоде Мақала арқылы аннотация мен негізгі мәтінді векторлық формаға аударудың ең қолайлы моделін таңдау жасалды. Векторлық кеңістіктегі векторлық көріністердің ең тиімді жақындық көрсеткіштерін анықтау бойынша эксперименттер жүргізілді. Жасалған автоматты аннотацияның нәтижелерін семантикалық ұқсастық негізінде бағалау жасалды, жұмыстар келесі есепті кезеңде жалғастырылады Подход для повышения уровня восприятия алгоритмов и обработки научных текстов на английском языке, алгоритмы и методы для подготовки данных. Ағылшын тіліндегі ғылыми мәтіндерді өңдеу және алгоритмдерді қабылдау деңгейін арттыру тәсілі, мәліметтерді дайындау алгоритмдері мен әдістері. на данном этапе проекта внедрения не предусмотрено жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған Настоящий этап с высокой степенью эффективности позволяет повысить надежность данных, их интерпретируемость, а также снизить степень риска получения неверных результатов. Тиімділіктің жоғары дәрежесі бар бұл кезең деректердің сенімділігін, олардың түсіндірмелілігін арттыруға, сонымен қатар қате нәтижелерді алу қаупін азайтуға мүмкіндік береді. В каждом NLP-проекте качественные данные — это необходимое условие для создания качественных моделей прогнозирования. Поэтому необходимость проведения мониторинга работоспособности данных, решение о проведении действий по предварительной обработке и очистке данных оправданы в целях повышения эффективности модели. Әрбір NLP жобасында жақсы деректер жақсы болжамды модельдерді құрудың міндетті шарты болып табылады. Сондықтан модельдің тиімділігін арттыру үшін деректердің денсаулығын бақылау қажеттілігі, деректерді алдын ала өңдеу және тазалау бойынша әрекеттерді орындау туралы шешім негізделген. |
||||
UDC indices | ||||
004.032.26, 004.032.22, 004.032.24 | ||||
International classifier codes | ||||
20.19.19; | ||||
Key words in Russian | ||||
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение; | ||||
Key words in Kazakh | ||||
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту; | ||||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор | ||
Head of work | Пак Александр Александрович | Кандидат технических наук / ассоциированный профессор |