Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0322РК01176	AP14871214-KC-22	0122РК00803
Document type	Terms of distribution	Availability of implementation
Краткие сведения	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 1	Publications Web of science: 0	Publications Scopus: 1
Patents	Amount of funding	Code of the program
0	11368369.16	AP14871214
Name of work
Разработка методов машинного обучения для повышения связности текста в задаче квазиреферирования больших текстов массивов
Type of work	Source of funding	Report authors
Applied		Пак Александр Александрович
Engineers from production 1 Undergraduates 1 Doctoral students 3 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : Корпусы данных arXive и Pubmed и методы предварительной обработки данных. The object of research, development or design (in Kazakh) : arXive және Pubmed деректер корпусы және деректерді алдын ала өңдеу әдістері. Aim of work (in Russian) : • Преобразование данных в вид, доступный для восприятия алгоритмом. • Улучшить качество обучения модели путем определения значимых признаков, избежав переобучения. Aim of work (in Kazakh) : • Деректерді алгоритм бойынша қабылдауға қолжетімді пішінге түрлендіру. • Мағыналы ерекшеліктерді анықтау арқылы модельдік оқытудың сапасын арттыру, артық сәйкестендірмеу. Методы исследования (на русском) : На этапе очистки из текста удалены бесполезные для работы данных – таких, как большинство знаков пунктуации, особые символы, скобки и пр. Далее, на этапе препроцессинга, применены следующие методы: • приведение символов к одному регистру; • токенизация — разбиение текста на токены (отдельные компоненты — слова, предложения или фразы); • лемматизация и стемминг — приведение слов к единой форме. • удаление стоп-слов — артиклей, междометий и пр.; • автокоррекция слов, которые написаны неправильно. Методы исследования (на казахском) : Тазалау кезеңінде мәтіннен жұмыс үшін пайдасыз деректер жойылды, мысалы, тыныс белгілерінің көпшілігі, арнайы таңбалар, жақшалар және т.б. Бұдан әрі алдын ала өңдеу сатысында келесі әдістер қолданылды: • символдарды бір жағдайға дейін қысқарту; • токенизация – мәтінді лексемаларға бөлу (бөлек компоненттер – сөздер, сөйлемдер немесе сөз тіркестері); • лемматизация және түбірлеу – сөздерді бір формаға келтіру. • тоқтау сөздерді – артикльдерді, шылауларды және т.б. алып тастау; • қате жазылған сөздерді автоматты түрде түзету. Obtained results and novelty (in Russian) : произведена подготовка данных к работе, приведение к формату, позволяющему проводить дальнейшие эксперименты сделан подбор наиболее подходящей модели перевода аннотации и основного текста статей в векторную форму, работы будут продолжены в следующем отчетном периоде. Obtained results and novelty (in Kazakh) : деректер жұмысқа дайындалды, одан әрі эксперименттер жүргізуге мүмкіндік беретін форматқа келтірілді мақалалардың авторефераты мен негізгі мәтінін векторлық түрге аударудың ең қолайлы үлгісін таңдау жүргізілді, жұмыс келесі есепті кезеңде жалғасатын болады. The main constructive and technical economic indicators (in Russian) : Подход для повышения уровня восприятия алгоритмов и обработки научных текстов на английском языке, алгоритмы и методы для подготовки данных. The main constructive and technical economic indicators (in Kazakh) : Ағылшын тіліндегі ғылыми мәтіндерді өңдеу және алгоритмдерді қабылдау деңгейін арттыру тәсілі, мәліметтерді дайындау алгоритмдері мен әдістері. Level of implementation (in Russian) : на данном этапе проекта внедрения не предусмотрено Level of implementation (in Kazakh) : жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған Efficiency (in Russian) : Настоящий этап с высокой степенью эффективности позволяет повысить надежность данных, их интерпретируемость, а также снизить степень риска получения неверных результатов. Efficiency (in Kazakh) : Тиімділіктің жоғары дәрежесі бар бұл кезең деректердің сенімділігін, олардың түсіндірмелілігін арттыруға, сонымен қатар қате нәтижелерді алу қаупін азайтуға мүмкіндік береді. Field of application (in Russian) : В каждом NLP-проекте качественные данные — это необходимое условие для создания качественных моделей прогнозирования. Поэтому необходимость проведения мониторинга работоспособности данных, решение о проведении действий по предварительной обработке и очистке данных оправданы в целях повышения эффективности модели. Field of application (in Kazakh) : Әрбір NLP жобасында жақсы деректер жақсы болжамды модельдерді құрудың міндетті шарты болып табылады. Сондықтан модельдің тиімділігін арттыру үшін деректердің денсаулығын бақылау қажеттілігі, деректерді алдын ала өңдеу және тазалау бойынша әрекеттерді орындау туралы шешім негізделген.
UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
20.19.19;
Key words in Russian
Нейронные сети; Семантический вероятностный вывод; База знаний; Извлечение данных из текстов; Машинное обучение;
Key words in Kazakh
Нейрондық желілер; Семантикалық ықтималдық қорытынды; Білім базасы; Мәтіндерден мәліметтерді алу; Машиналық оқыту;
Head of the organization	Мутанов Галимкаир Мутанович	Academic degree/title: Доктор технических наук / профессор
Head of work	Пак Александр Александрович	Academic degree/title : Кандидат технических наук / ассоциированный профессор

Eng

Қаз

Рус