Inventory number IRN Number of state registration
0321РК00527 AP09260670-KC-21 0121РК00474
Document type Terms of distribution Availability of implementation
Краткие сведения At a negotiated price Number of implementation: 0
Not implemented
Publications
Native publications: 2
International publications: 2 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 17660886 AP09260670
Name of work
Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов
Type of work Source of funding Report authors
Applied Пак Александр Александрович
0
1
3
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Методы и алгоритмы аугментации входных данных для модификации векторных вложений слов

Сөздердің векторлық ендірілуін модификациялауға арналған кіріс деректерін көбейту әдістері мен алгоритмдері

изучить подходы для улучшения обобщающей силы моделями векторных вложений слов.

векторлық кірістіру модельдерінің жалпылау қабілетін жақсарту тәсілдерін зерттеу.

В исследовании будут использованы методы из следующих областей знаний: нейрокомпьютинг, теория графов, теория алгебры логики, теория функциональных систем и системный анализ, теория принятия решений, математическая лингвистика, фонетический и семантический анализ, теория вероятностей и математическая статистика, теория распознавания образов, технология разработки программного обеспечения. Также будут использованы современные достижения в области технологий искусственного интеллекта, как в теоретическом, так и в практическом плане, современные case средства проектирования и разработки программного обеспечения, технология объетно-ориентированного программирования, PM-технологии управления и анализа проекта.

Зерттеу келесі білім салаларындағы әдістерді қолданады: нейрокомпьютер, графтар теориясы, логика алгебрасының теориясы, функционалдық жүйелер мен жүйелерді талдау теориясы, шешімдер теориясы, математикалық лингвистика, фонетикалық және семантикалық талдау, ықтималдықтар теориясы және математикалық статистика, үлгіні тану теориясы. , әзірлеу технологиясы бағдарламалық қамтамасыз ету. Сондай-ақ, жасанды интеллект технологиялары саласындағы теориялық және практикалық тұрғыда заманауи жетістіктер, кейстерді жобалау және бағдарламалық қамтамасыз етуді әзірлеудің заманауи құралдары, объектіге бағытталған бағдарламалау технологиясы, жобаларды басқару және талдау үшін PM -технологиялары қолданылады.

собран корпус текстов из открытых источников в соответствие со стандартами обучения современных моделей глубокого обучения, а именно 1) корпус покупательских рецензий на русском языке с онлайн магазина банка Kaspi. 2) корпус научных статей с открытых источников и open-access журналов, их метаданных и дополнительных сведений, необходимых для построения графа цитирований. 3) корпус научных статей расширен за счет объединения с общедоступными данными ACL Antology. Таким образом, настоящий корпус предназначен для тестирования методов аугментации данных на двух языках, а именно русском и английском. сделан обзор существующих методов обогащения текстовых данных экстралингвистической информацией, а также методов генерации синтетических текстовых данных. Результаты обзора опубликованы в отечественных и зарубежных научных изданиях. протестированы и созданы методы и алгоритмы, а также комплекс программ для обогащения корпусов дополнительной информацией. Действительно, был разработан алгоритм обогащения текстовых данных за счет нового функционала обучения Citation Prediction (CP) в модели Bidirectional Transformers for Language Understanding (BERT) на примере корпуса научных статей, а также были протестированы существующие методы аугументации текстовых данных на примере корпуса покупательских рецензий

қазіргі заманғы терең оқыту үлгілерін оқыту стандарттарына сәйкес ашық дереккөздерден алынған мәтіндер корпусы жиналды, атап айтқанда 1) Kaspi bank интернет-дүкенінен орыс тіліндегі тұтынушылардың пікірлері корпусы. 2) ашық көздерден және ашық журналдардан алынған ғылыми мақалалар корпусы, олардың метадеректері және дәйексөз графын құру үшін қажетті қосымша ақпарат. 3) ғылыми мақалалар корпусы жалпыға қолжетімді ACL Antology деректерімен біріктіру арқылы кеңейтілді. Осылайша, бұл корпус екі тілде, атап айтқанда орыс және ағылшын тілдерінде деректерді кеңейту әдістерін тестілеуге арналған. Мәтіндік деректерді экстралингвистикалық ақпаратпен байытудың қолданыстағы әдістеріне, сондай-ақ синтетикалық мәтіндік мәліметтерді қалыптастыру әдістеріне шолу жасалды. Шолу нәтижелері отандық және шетелдік ғылыми журналдарда жарияланды. әдістер мен алгоритмдер сынақтан өтіп, құрылды, сонымен қатар корпусты қосымша ақпаратпен байытуға арналған бағдарламалар кешені. Шынында да, мәтіндік деректерді байыту алгоритмі ғылыми мақалалар корпусын мысал ретінде пайдалана отырып, тілді түсінуге Bidirectional Transformers for Language Understanding (BERT) үлгісіндегі жаңа оқу функционалдық дәйексөзді болжау Citation Prediction (CP) және мәтіндік деректерді кеңейтудің қолданыстағы әдістерін қолдану арқылы әзірленді. Тұтынушылардың пікірлері корпусының мысалын қолдану арқылы сыналған.

Новый подход для повышения качества обучения нейросетевых языковых моделей для научных текстов на английском языке, математические модели, алгоритмы и методы для автоматического.

Ағылшын тіліндегі ғылыми мәтіндер үшін нейрондық желілердің тілдік модельдерін, математикалық модельдерді, мәтінді автоматты өңдеудің алгоритмдерін және әдістерін оқыту сапасын арттырудың жаңа тәсілі.

на данном этапе проекта внедрения не предусмотрено

жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған

Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности.

Бұл жоба жоғары ғылыми-ұйымдастырушылық деңгейде нәтижелі жүзеге асырылып жатқанын жариялау жұмыстарының белгіленген жоспарының артығымен орындалғаны дәлелдейді.

корпус покупательских рецензий можно будет применить для решения задач обработки естественного языка в приложении к задаче анализа тональности, корпус научных публикаций можно применить для разработки решений современных проблем наукометрии.

сатып алушылардың шолуларының корпусын табиғи тілді өңдеу мәселелерін шешу үшін тоналды талдау мәселесінің қосымшасында қолдануға болады, ғылыми басылымдар корпусын қазіргі ғылымометрия мәселелерінің шешімдерін жасау үшін қолдануға болады.

UDC indices
004.032.26,004.032.22,004.032.24
International classifier codes
28.23.37; 50.53.17; 28.23.19;
Key words in Russian
Обработка естественных языков; векторное вложения слов; здравый смысл; индуктивный байес; аугментация текстовых данных;
Key words in Kazakh
Табиғи тілддерді өңдеу; сөздерді векторлық ендіру; дұрыс мағына; индуктивті байес; мәтіндік деректерді аугментациялау;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Пак Александр Александрович Кандидат технических наук / ассоциированный профессор