Inventory number IRN Number of state registration
0223РК00519 AP09260670-OT-23 0121РК00474
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 1 Publications Web of science: 0 Publications Scopus: 0
Number of books Appendicies Sources
1 4 60
Total number of pages Patents Illustrations
182 0 13
Amount of funding Code of the program Table
22292893 AP09260670 11
Name of work
Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов
Report title
Type of work Source of funding The product offerred for implementation
Applied Метод, способ
Report authors
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Еленов Амир Мирхатович , Ахметов Искандер Рафаилович , Омирбекова Жанар Жұмаханқызы ,
1
0
3
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

являются модели глубокого обучения в приложении к обработки естественного языка.

болып табылады терең оқыту модельдері табиғи тілді өңдеуге арналған қосымшада.

изучить подходы для улучшения обобщающей силы моделями векторных вложений слов. Развитие подходов для аугментации входных текстовых данных семантической, синтаксической информацией для улучшения силы обобщения словесными вложениями.

сөздердің векторлық кірістіру модельдерімен жалпылау күшін жақсарту тәсілдерін зерттеу. Ауызша тіркемелермен жалпылау күшін жақсарту үшін семантикалық, синтаксистік ақпаратпен кіріс мәтіндік деректерін күшейту тәсілдерін дамыту.

были использованы методы компьютерного моделирования

компьютерлік модельдеу әдістері қолданылды

- Представлена общедоступная языковая модель на основе трансформеров для азербайджанского языка, предложен общедоступный корпус азербайджанских новостей с разметкой на уровне категорий, предложен общедоступный корпус диалогов казахского языка в банковской сфере с разметкой на уровне интенций, предложен новый метод аугментации текстовых данных, основанный на комбинации техники обратного перевода и добавления шума методом случайной замены, который демонстрирует улучшение задачи классификации новостей на азербайджанском языке, получено подтверждение эффективности применения нейромашинного перевода mBart-50 для аугментации текста в контексте малоресурсных языков, что продемонстрировано достижением высокого показателя F1 в 0,86, подчеркивая конкурентоспособность данного подхода по сравнению с сервисом Google Translation, а также его скорость обработки и экономичность, получены оценки эффективности аугментации малоресурсных языков с помощью больших языковых моделей. опубликованы 7 публикации в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти).

- Әзербайжан тіліне арналған трансформерлер негізінде жалпыға қолжетімді тілдік модель ұсынылды, Санаттар деңгейінде белгіленуі бар Әзірбайжан жаңалықтарының жалпыға қолжетімді корпусы ұсынылды, банк саласында ниет деңгейінде белгіленуі бар қазақ тілінің диалогтарының жалпыға қолжетімді корпусы ұсынылды, кері аударма техникасы мен кездейсоқ ауыстыру әдісімен Шу қосудың комбинациясына негізделген мәтіндік деректерді ұлғайтудың жаңа әдісі ұсынылды, ол әзірбайжан тіліндегі жаңалықтарды жіктеу міндетін жақсарту, аз ресурсты тілдер контекстінде мәтінді күшейту үшін mbart-50 нейромашиналық аудармасын қолданудың тиімділігін растау алынды, бұл Google Translation сервисімен салыстырғанда осы тәсілдің бәсекеге қабілеттілігін, сондай-ақ оның өңдеу жылдамдығы мен үнемділігін баса көрсете отырып, F1 жоғары көрсеткішінің 0,86-ға жетуімен көрсетілді, аз ресурсты тілдерді үлкейту тиімділігін бағалау алынды. үлкен тілдік модельдердің көмегімен. 7 жарияланым жарияланды

Новый подход для повышения качества обучения нейросетевых языковых моделей для научных текстов на малоресурсных языках (казахский, азербайджанский), математические модели, алгоритмы и методы

Аз ресурсты тілдердегі (қазақ, Әзірбайжан) ғылыми мәтіндер үшін нейрожелілік тілдік модельдерді оқыту сапасын арттырудың жаңа тәсілі, математикалық модельдер, алгоритмдер мен әдістер

на данном этапе проекта внедрения не предусмотрено

жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған

Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности.

Бұл жоба жоғары ғылыми-ұйымдастырушылық деңгейде нәтижелі жүзеге асырылып жатқанын жариялау жұмыстарының белгіленген жоспарының артығымен орындалғаны дәлелдейді.

результаты проекта можно будет применить для решения задач обработки естественного языка

жобаның нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады

UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
28.23.37; 50.53.17; 28.23.19;
Readiness of the development for implementation
Key words in Russian
Обработка естественных языков; векторное вложения слов; здравый смысл; индуктивный байес; аугментация текстовых данных;
Key words in Kazakh
Табиғи тілддерді өңдеу; сөздерді векторлық ендіру; дұрыс мағына; индуктивті байес; мәтіндік деректерді аугментациялау;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Пак Александр Александрович Кандидат технических наук / Assoc. Professor
Native executive in charge