Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0223РК00519	AP09260670-OT-23	0121РК00474
Document type	Terms of distribution	Availability of implementation
Заключительный	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 0
International publications: 1	Publications Web of science: 0	Publications Scopus: 0
Number of books	Appendicies	Sources
1	4	60
Total number of pages	Patents	Illustrations
182	0	13
Amount of funding	Code of the program	Table
22292893	AP09260670	11
Name of work
Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов
Report title

Type of work	Source of funding	The product offerred for implementation
Applied		Метод, способ
Report authors
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Еленов Амир Мирхатович , Ахметов Искандер Рафаилович , Омирбекова Жанар Жұмаханқызы ,
Engineers from production 1 Undergraduates 0 Doctoral students 3 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient		ИИВТ
Abstract
The object of research, development or design (in Russian) : являются модели глубокого обучения в приложении к обработки естественного языка. The object of research, development or design (in Kazakh) : болып табылады терең оқыту модельдері табиғи тілді өңдеуге арналған қосымшада. Aim of work (in Russian) : изучить подходы для улучшения обобщающей силы моделями векторных вложений слов. Развитие подходов для аугментации входных текстовых данных семантической, синтаксической информацией для улучшения силы обобщения словесными вложениями. Aim of work (in Kazakh) : сөздердің векторлық кірістіру модельдерімен жалпылау күшін жақсарту тәсілдерін зерттеу. Ауызша тіркемелермен жалпылау күшін жақсарту үшін семантикалық, синтаксистік ақпаратпен кіріс мәтіндік деректерін күшейту тәсілдерін дамыту. Методы исследования (на русском) : были использованы методы компьютерного моделирования Методы исследования (на казахском) : компьютерлік модельдеу әдістері қолданылды Obtained results and novelty (in Russian) : - Представлена общедоступная языковая модель на основе трансформеров для азербайджанского языка, предложен общедоступный корпус азербайджанских новостей с разметкой на уровне категорий, предложен общедоступный корпус диалогов казахского языка в банковской сфере с разметкой на уровне интенций, предложен новый метод аугментации текстовых данных, основанный на комбинации техники обратного перевода и добавления шума методом случайной замены, который демонстрирует улучшение задачи классификации новостей на азербайджанском языке, получено подтверждение эффективности применения нейромашинного перевода mBart-50 для аугментации текста в контексте малоресурсных языков, что продемонстрировано достижением высокого показателя F1 в 0,86, подчеркивая конкурентоспособность данного подхода по сравнению с сервисом Google Translation, а также его скорость обработки и экономичность, получены оценки эффективности аугментации малоресурсных языков с помощью больших языковых моделей. опубликованы 7 публикации в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти). Obtained results and novelty (in Kazakh) : - Әзербайжан тіліне арналған трансформерлер негізінде жалпыға қолжетімді тілдік модель ұсынылды, Санаттар деңгейінде белгіленуі бар Әзірбайжан жаңалықтарының жалпыға қолжетімді корпусы ұсынылды, банк саласында ниет деңгейінде белгіленуі бар қазақ тілінің диалогтарының жалпыға қолжетімді корпусы ұсынылды, кері аударма техникасы мен кездейсоқ ауыстыру әдісімен Шу қосудың комбинациясына негізделген мәтіндік деректерді ұлғайтудың жаңа әдісі ұсынылды, ол әзірбайжан тіліндегі жаңалықтарды жіктеу міндетін жақсарту, аз ресурсты тілдер контекстінде мәтінді күшейту үшін mbart-50 нейромашиналық аудармасын қолданудың тиімділігін растау алынды, бұл Google Translation сервисімен салыстырғанда осы тәсілдің бәсекеге қабілеттілігін, сондай-ақ оның өңдеу жылдамдығы мен үнемділігін баса көрсете отырып, F1 жоғары көрсеткішінің 0,86-ға жетуімен көрсетілді, аз ресурсты тілдерді үлкейту тиімділігін бағалау алынды. үлкен тілдік модельдердің көмегімен. 7 жарияланым жарияланды The main constructive and technical economic indicators (in Russian) : Новый подход для повышения качества обучения нейросетевых языковых моделей для научных текстов на малоресурсных языках (казахский, азербайджанский), математические модели, алгоритмы и методы The main constructive and technical economic indicators (in Kazakh) : Аз ресурсты тілдердегі (қазақ, Әзірбайжан) ғылыми мәтіндер үшін нейрожелілік тілдік модельдерді оқыту сапасын арттырудың жаңа тәсілі, математикалық модельдер, алгоритмдер мен әдістер Level of implementation (in Russian) : на данном этапе проекта внедрения не предусмотрено Level of implementation (in Kazakh) : жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған Efficiency (in Russian) : Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности. Efficiency (in Kazakh) : Бұл жоба жоғары ғылыми-ұйымдастырушылық деңгейде нәтижелі жүзеге асырылып жатқанын жариялау жұмыстарының белгіленген жоспарының артығымен орындалғаны дәлелдейді. Field of application (in Russian) : результаты проекта можно будет применить для решения задач обработки естественного языка Field of application (in Kazakh) : жобаның нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады
UDC indices
004.032.26, 004.032.22, 004.032.24
International classifier codes
28.23.37; 50.53.17; 28.23.19;
Readiness of the development for implementation
Key words in Russian
Обработка естественных языков; векторное вложения слов; здравый смысл; индуктивный байес; аугментация текстовых данных;
Key words in Kazakh
Табиғи тілддерді өңдеу; сөздерді векторлық ендіру; дұрыс мағына; индуктивті байес; мәтіндік деректерді аугментациялау;
Head of the organization	Мутанов Галимкаир Мутанович	Academic degree/title: Доктор технических наук / профессор
Head of work	Пак Александр Александрович	Academic degree/title : Кандидат технических наук / ассоциированный профессор
Native executive in charge		Academic degree/title:

Eng

Қаз

Рус