Inventory number | IRN | Number of state registration |
---|---|---|
0223РК00519 | AP09260670-OT-23 | 0121РК00474 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 0 | ||
International publications: 1 | Publications Web of science: 0 | Publications Scopus: 0 |
Number of books | Appendicies | Sources |
1 | 4 | 60 |
Total number of pages | Patents | Illustrations |
182 | 0 | 13 |
Amount of funding | Code of the program | Table |
22292893 | AP09260670 | 11 |
Name of work | ||
Разработка методов и алгоритмов аугментации входных данных для модификации векторных вложений слов | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Пак Александр Александрович , Зияден Атабай , Джаксылыкова Асель Булатовна , Еленов Амир Мирхатович , Ахметов Искандер Рафаилович , Омирбекова Жанар Жұмаханқызы , | ||
1
0
3
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК | ||
Abbreviated name of the service recipient | ИИВТ | |
Abstract | ||
являются модели глубокого обучения в приложении к обработки естественного языка. болып табылады терең оқыту модельдері табиғи тілді өңдеуге арналған қосымшада. изучить подходы для улучшения обобщающей силы моделями векторных вложений слов. Развитие подходов для аугментации входных текстовых данных семантической, синтаксической информацией для улучшения силы обобщения словесными вложениями. сөздердің векторлық кірістіру модельдерімен жалпылау күшін жақсарту тәсілдерін зерттеу. Ауызша тіркемелермен жалпылау күшін жақсарту үшін семантикалық, синтаксистік ақпаратпен кіріс мәтіндік деректерін күшейту тәсілдерін дамыту. были использованы методы компьютерного моделирования компьютерлік модельдеу әдістері қолданылды - Представлена общедоступная языковая модель на основе трансформеров для азербайджанского языка, предложен общедоступный корпус азербайджанских новостей с разметкой на уровне категорий, предложен общедоступный корпус диалогов казахского языка в банковской сфере с разметкой на уровне интенций, предложен новый метод аугментации текстовых данных, основанный на комбинации техники обратного перевода и добавления шума методом случайной замены, который демонстрирует улучшение задачи классификации новостей на азербайджанском языке, получено подтверждение эффективности применения нейромашинного перевода mBart-50 для аугментации текста в контексте малоресурсных языков, что продемонстрировано достижением высокого показателя F1 в 0,86, подчеркивая конкурентоспособность данного подхода по сравнению с сервисом Google Translation, а также его скорость обработки и экономичность, получены оценки эффективности аугментации малоресурсных языков с помощью больших языковых моделей. опубликованы 7 публикации в рецензируемых научных изданиях, индексируемых в Science Citation Index Expanded базы Web of Science и (или) имеющих процентиль по CiteScore в базе Scopus не менее 35 (тридцати пяти). - Әзербайжан тіліне арналған трансформерлер негізінде жалпыға қолжетімді тілдік модель ұсынылды, Санаттар деңгейінде белгіленуі бар Әзірбайжан жаңалықтарының жалпыға қолжетімді корпусы ұсынылды, банк саласында ниет деңгейінде белгіленуі бар қазақ тілінің диалогтарының жалпыға қолжетімді корпусы ұсынылды, кері аударма техникасы мен кездейсоқ ауыстыру әдісімен Шу қосудың комбинациясына негізделген мәтіндік деректерді ұлғайтудың жаңа әдісі ұсынылды, ол әзірбайжан тіліндегі жаңалықтарды жіктеу міндетін жақсарту, аз ресурсты тілдер контекстінде мәтінді күшейту үшін mbart-50 нейромашиналық аудармасын қолданудың тиімділігін растау алынды, бұл Google Translation сервисімен салыстырғанда осы тәсілдің бәсекеге қабілеттілігін, сондай-ақ оның өңдеу жылдамдығы мен үнемділігін баса көрсете отырып, F1 жоғары көрсеткішінің 0,86-ға жетуімен көрсетілді, аз ресурсты тілдерді үлкейту тиімділігін бағалау алынды. үлкен тілдік модельдердің көмегімен. 7 жарияланым жарияланды Новый подход для повышения качества обучения нейросетевых языковых моделей для научных текстов на малоресурсных языках (казахский, азербайджанский), математические модели, алгоритмы и методы Аз ресурсты тілдердегі (қазақ, Әзірбайжан) ғылыми мәтіндер үшін нейрожелілік тілдік модельдерді оқыту сапасын арттырудың жаңа тәсілі, математикалық модельдер, алгоритмдер мен әдістер на данном этапе проекта внедрения не предусмотрено жобаны іске асырудың осы кезеңінде еңгізу қарастырылмаған Настоящий проект проводится эффективно на высоком научно-организационном уровне, чему свидетельствует перевыполнение заявленного плана по публикационной активности. Бұл жоба жоғары ғылыми-ұйымдастырушылық деңгейде нәтижелі жүзеге асырылып жатқанын жариялау жұмыстарының белгіленген жоспарының артығымен орындалғаны дәлелдейді. результаты проекта можно будет применить для решения задач обработки естественного языка жобаның нәтижелерін табиғи тілді өңдеу мәселелерін шешу үшін қолдануға болады |
||
UDC indices | ||
004.032.26, 004.032.22, 004.032.24 | ||
International classifier codes | ||
28.23.37; 50.53.17; 28.23.19; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
Обработка естественных языков; векторное вложения слов; здравый смысл; индуктивный байес; аугментация текстовых данных; | ||
Key words in Kazakh | ||
Табиғи тілддерді өңдеу; сөздерді векторлық ендіру; дұрыс мағына; индуктивті байес; мәтіндік деректерді аугментациялау; | ||
Head of the organization | Мутанов Галимкаир Мутанович | Доктор технических наук / профессор |
Head of work | Пак Александр Александрович | Кандидат технических наук / ассоциированный профессор |
Native executive in charge |