| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК01619 | AP22686434-KC-25 | 0124РК00221 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 2 | ||||
| International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 8576149 | AP22686434 | ||
| Name of work | ||||
| Разработка мультиязычного корпуса текстов с разметкой именованных сущностей и референции | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Қалман Гүлжамал | |||
|
0
0
0
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| Некоммерческое акционерное общество «Кокшетауский университет имени Ш.Уалиханова» | ||||
| Abbreviated name of the service recipient | Кокшетауский университет имени Ш.Уалиханова | |||
| Abstract | ||||
|
Объект исследования – совокупность технических текстов на казахском и английском языках. зерттеу объектісі қазақ және ағылшын тілдердегі техникалық мәтіндер жинтығы Целью этого проекта является создание многоязычного корпуса для поддержки национальных исследований в области автоматической обработки текста в области компьютерной лингвистики. Данный ресурс предназначен для поддержки широкого круга исследователей в области машинного обучения, создания языковых моделей, создания национальных словарей по научным темам, а также проведения лингвистических исследований на казахском языке. Бұл жобаның мақсаты – компьютерлік лингвистика саласында мәтінді автоматты өңдеуде ұлттық зерттеулерді қолдау үшін көптілді корпус құру. Бұл ресурс зерттеушілердің кең ауқымын машиналық оқыту саласындағы тілдік модельдерді құру, ғылыми тақырыптар бойынша ұлттық сөздіктер жасау және қазақ тілінде лингвистикалық зерттеулер жүргізуді қамтамасыз етуге арналған. В проекте используются современные методы компьютерной лингвистики, новейшие методы нейронных сетей. жоба барысында компьютерлік лингвистиканың заманауи әдістері, нейрондық желілердің соңғы үлгідегі әдістері қолданылады. Научно-технический уровень (новизна): Были проанализированы и исследованы методы машинного обучения, связанные с решением задач референции и определением именных групп. Проведён всесторонний анализ методов машинного обучения, направленных на выявление референции (анафоры, кореференции, катафоры) и идентификацию именных групп, изучена их эффективность и возможности применения. Основное внимание уделено классическим алгоритмам машинного обучения (Decision Trees, SVM, Naïve Bayes), архитектурам нейронных сетей (BiLSTM, GRU, CRF), а также современным трансформер-моделям (BERT, KazBERT, mBERT). Сравнены преимущества и ограничения методов, проведён анализ их точности, устойчивости и адаптации к корпусу при определении референции. Для решения задач определения референции в многоязычном корпусе был создан автоматизированный словарь. Разработанный словарь позволяет определять семантические связи слов в казахском и английском языках. В словаре представлены семантические отношения, морфологические формы и синонимы для каждого слова, что обеспечивает более точное определение референциальных связей в корпусе. Новизна проекта заключается в создании масштабного многоязычного корпуса, в рамках которого интегрируются способы реализации научно-технических проектов и деятельность производственных субъектов. Разрешение референтной неопределённости текста осуществлено на основе многофакторной модели активации референта. Ғылыми-техникалық деңгей (жаңалық): Референцияны және атаулы топты шешуге байланысты машиналық оқыту әдістері талдап зерттелді, референцияны (анафора, кореференция, катафора) және атаулы топтарды анықтауға бағытталған машиналық оқыту әдістері жан-жақты талданып, олардың тиімділігі мен қолдану мүмкіндіктері зерттелді. Негізгі назар классикалық машиналық оқыту алгоритмдеріне (Decision Trees, SVM, Naïve Bayes), нейрондық желілердің архитектураларына (BiLSTM, GRU, CRF), сондай-ақ заманауи трансформер үлгілеріне (BERT, KazBERT, mBERT) аударылды. Әдістердің артықшылықтары мен шектеулері салыстырылып, олардың референцияны анықтаудағы дәлдігі, тұрақтылығы және корпусқа бейімделу мүмкіндіктері бойынша талдау жүргізілді. Көптілді корпуста референцияны анықтауға байланысты автоматтандырылған сөздік құрылды. Құрылған сөздік қазақ және ағылшын тілдеріндегі сөздердің семантикалық байланысын анықтауға мүмкіндік береді. Сөздікте әрбір сөздің семантикалық байланыстары, морфологиялық формалары және синонимдері белгіленген, бұл корпустағы референциялық қатынастарды дәл анықтауға жағдай жасайды. Жобаның жаңалығы ауқымды көптілді корпус құрылатынында, оның шеңберінде өндіруші субъектілер мен ғылыми-техникалық жобаларды жүзеге асыру тәсілдерінің интеграциясы жүзеге асырады. Мәтіннің анықтамалық анық еместігін шешу референтті белсендірудің көп факторлы моделі негізінде жүзеге асырылды. Проект направлен на создание многоязычного корпуса для казахского языка в поддержку национальных лингвистических исследований. Этот корпус станет основным ресурсом для создания языковых моделей на казахском языке, разработки национальных словарей и проведения лингвистических исследований. Данные корпуса и результаты аннотирования, полученные в рамках проекта, будут использованы как на национальном, так и на международном уровне, а также будут способствовать развитию исследований в области машинного обучения и искусственного интеллекта. Негізгі конструктивтік және техникалық-экономикалық көрсеткіштері. Жоба ұлттық лингвистикалық зерттеулерді қолдау үшін қазақ тіліне арналған көптілді корпус құруды көздейді. Бұл корпус қазақ тілінде тіл үлгілерін құруға, ұлттық сөздіктер жасауға және лингвистикалық зерттеулер жүргізуге арналған негізгі ресурс болады. Жоба шеңберінде алынған корпус деректері мен таңбалау нәтижелері ұлттық және халықаралық деңгейде қолдануға, сондай-ақ машиналық оқыту және жасанды интеллект саласындағы зерттеулерді дамытуға ықпал етеді. Результаты проекта будут широко востребованы научным сообществом. В текущем году в рамках проекта опубликованы две статьи в отечественных изданиях, а также две статьи приняты и опубликованы в материалах международных научных конференций, что подтверждает новизну и практическую значимость исследований. Кроме того, планируется публикация не менее двух статей в журналах, входящих в базу Web of Science с импакт-фактором (Q1–Q3) или в изданиях из базы Scopus с CiteScore не ниже 50-го процентиля, либо публикация не менее пяти статей в рецензируемых отечественных и (или) зарубежных научных изданиях. Жобаның нәтижелері ғылыми қауымдастықта жоғары деңгейде қолданылатын болады. Биыл жоба аясында 2 мақала отандық басылымдарда, екі халықаралық конференцияға мақала қабылданып, ресми конференция материалдарында жарияланды, және , бұл жобаның жаңашылдығын және практикалық құндылығын растайды. Сонымен қатар, Web of Science дерекқорындағы импакт-факторы бар алғашқы үш квартилдегі немесе Scopus дерекқорындағы citescore бойынша кемінде 50 процентильге жататын журналдарда кемінде екі мақала жариялау немесе рецензияланған шетелдік және (немесе) отандық басылымдарда кемінде бес мақала жариялау жоспарлануда. Проект имеет большое значение в области автоматической обработки казахского языка и лингвистических исследований в целом, так как создание многоязычного корпуса предоставит национальным исследователям доступ к необходимым данным. Эффективность проекта проявляется в его научных и практических возможностях применения: данный корпус поддержит исследователей, работающих с текстами на казахском языке, что будет способствовать созданию новых научных статей, исследований и научных словарей. С экономической точки зрения результаты проекта обладают потенциалом коммерциализации на национальном и международном уровнях, особенно в целях развития языковых технологий, интеграции в систему образования и поддержки национальных ресурсов. С социальной стороны развитие исследований казахского языка способствует расширению его сферы применения и повышению его престижа. Результаты проекта важны для развития систем обучения казахскому языку и создания на его основе систем искусственного интеллекта, в частности, NLP — систем обработки естественного языка. Это поддержит казахский язык в цифровой среде и обеспечит эффективные решения в таких сферах, как образование, бизнес и государственное управление. В итоге, созданный в рамках проекта многоязычный корпус станет важным ресурсом для национальных исследователей, который поможет в создании языковых моделей, расширении словарного запаса и выводе лингвистических исследований на казахском языке на новый уровень. Жоба қазақ тілін автоматты өңдеу саласында және жалпы тілдік зерттеулерде үлкен маңызға ие, себебі ол көптілді корпус құру арқылы ұлттық зерттеушілерге қолжетімді деректерді ұсынады. Жобаның тиімділігі оның ғылыми және практикалық қолдану мүмкіндіктерінен көрінеді, бұл корпус қазақ тіліндегі мәтіндермен жұмыс істейтін зерттеушілерге қолдау көрсетіп, жаңа ғылыми мақалалардың, зерттеулердің және ғылыми сөздіктердің жасалуына ықпал етеді. Экономикалық тұрғыдан жоба нәтижелерін ұлттық және халықаралық деңгейде коммерцияландыру әлеуеті бар, әсіресе тілдік технологияларды дамыту, білім беру жүйесіне интеграциялау және ұлттық ресурстарды қолдау мақсатында. Әлеуметтік жағынан қазақ тіліндегі тілдік зерттеулердің дамуы қазақ тілінің қолданыс аясын кеңейтуге және оның беделін арттыруға ықпал етеді. Жоба нәтижелері қазақ тілін оқытуда, жасанды интеллект негізіндегі жүйелерді дамытуда, оның ішінде NLP, яғни табиғи тілді өңдеу жүйелерін құруда, маңызды рөл атқарады. Бұл қазақ тілін цифрлық ортада қолдау арқылы білім беру, бизнес және мемлекеттік басқару салаларында тиімді шешімдер ұсынады. Жоба нәтижесінде алынатын көптілді корпус ұлттық зерттеушілерге тілдік модельдер құруда, сөздік қорын кеңейтуде және қазақ тіліндегі лингвистикалық зерттеулерді жаңа деңгейге көтеруде маңызды ресурс болмақ. Ожидаемые результаты исследовательского проекта будут применяться в таких областях, как разработка программного обеспечения, инженерия знаний, компьютерная лингвистика, образование, научные исследования и рынок труда. Пользовательская аудитория результатов данного проекта — преподаватели, студенты, учёные, специалисты и исследователи в области НЛП. Зерттеу жобасының күтілетін нәтижелері бағдарламалық қамтамасыз ету, білім инженериясы, есептеуіш лингвистика, білім беру, ғылыми зерттеулер және еңбек нарығы сияқты салаларда қолданылатын болады. Бұл жоба нәтижелерінің пайдаланушы аудиториясы оқытушылар құрамы, студенттер, ғалымдар, мамандар және NLP бағытындағы зерттеушілерге |
||||
| UDC indices | ||||
| 004.912+044.82 | ||||
| International classifier codes | ||||
| 20.23.17; | ||||
| Key words in Russian | ||||
| анафора; Кореференция; лингвистическая база знаний; многоязычный корпус; онтология предметной области; | ||||
| Key words in Kazakh | ||||
| анафора; Кореференция; лингвистикалық білім базасы; көп тілді корпус; пәндік саланың онтологиясы; | ||||
| Head of the organization | Сырлыбаев Марат Кадирулы | кандидат экономических наук / Кандидат экономических наук | ||
| Head of work | Қалман Гүлжамал | Phd / Қауымдастырылған профессор | ||