Inventory number IRN Number of state registration
0324РК01269 AP22686434-KC-24 0124РК00221
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 8247275 AP22686434
Name of work
Разработка мультиязычного корпуса текстов с разметкой именованных сущностей и референции
Type of work Source of funding Report authors
Applied Қалман Гүлжамал
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество «Кокшетауский университет имени Ш.Уалиханова»
Abbreviated name of the service recipient Кокшетауский университет имени Ш.Уалиханова
Abstract

Объект исследования – совокупность технических текстов на казахском и английском языках.

зерттеу объектісі қазақ және ағылшын тілдердегі техникалық мәтіндер жинтығы

Целью этого проекта является создание многоязычного корпуса для поддержки национальных исследований в области автоматической обработки текста в области компьютерной лингвистики. Данный ресурс предназначен для поддержки широкого круга исследователей в области машинного обучения, создания языковых моделей, создания национальных словарей по научным темам, а также проведения лингвистических исследований на казахском языке.

Бұл жобаның мақсаты – компьютерлік лингвистика саласында мәтінді автоматты өңдеуде ұлттық зерттеулерді қолдау үшін көптілді корпус құру. Бұл ресурс зерттеушілердің кең ауқымын машиналық оқыту саласындағы тілдік модельдерді құру, ғылыми тақырыптар бойынша ұлттық сөздіктер жасау және қазақ тілінде лингвистикалық зерттеулер жүргізуді қамтамасыз етуге арналған.

В проекте используются современные методы компьютерной лингвистики, новейшие методы нейронных сетей.

жоба барысында компьютерлік лингвистиканың заманауи әдістері, нейрондық желілердің соңғы үлгідегі әдістері қолданылады.

Научно-технический уровень (инновация): Впервые будет создан многоязычный корпус текстов с наименованиями и справочной маркировкой на основе казахского языка. Для достижения этой цели необходимо разработать эффективные методы получения упомянутых объектов и решения упоминаний в научных текстах. В настоящее время существуют параллельные корпуса, полученные с использованием методов автоматического выравнивания текста, но в них отсутствует идентификация именованных меток объектов и ссылочных отношений, необходимых для всех задач анализа текста на основе современных методов машинного обучения. Разрабатываемый в рамках этого проекта многоязычный корпус будет автоматически маркироваться с использованием методов, сочетающих подходы, основанные на машинном обучении, и лингвистические подходы, учитывающие ту или иную особенность рассматриваемого естественного языка. Новизна проекта заключается в том, что будет создан масштабный полиязычный корпус, в рамках которого будет осуществляться интеграция производственных предприятий и способов реализации научно-технических проектов. Решение референтной неоднозначности текста осуществляется на основе многофакторной модели референтной активации.

Ғылыми-техникалық деңгей (жаңалық): Қазақ тіліне негізделген атаулар мен референцияны таңбалаумен алғаш рет мәтіндердің көптілді корпусы құрылады. Бұл мақсатқа жету үшін аталған нысандарды алудың және ғылыми мәтіндердегі сілтемелерді шешудің тиімді әдістерін әзірлеу қажет. Қазіргі уақытта мәтінді автоматты түрде теңестіру әдістерін қолдану арқылы алынған параллельді корпустар бар, бірақ оларда заманауи машиналық оқыту әдістеріне негізделген барлық мәтінді талдау тапсырмалары үшін қажетті аталған нысан белгілері мен референциялық қатынасты анықтау жоқ. Осы жоба аясында әзірленген көптілді корпус автоматты түрде машиналық оқытуға негізделген тәсілдер мен қарастырылып отырған табиғи тілдің бір немесе басқа ерекшелігін ескеретін лингвистикалық тәсілдерді біріктіретін әдістерді пайдалана отырып белгіленетін болады. Жобаның жаңалығы ауқымды көптілді корпус құрылатынында, оның шеңберінде өндіруші субъектілер мен ғылыми-техникалық жобаларды жүзеге асыру тәсілдерінің интеграциясы жүзеге асырылады. Мәтіннің анықтамалық анық еместігін шешу референтті белсендірудің көп факторлы моделі негізінде жүзеге асырылады.

Проект направлен на создание многоязычного корпуса для казахского языка в поддержку национальных лингвистических исследований. Этот корпус станет основным ресурсом для создания языковых моделей на казахском языке, разработки национальных словарей и проведения лингвистических исследований. Данные корпуса и результаты аннотирования, полученные в рамках проекта, будут использованы как на национальном, так и на международном уровне, а также будут способствовать развитию исследований в области машинного обучения и искусственного интеллекта.

Негізгі конструктивтік және техникалық-экономикалық көрсеткіштері. Жоба ұлттық лингвистикалық зерттеулерді қолдау үшін қазақ тіліне арналған көптілді корпус құруды көздейді. Бұл корпус қазақ тілінде тіл үлгілерін құруға, ұлттық сөздіктер жасауға және лингвистикалық зерттеулер жүргізуге арналған негізгі ресурс болады. Жоба шеңберінде алынған корпус деректері мен таңбалау нәтижелері ұлттық және халықаралық деңгейде қолдануға, сондай-ақ машиналық оқыту және жасанды интеллект саласындағы зерттеулерді дамытуға ықпал етеді.

Результаты проекта будут широко применяться в научном сообществе. В этом году в рамках проекта получено 1 авторское свидетельство, что подтверждает новизну и практическую ценность проекта. Также планируется публикация как минимум двух статей в журналах, входящих в первые три квартиля по импакт-фактору в базе данных Web of Science или имеющих процентиль не менее 50 по показателю CiteScore в базе данных Scopus, либо публикация не менее пяти статей в рецензируемых зарубежных и (или) отечественных изданиях, рекомендованных НЦП.

Жобаның нәтижелері ғылыми қауымдастықта жоғары деңгейде қолданылатын болады. Биыл жоба аясында 1 авторское свидетельство алынды, бұл жобаның жаңашылдығын және практикалық құндылығын растайды. Сонымен қатар, Web of Science дерекқорындағы импакт-факторы бар алғашқы үш квартилдегі немесе Scopus дерекқорындағы citescore бойынша кемінде 50 процентильге жататын журналдарда кемінде екі мақала жариялау немесе рецензияланған шетелдік және (немесе) отандық басылымдарда кемінде бес мақала жариялау жоспарлануда.

Проект имеет большое значение в области автоматической обработки казахского языка и лингвистических исследований в целом, так как создание многоязычного корпуса предоставит национальным исследователям доступ к необходимым данным. Эффективность проекта проявляется в его научных и практических возможностях применения: данный корпус поддержит исследователей, работающих с текстами на казахском языке, что будет способствовать созданию новых научных статей, исследований и научных словарей. С экономической точки зрения результаты проекта обладают потенциалом коммерциализации на национальном и международном уровнях, особенно в целях развития языковых технологий, интеграции в систему образования и поддержки национальных ресурсов. С социальной стороны развитие исследований казахского языка способствует расширению его сферы применения и повышению его престижа. Результаты проекта важны для развития систем обучения казахскому языку и создания на его основе систем искусственного интеллекта, в частности, NLP — систем обработки естественного языка. Это поддержит казахский язык в цифровой среде и обеспечит эффективные решения в таких сферах, как образование, бизнес и государственное управление. В итоге, созданный в рамках проекта многоязычный корпус станет важным ресурсом для национальных исследователей, который поможет в создании языковых моделей, расширении словарного запаса и выводе лингвистических исследований на казахском языке на новый уровень.

Жоба қазақ тілін автоматты өңдеу саласында және жалпы тілдік зерттеулерде үлкен маңызға ие, себебі ол көптілді корпус құру арқылы ұлттық зерттеушілерге қолжетімді деректерді ұсынады. Жобаның тиімділігі оның ғылыми және практикалық қолдану мүмкіндіктерінен көрінеді, бұл корпус қазақ тіліндегі мәтіндермен жұмыс істейтін зерттеушілерге қолдау көрсетіп, жаңа ғылыми мақалалардың, зерттеулердің және ғылыми сөздіктердің жасалуына ықпал етеді. Экономикалық тұрғыдан жоба нәтижелерін ұлттық және халықаралық деңгейде коммерцияландыру әлеуеті бар, әсіресе тілдік технологияларды дамыту, білім беру жүйесіне интеграциялау және ұлттық ресурстарды қолдау мақсатында. Әлеуметтік жағынан қазақ тіліндегі тілдік зерттеулердің дамуы қазақ тілінің қолданыс аясын кеңейтуге және оның беделін арттыруға ықпал етеді. Жоба нәтижелері қазақ тілін оқытуда, жасанды интеллект негізіндегі жүйелерді дамытуда, оның ішінде NLP, яғни табиғи тілді өңдеу жүйелерін құруда, маңызды рөл атқарады. Бұл қазақ тілін цифрлық ортада қолдау арқылы білім беру, бизнес және мемлекеттік басқару салаларында тиімді шешімдер ұсынады. Жоба нәтижесінде алынатын көптілді корпус ұлттық зерттеушілерге тілдік модельдер құруда, сөздік қорын кеңейтуде және қазақ тіліндегі лингвистикалық зерттеулерді жаңа деңгейге көтеруде маңызды ресурс болмақ.

Ожидаемые результаты исследовательского проекта будут применяться в таких областях, как разработка программного обеспечения, инженерия знаний, компьютерная лингвистика, образование, научные исследования и рынок труда. Пользовательская аудитория результатов данного проекта — преподаватели, студенты, учёные, специалисты и исследователи в области НЛП.

Зерттеу жобасының күтілетін нәтижелері бағдарламалық қамтамасыз ету, білім инженериясы, есептеуіш лингвистика, білім беру, ғылыми зерттеулер және еңбек нарығы сияқты салаларда қолданылатын болады. Бұл жоба нәтижелерінің пайдаланушы аудиториясы оқытушылар құрамы, студенттер, ғалымдар, мамандар және NLP бағытындағы зерттеушілерге.

UDC indices
004.912+044.82
International classifier codes
20.23.17;
Key words in Russian
Анафора; Кореференция; Лингвистическая база знаний; Многоязычный корпус; Онтология предметной области;
Key words in Kazakh
Анафора; Кореференция; Лингвистикалық білім базасы; Көп тілді корпус; Пәндік саланың онтологиясы;
Head of the organization Сырлыбаев Марат Кадирулы кандидат экономических наук / Кандидат экономических наук
Head of work Қалман Гүлжамал / жоқ