Inventory number IRN Number of state registration
0224РК01216 BR24993244-OT-24 0124РК01185
Document type Terms of distribution Availability of implementation
Промежуточный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Number of books Appendicies Sources
1 2 34
Total number of pages Patents Illustrations
96 0 13
Amount of funding Code of the program Table
145000000 О.1362 9
Code of the program's task under which the job is done
01
Name of work
Совершенствование Национального корпуса казахского языка как мегапроекта Smart-текстов и основы казахского искусственного интеллекта, разработка его подкорпусов.
Report title
Type of work Source of funding The product offerred for implementation
Applied Другая (укажите)
Report authors
Фазылжанова Анар Муратовна , Малбаков Мырзаберген Малбакович , Шойбеков Рустембек Нусухабекович , Мамынова Бағдан Қатайқызы , Алдаш Айманкүл , Аманбаева Айсауле Жантемировна , Хабиева Алмагуль Алтаевна , Сейтбекова Айнур Аташбековна , Амирбекова Айгул Байдебековна , Мамырбек Гүлфар Мәжитқызы , Исаева Гульсинай Сайлауовна , Жумабаева Жанара Толендиевна , Солтанбекова Альфия Абдыкеновна , Утебаева Эльмира Абдугалиевна , Ғабитханұлы Қайрат , Рсалиева Нұрсауле Мақсұтқызы , Абаева Мадина Қабылқызы , Кубденова Гулжихан Байказиевна , Рамазанов Талгат Бекбулатович , Тургинбаева Жазира Досымбековна , Оспангазиева Назгуль Бакытовна , Барменкулова Аида Серикхановна , Садырбаева Зубайра Боранбековна , Кожахметова Актоты Кожахметкызы , Тлегенова Гульден Бакытказыевна , Пиязбаева Акмарал Бейсенкуловна , Бесиров Еркин Бекжанович , Жорабай Темірлан Сейтқасымұлы , Мурсал Айкерим - , Садық Дидар Айдарұлы , Сейтбатқал Арлен Берікұлы , Сейдамат Әсел Қазбекқызы , Талғатқызы Гулнара - , Омарова Аягуль Данияровна , Ескендір Жарас Ертайұлы , Чукаева Талшын Канаткызы , Серікқызы Маржан , Имангазина Меруерт Ануаровна , Слямбеков Қымбат Берікұлы , Нұрлан Меруерт Ерқанатқызы , Нұстаева Ардана Батырханқызы , Турсатаева Самал Саржанкызы , Кемелхан Ұлбану Ахатқызы , Қайрат Асау Айниязұлы , Жұманқызы Алтын , Сейілхан Сымбат Абдусаламқызы , Бейсенхан Самал ,
0
0
8
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Республиканское государственное предприятие на праве хозяйственного пользования "Институт языкознания имени А.Байтурсынова"
Abbreviated name of the service recipient РГП на ПХВ "ИЯ им. А.Байтурсынова" КН МОН РК
Abstract

Учебный подкорпус, многоязычный подкорпус, устный подкорпус, подкорпус ошибок, лексико-грамматический словарь и аналитические глаголы казахского языка

Қазақ тілінің оқу ішкорпусы, көптілді ішкорпусы, ауызша ішкорпусы, қателер корпусы, лексика-грамматикалық сөздігі және аналитикалық етістіктері

Разработка и усовершенствование подкорпусов Национального корпуса казахского языка как мегапроекта smart-текстов и основы казахоязычного исскуственного интеллекта.

Smart-мәтіндердің мегажобасы және қазақ тіліндегі жасанды интеллект негіздері ретіндегі Қазақ тілі ұлттық корпусының ішкорпустарын әзірлеу және жетілдіру.

методы компьютерной лингвистики, технологии разработки параллельных корпусных ресурсов, идентификация, конкорданс, контрастный анализ двуязычного текста; приемы обработки, систематизации, аннотирования, метаязыковой постановки языкового материала, необходимого корпусным ресурсам, учебному корпусу устного языка, культурно-репрезентативных текстов; методы и приемы разработки лексико-грамматического словаря, методы обработки естественного языка обучение (NLP), леммирование грамматических форм глаголов, маркировка, методы различения значения слова в зависимости от контекста для различения омонимов и т. д.

компьютерлік лингвистика әдістері, параллель корпустық ресурстар әзірлеу технологиялары, екітілді мәтінді сәйкестендіру, конкорданстарға бөлу, контрастивтік талдау; ауызша тіл, мәдени-репрезентативті мәтіндер корпустық ресурстарына, оқу ішкорпусына қажетті тілдік материалды өңдеу, жүйелеу, аннотациялау, метабелгіленімін қою амал-тәсілдері; лексика-грамматикалық сөздік әзірлеу әдіс-тәсілдері, табиғи тілді өңдеудің мәшинелік оқыту (NLP), етістіктің грамматикалық формаларын леммалау, маркерлеу, омонимдерді ажырату үшін сөз мағынасын контекске қарай ажырату әдістері және т.б.

По результатам исследования получены научные результаты: - обобщена текстовая база учебного подкорпуса «Learner Corpus» и разработана система лексико-грамматических знаний по уровням А1, А2; - изучен мировой многоязычный «parallel corpus», подготовлено исследование в рукописной форме; - обобщены тематические тексты для уровня А1 на лингводидактическую базу обучения казахскому языку на иноязычных инофонах; - обобщена, систематизирована база приравненных текстов на казахско-турецко-азербайджанско-узбекско-уйгурском языках, разработана структура метаразметок; - проведен обзор способов и методов совершенствования устного корпуса казахского языка, мировой корпусной практики, изучены способы транскрибирования, транскрипции устной речи, собрано 50 текстов из устной речи; - обобщена база этнокультурных, старокнижных языковых единиц и рекламных текстов, усовершенствовано лингвистическая, экстралингвистическая разметка; - проведен диктант в ВУЗ-ах и собраны виды ошибок; - определен лексический минимум, активно употребляемый в коммуникативном акте, отсортирован по тематическим группам в «Лексико-грамматическом словаре казахского языка» и представлен на казахско-английском языке; - проведена работа по составлению списка всех глаголов формы в казахском языке, ознакомлению с научными трудами, выявлению лексико-грамматических значений, созданию имитационной модели по пяти признакам-коду; - проведены 2 научно-производственных семинара.

Зерттеу жұмысы бойынша төмендегідей нәтижелер алынды: - «Learner Corpus» оқу ішкорпусының мәтіндік базасы жинақталды және А1, А2 деңгейлері бойынша лексика-грамматикалық білімдер жүйесі жасақталды; - әлемдік көптілді «parallel corpus» зерттелді, қолжазба түрінде зерттеу дайындалды; - шеттілді инофондарға қазақ тілін оқытудың лингводидактикалық базасына А1 деңгейіне арналған тақырыптық мәтіндер жинақталды; - қазақ-түрік-әзербайжан-өзбек-ұйғыр тілдеріндегі теңестірілген мәтіндердің базасы жинақталды, жүйеленеді, метабелгіленімнің құрылымы әзірленді; - қазақ тілі ауызша корпусын жетілдіру жолдары мен әдістеріне, әлемдік корпус түзу тәжірибелеріне шолу жасалды, ауызша сөзді транскрибациялау, транскрипциялау тәсілдері зерттелді, ауызекі сөйлеу тілінен 50 мәтін жиналды; - этномәдени, ескі кітаби тілдік бірліктерінің және жарнама мәтіндерінің базасы жинақталды, лингвистикалық, экстралингвистикалық белгіленімі жетілдірілді; - ЖОО-нан диктант алынып, қате түрлері жинақталды; - коммуникативтік актіде белсенді қолданылатын лексикалық минимум анықталды және «Қазақ тілінің лексика-грамматикалық сөздігінде» тақырыптық топтар бойынша сұрыпталып, қазақ-ағылшын тілінде берілді; - қазақ тіліндегі барлық қалып етістіктерінің тізімін жасау, ғылыми еңбектермен танысу, лексика-грамматикалық мағыналарын анықтау, бес белгі-код бойынша модельдеу үлгісін жасау жұмыстары жүргізілді; - 2 ғылыми-өндірістік семинар өткізілді.

не предусмотрено

қарастырылмаған

не внедрено

енгізілмеген

Разработанный в результате проекта параллельный внутрикорпус служит повышению эффективности процесса обучения государственному языку, развитию сферы переводоведения, формированию национальной идентичности. Усовершенствованный корпус устного языка, культурно-репрезентативный подкорпус и учебный подкорпус Национального корпуса казахского языка (НККЯ) могут решить вопросы, связанные с языковой политикой; способствует увеличению количества лингвистических исследований, существенному упрощению процесса обработки языкового материала, проведению процесса цифровизации на казахском языке и повышению степени достоверности и объективности лингвистических исследований, укреплению научно-теоретической базы государственного языка; разработке предпосылок отраслевых или межотраслевых исследований, связанных с языком, представителям казахского этнокультурно-языкового сообщества и данной ассоциации и др. позволяет выявить системы знаний, не приобретенные до научной формы; способствует укреплению деятельности казахского языка как языка межкультурного общения в РК, повышению имиджа не только на республиканском, но и на международном культурном уровне.

Жоба нәтижесінде әзірленген параллель ішкорпус мемлекеттік тілді оқыту үдерісінің тиімділігін арттыруға, аударматану саласын дамытуға, ұлттық бірегейлікті қалыптастыруға қызмет етеді. Қазақ тілі ұлттық корпусының (ҚТҰК) жетілдірілген ауызша тіл, мәдени-репрезентативті мәтіндер және оқу ішкорпустары тіл саясатына қатысты мәселелерді шешуге; лингвистикалық зерттеулер санын ұлғайтуға, тілдік материалды өңдеу үдерісін айтарлықтай жеңілдетуге, цифрландыру үдерісін қазақ тілінде жүргізуге және лингвистикалық зерттеулердің дәйектілігі мен объективтілік дәрежесін көтеруге, мемлекеттік тілдің ғылыми-теориялық базасын нығайтуға септігін тигізеді; тілмен байланысты сала немесе салааралық зерттеулердің алғышартын әзірлеуге, қазақ этномәдени-тілдік қауымдастығы мен осы қауымдастық өкілдері және т.б. бұған дейін ғылыми нысанға алынбаған білім жүйелерін анықтауға жол ашады; қазақ тілінің ҚР-да мәдениетаралық қарым-қатынас тілі ретінде қызметін нығайтуға, республика көлемінде ғана емес, халықаралық мәдени деңгейде имиджін арттыруға сеп болады.

Все научные публикации и корпусные ресурсы широко используются в области школы, вуза, бизнеса, компьютерной лингвистики, филологии, информационных технологий.

Барлық ғылыми жарияланымдар мен корпустық ресурстар мектеп, ЖОО, бизнес саласында, компьютерлік лингвистика, филология, ақпараттық технология салаларында кеңінен қолданылады.

UDC indices
8'81
International classifier codes
16.31.00;
Readiness of the development for implementation
Key words in Russian
Национальный корпус казахского языка; культурно репрезентативный текст; культурная семантика; лингвистическая разметка; экстралингвистическая разметка; модель обработки естественного языка; модель различения омонимов; лингводидактические корпусные средства; корпус параллельных текстов; сопоставление многоязычного текста;
Key words in Kazakh
Қазақ тілінің ұлттық корпусы; мәдени репрезентативті мәтін; мәдени семантика; лингвистикалық белгіленім; экстралингвистикалық белгіленім; табиғи тілді өңдеу моделі; омонимдерді ажырату моделі; лингводидактикалық корпустық құралдар; параллель мәтіндер корпусы; көптілді мәтінді сәйкестендіру;
Head of the organization Фазылжанова Анар Муратовна Кандидат филологических наук /
Head of work Фазылжанова Анар Муратовна Кандидат филологических наук / нет
Native executive in charge