| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0225РК01289 | BR24993244-OT-25 | 0124РК01185 |
| Document type | Terms of distribution | Availability of implementation |
| Промежуточный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 9 | ||
| International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 |
| Number of books | Appendicies | Sources |
| 1 | 2 | 25 |
| Total number of pages | Patents | Illustrations |
| 104 | 0 | 11 |
| Amount of funding | Code of the program | Table |
| 400000000 | О.1362 | 16 |
| Code of the program's task under which the job is done | ||
| 01 | ||
| Name of work | ||
| Совершенствование Национального корпуса казахского языка как мегапроекта Smart-текстов и основы казахского искусственного интеллекта, разработка его подкорпусов. | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Applied | Другая (укажите) | |
| Report authors | ||
| Фазылжан Анар Мұратқызы , Исаева Гульсинай Сайлауовна , Пиязбаева Акмарал Бейсенкуловна , Махамбетова Айдана , Аманбаева Айсауле Жантемировна , Жумабаева Жанара Толендиевна , Оспангазиева Назгуль Бакытовна , Тлегенова Гульден Бакытказыевна , Барменкулова Аида Серикхановна , Бесиров Еркин Бекжанович , Нұрлан Меруерт Ерқанатқызы , Бейсенхан Самал , Аязбаев Галымжан Маратович , Кайранбаев Нурлан Айтакынович , Сағитжан Мағжан Аманжолұлы , Арал Шыңғыс Алиханұлы , Айдарбаев Ерлан Балгабаевич , Уәли Нұргелді Мақажанұлы , Алдаш Айманкүл , Мамырбек Гүлфар Мәжитқызы , Тургинбаева Жазира Досымбековна , Ескендір Жарас Ертайұлы , Турсатаева Самал Саржанкызы , Садырбаева Зубайра Боранбековна , Садық Дидар Айдарұлы , Сейтбекова Айнур Аташбековна , Малбаков Мырзаберген Малбакович , Жорабай Темірлан Сейтқасымұлы , Мурсал Айкерим - , Сейдамат Әсел Қазбекқызы , Сейілхан Сымбат Абдусаламқызы , Қайрат Асау Айниязұлы , Бисенғали Ақмарал Зинол-Ғабденқызы , Рсалиева Нұрсауле Мақсұтқызы , Омарова Аягуль Данияровна , Кожахмет Әсем Мұхитқызы , Абаева Мадина Қабылқызы , Чукаева Талшын Канаткызы , Утебаева Эльмира Абдугалиевна , Шойбеков Рустембек Нусухабекович , Нұстаева Ардана Батырханқызы , Сәрсенбек Дәрия Тұрсынбекқызы , Солтанбекова Альфия Абдыкеновна , Мамынова Бағдан Қатайқызы , Рамазанов Талгат Бекбулатович , Слямбеков Қымбат Берікұлы , Хабиева Алмагуль Алтаевна , Ғабитханұлы Қайрат Ғабитханұлы , Амирбекова Айгул Байдебековна , Амиртаева Сара Койшыбаевна , Талғатқызы Гулнара - , | ||
|
0
2
17
0
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | МНВО РК | |
| Full name of the service recipient | ||
| Республиканское государственное предприятие на праве хозяйственного пользования "Институт языкознания имени А.Байтурсынова" | ||
| Abbreviated name of the service recipient | РГП на ПХВ "ИЯ им. А.Байтурсынова" КН МОН РК | |
| Abstract | ||
|
Учебный подкорпус, многоязычный подкорпус, устный подкорпус, подкорпус ошибок, лексико-грамматический словарь и аналитические глаголы казахского языка Қазақ тілінің оқу ішкорпусы, көптілді ішкорпусы, ауызша ішкорпусы, қателер корпусы, лексика-грамматикалық сөздігі және аналитикалық етістіктері Разработка и усовершенствование подкорпусов Национального корпуса казахского языка как мегапроекта smart-текстов и основы казахоязычного исскуственного интеллекта. Smart-мәтіндердің мегажобасы және қазақ тіліндегі жасанды интеллект негіздері ретіндегі Қазақ тілі ұлттық корпусының ішкорпустарын әзірлеу және жетілдіру. методы компьютерной лингвистики, технологии разработки параллельных корпусных ресурсов, идентификация, конкорданс, контрастный анализ двуязычного текста; приемы обработки, систематизации, аннотирования, метаязыковой постановки языкового материала, необходимого корпусным ресурсам, учебному корпусу устного языка, культурно-репрезентативных текстов; методы и приемы разработки лексико-грамматического словаря, методы обработки естественного языка обучение (NLP), леммирование грамматических форм глаголов, маркировка, методы различения значения слова в зависимости от контекста для различения омонимов и т. д. компьютерлік лингвистика әдістері, параллель корпустық ресурстар әзірлеу технологиялары, екітілді мәтінді сәйкестендіру, конкорданстарға бөлу, контрастивтік талдау; ауызша тіл, мәдени-репрезентативті мәтіндер корпустық ресурстарына, оқу ішкорпусына қажетті тілдік материалды өңдеу, жүйелеу, аннотациялау, метабелгіленімін қою амал-тәсілдері; лексика-грамматикалық сөздік әзірлеу әдіс-тәсілдері, табиғи тілді өңдеудің мәшинелік оқыту (NLP), етістіктің грамматикалық формаларын леммалау, маркерлеу, омонимдерді ажырату үшін сөз мағынасын контекске қарай ажырату әдістері және т.б. В соответствии с календарным планом исследования выполнены предусмотренные работы и получены следующие результаты: - разработана казахско-английская сопоставительная грамматика; - разработан казахско-английский грамматический минимум; - собраны записи устной речи людей разных возрастов (1 Тбайт) и образцы местных говоров (500 000 словоупотреблений), выполнены их транскрибация, транскрипция и метаразметка; - подготовлены культурно-семантические и экстралингвистические аннотации для этнокультурных, старокнижных и рекламных текстов, созданы видеоролики по историко-культурной лексике; - сформирована база данных ошибок письма и определены их причины; - аналитические форманты казахского языка распределены по семантическим группам и разработана их модель кодирования; - опубликовано 9 статей в изданиях, рекомендованных КОКСНВО, дополнительно – 12 научных и научно-популярных статей; проведено 5 научно-производственных семинаров и 1 круглый стол. Зерттеу жұмысы бойынша күнтізбелік жоспарға сәйкес жұмыстар орындалды және төмендегідей нәтижелер алынды: - қазақ–ағылшын салғастырмалы грамматикасы жасалды; - қазақ–ағылшын грамматикалық минимумы құрастырылды; - түрлі жастағы адамдардың ауызекі сөзі (1 Тбайт) мен жергілікті сөйлеу үлгілері (500 000 сөзқолд.) жиналып, транскрибациясы, транскрипциясы, метабелгіленімі жасалды; - этномәдени, ескі кітаби және жарнама мәтіндерінің мәдени-семантикалық, экстралингвистикалық белгіленімдері әзірленді, тарихи-мәдени сөздерге бейнероликтер жасалды; - жазудағы қателер базасы жинақталып, себебі анықталды; - қазақ тіліндегі аналитикалық форманттар мағыналық топтарға ажыратылып, кодтау моделі жасалды; - ҒЖБССҚК ұсынған басылымдарда 9 мақала, қосымша 12 ғылыми және ғылыми-көпшілік мақалалар жарияланды; 5 ғылыми-өндірістік семинар, 1 дөңгелек үстел өткізілді. не предусмотрено қарастырылмаған не внедрено енгізілмеген Разработанный в результате проекта параллельный внутрикорпус служит повышению эффективности процесса обучения государственному языку, развитию сферы переводоведения, формированию национальной идентичности. Усовершенствованный корпус устного языка, культурно-репрезентативный подкорпус и учебный подкорпус Национального корпуса казахского языка (НККЯ) могут решить вопросы, связанные с языковой политикой; способствует увеличению количества лингвистических исследований, существенному упрощению процесса обработки языкового материала, проведению процесса цифровизации на казахском языке и повышению степени достоверности и объективности лингвистических исследований, укреплению научно-теоретической базы государственного языка; разработке предпосылок отраслевых или межотраслевых исследований, связанных с языком, представителям казахского этнокультурно-языкового сообщества и данной ассоциации и др. позволяет выявить системы знаний, не приобретенные до научной формы; способствует укреплению деятельности казахского языка как языка межкультурного общения в РК, повышению имиджа не только на республиканском, но и на международном культурном уровне. Жоба нәтижесінде әзірленген параллель ішкорпус мемлекеттік тілді оқыту үдерісінің тиімділігін арттыруға, аударматану саласын дамытуға, ұлттық бірегейлікті қалыптастыруға қызмет етеді. Қазақ тілі ұлттық корпусының (ҚТҰК) жетілдірілген ауызша тіл, мәдени-репрезентативті мәтіндер және оқу ішкорпустары тіл саясатына қатысты мәселелерді шешуге; лингвистикалық зерттеулер санын ұлғайтуға, тілдік материалды өңдеу үдерісін айтарлықтай жеңілдетуге, цифрландыру үдерісін қазақ тілінде жүргізуге және лингвистикалық зерттеулердің дәйектілігі мен объективтілік дәрежесін көтеруге, мемлекеттік тілдің ғылыми-теориялық базасын нығайтуға септігін тигізеді; тілмен байланысты сала немесе салааралық зерттеулердің алғышартын әзірлеуге, қазақ этномәдени-тілдік қауымдастығы мен осы қауымдастық өкілдері және т.б. бұған дейін ғылыми нысанға алынбаған білім жүйелерін анықтауға жол ашады; қазақ тілінің ҚР-да мәдениетаралық қарым-қатынас тілі ретінде қызметін нығайтуға, республика көлемінде ғана емес, халықаралық мәдени деңгейде имиджін арттыруға сеп болады. Все научные публикации и корпусные ресурсы широко используются в области школы, вуза, бизнеса, компьютерной лингвистики, филологии, информационных технологий. Барлық ғылыми жарияланымдар мен корпустық ресурстар мектеп, ЖОО, бизнес саласында, компьютерлік лингвистика, филология, ақпараттық технология салаларында кеңінен қолданылады. |
||
| UDC indices | ||
| 8'81 | ||
| International classifier codes | ||
| 16.31.00; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| Национальный корпус казахского языка; культурно репрезентативный текст; культурная семантика; лингвистическая разметка; экстралингвистическая разметка; модель обработки естественного языка; модель различения омонимов; лингводидактические корпусные средства; корпус параллельных текстов; сопоставление многоязычного текста; | ||
| Key words in Kazakh | ||
| Қазақ тілінің ұлттық корпусы; мәдени репрезентативті мәтін; мәдени семантика; лингвистикалық белгіленім; экстралингвистикалық белгіленім; табиғи тілді өңдеу моделі; омонимдерді ажырату моделі; лингводидактикалық корпустық құралдар; параллель мәтіндер корпусы; көптілді мәтінді сәйкестендіру; | ||
| Head of the organization | Фазылжанова Анар Муратовна | кандидат филологических наук / ассоциированный профессор |
| Head of work | Фазылжан Анар Мұратқызы | Кандидат филологических наук / нет |
| Native executive in charge | ||