Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0324РК01920 | AP23488585-KC-24 | 0124РК01011 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Implemented |
||
Publications | ||||
Native publications: 1 | ||||
International publications: 0 | Publications Web of science: 0 | Publications Scopus: 0 | ||
Patents | Amount of funding | Code of the program | ||
0 | 29782123 | AP23488585 | ||
Name of work | ||||
Цифровые гуманитарные науки: создание корпуса академического казахского языка | ||||
Type of work | Source of funding | Report authors | ||
Fundamental | Сәрсеке Гүлнәр Әдебиетқызы | |||
0
1
1
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | МНВО РК | |||
Full name of the service recipient | ||||
Некоммерческое акционерное общество "Евразийский Национальный университет имени Л.Н. Гумилева" | ||||
Abbreviated name of the service recipient | НАО "ЕНУ им.Л.Н.Гумилева" | |||
Abstract | ||||
Создание академического корпуса Академиялық корпус әзірлеу ісі Основная цель данного научного проекта – восполнить важный эмпирический пробел в современной научно-исследовательской инфраструктуре исследования современного состояния научного казахского языка путем внедрения академического письменного корпуса современного казахского языка, общий объем собранных данных которого составляет не менее 5 000 000 слов, из которых не менее 50 000 слов аннотированы. Бұл ғылыми жобаның негізгі мақсаты – жинақталған деректердің жалпы көлемі кемінде 5 000 000 сөзден тұратын, оның кемінде 50 000 сөзі аннотацияланған қазіргі қазақ тілінің академиялық жазбаша корпусын енгізу арқылы ғылыми қазақ тілінің қазіргі қалпын зерттеудің заманауи ғылыми-зерттеу инфрақұрылымындағы маңызды эмпирикалық олқылықты толтыру Эмпирический метод Метод корпусного анализа Поскольку проект представляет собой междисциплинарное исследование на стыке лингвистики и наук о компьютерном программировании, также используются методы компьютерной обработки, кодирования, систематизации, анализа и компиляции. Методы компьютерной обработки используются для поиска подходящих программ для обработки языковых данных и создания алгоритмов, приведения текстов в определенные файловые системы, преобразования текстов для машинной обработки, кодирования, выравнивания текстов в предложения и синтаксического выравнивания предложений. Эмпирикалық әдіс Корпусқа негізделген талдау әдісі Жоба лингвистика мен компьютерлік бағдарламалау ғылымдары тоғысындағы пәнаралық зерттеу болғандықтан, компьютерлік өңдеу, кодтау, жүйелеу, талдау, жинақтау әдістері де қолданылады. Компьютерлік өңдеу әдістері тілдік деректерді өңдеуге қолайлы бағдарламаларды табуда және алгоритм құруда, мәтіндерді белгілі бір файлдық жүйелерге келтіруде, мәтіндерді машиналық өңдеуге түсіргенде, кодтауда, мәтіндерді сөйлемдерге туралауда, сөйлемдерді синтаксистік туралауда қолданылады. В результате проекта будет создан академический корпус казахского языка; в результате выявления, отбора и систематизации наиболее часто употребляемых слов в гуманитарных науках и их субдисциплинах впервые создается список академических слов казахского языка; произведена подборка академических текстов по областям гуманитарных наук и их субдисциплин; к выбранным данным делается углубленная аннотация; В результате проекта будет разработан корпус с сервисами поиска и получения информации для созданной базы данных, которая будет обращаться к данным как к ресурсу открытого доступа для научного и широкого сообщества. Жобаның нәтижесінде академиялық қазақ тілінің корпусы әзірленеді; гуманитария ғылымдары мен олардың ішкі пәндерінде ең жиі жұмсалатын сөздерді анықтау, іріктеу және жүйелеудің нәтижесінде алғаш рет Қазақ тілінің академиялық сөздер тізімі жасалады; гуманитарлық ғылымдар салалары және олардың ішкі пәндері бойынша академиялық мәтіндердің іріктемесі жасалады; іріктелген деректерге терең аннотация жасалады; жобаның нәтижесінде ғылыми және жалпы қауымдастық үшін ашық қолжетімді ресурс ретінде деректерге қол жеткізетін, жасалған дерекқор үшін іздеу және ақпаратты алу қызметтері іске қосылған корпус әзірленеді. Корпус академического казахского языка не только станет вкладом в область корпусной лингвистики казахского языка, но и станет полезным электронным информационно-познавательным и учебно-исследовательским инструментом, демонстрирующим научный потенциал и функциональные возможности казахского языка, как государственного. Будет большой цифровой информационный ресурс в сфере гуманитарных наук. Академиялық қазақ тілінің корпусын жасау алғаш рет қолға алынғалы отыр. Бұл корпус қазақ тілінің корпус лингвистикасы саласына қосылған үлес болумен қатар, қазақ тілінің мемлекет тілі ретінде ғылыми әлеуеті мен функционалдық мүмкіндіктерін көрсететін пайдалы электронды ақпараттық-танымдық және оқу-зерттеу құралы болмақ. Гуманитарлық ғылымдар саласындағы үлкен ақпараттық ресурс болады. степень внедрения высокая Енгізу дәрежесі жоғары Впервые в казахском языкознании будет создан письменный корпус академического казахского языка. Создание этого ресурса, обладающего огромным научно-прикладным потенциалом, обеспечивает важный недостающий компонент существующих корпусных ресурсов (двух письменных), а именно академического корпуса; радикально повысит общую применимость полученной сложной системы данных в процессе дальнейших исследований и образования, а также в различных приложениях компьютерных систем. Академиялық қазақ тілінің жазбаша корпусы қазақ тіл ғылымында алғаш рет жасалғалы отыр. Орасан зор ғылыми және қолданбалы әлеуеті бар бұл ресурсты жасау бұрыннан бар корпус ресурстарына (екі жазбаша) маңызды жетіспейтін құрамдас бөлікті, атап айтқанда академиялық корпусты қамтамасыз етеді; алынған кешенді деректер жүйесінің жалпы қолданбалы мүмкіндіктерін одан әрі зерттеулер мен оқыту процесінде, сонымен қатар әртүрлі компьютерлік жүйе қолданбаларында түбегейлі арттырады.Академиялық қазақ тілінің жазбаша корпусы қазақ тіл ғылымында алғаш рет жасалғалы отыр. Орасан зор ғылыми және қолданбалы әлеуеті бар бұл ресурсты жасау бұрыннан бар корпус ресурстарына (екі жазбаша) маңызды жетіспейтін құрамдас бөлікті, атап айтқанда академиялық корпусты қамтамасыз етеді; алынған кешенді деректер жүйесінің жалпы қолданбалы мүмкіндіктерін одан әрі зерттеулер мен оқыту процесінде, сонымен қатар әртүрлі компьютерлік жүйе қолданбаларында түбегейлі арттырады. Цифровые гуманитарные науки, Прикладная лингвистика, Литературоведение, Преподавание языков, Общественные науки, Гуманитарные науки Цифрлық гуманитарлық ғылымдар, қолданбалы лингвистика, әдебиеттану, тілдерді оқыту, әлеуметтік, гуманитарлық ғылымдар |
||||
UDC indices | ||||
81 | ||||
International classifier codes | ||||
16.31.00; | ||||
Key words in Russian | ||||
корпусная лингвистика; обработка естественного языка; казахский язык; цифровизация; академический корпус; письменный корпус; академическое письмо; гуманитарные науки; корпус; академический текст; научный язык; лингвистическая аннотация; создание корпусов; список академических слов; академическая лексика; | ||||
Key words in Kazakh | ||||
корпус лингвистикасы; табиғи тілді өңдеу; қазақ тілі; цифрландыру; академиялық корпус; жазбаша корпус; академиялық жазу; гуманитарлық ғылымдар; корпус; академиялық мәтін; ғылыми тіл; лингвистикалық аннотация; корпустар құру; академиялық сөздер тізімі; академиялық лексика; | ||||
Head of the organization | Сыдыков Ерлан Батташевич | доктор исторических наук / Профессор | ||
Head of work | Сәрсеке Гүлнәр Әдебиетқызы | Кандидат филологических наук, MA in Education (King's College London) / доцент |