Inventory number | IRN | Number of state registration |
---|---|---|
0224РК01130 | AP15473441-OT-24 | 0122РК00932 |
Document type | Terms of distribution | Availability of implementation |
Заключительный | Gratis | Number of implementation: 0 Not implemented |
Publications | ||
Native publications: 0 | ||
International publications: 3 | Publications Web of science: 0 | Publications Scopus: 1 |
Number of books | Appendicies | Sources |
1 | 5 | 84 |
Total number of pages | Patents | Illustrations |
174 | 0 | 11 |
Amount of funding | Code of the program | Table |
6938260 | AP15473441 | 1 |
Name of work | ||
"РАЗРАБОТКА СЛОВООБРАЗОВАТЕЛЬНЫХ РАЗМЕТОК В КОРПУСЕ ТЕКСТОВ КАЗАХСКОГО ЯЗЫКА" | ||
Report title | ||
Type of work | Source of funding | The product offerred for implementation |
Applied | Метод, способ | |
Report authors | ||
Пірманова Күнсұлу Қамбарбекқызы | ||
0
0
0
0
|
||
Customer | МНВО РК | |
Information on the executing organization | ||
Short name of the ministry (establishment) | МНВО РК | |
Full name of the service recipient | ||
Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||
Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |
Abstract | ||
Определение, структурирование и разработка системы словообразовательных разметок на основе корпуса текстов казахского языка. Қазақ тілі мәтіндер корпусының негізінде сөзжасамдық белгіленімдерді анықтау, құрылымдау және олардың жүйесін әзірлеу. Создание лингвистической базы для включения словообразовательных разметок в корпус казахского языка и подготовка программной разработки. Қазақ тіліндегі сөзжасамдық белгіленімдерді корпусқа енгізудің тілдік базасын жасау және программалық әзірлемесін дайындау. а) Компьютерный метод: автоматический сбор информации (information retrieval, IR), индексирование словарного материала, лемматизация, токенизация, количественный метод, методы статистического анализа, поиск слов в текстах (конкордансах). б) Филологический экспертный анализ: лингвистическая обработка текста, создание базы текстов, автоматический словообразовательный анализ, составление списка слов (реестра), создание списков сложных слов, словаря сложносоставных слов, списка словообразовательных аффиксов, разработка словаря. в) Методы программирования: разработка языка программирования и системы команд, программирование в соответствии с выбранным стандартом, визуальное программирование, структурное программирование, структурирование новых типов данных, динамическое управление памятью. г) Описание метод: лингвистические обозначения в корпусе и вопросы словообразования, обзор словообразовательных обозначений в национальных корпусах турецкого и русского языков, определение словообразовательной и формообразовательной функций двуфункциональных аффиксов и т. д. а) компьютерлік әдіс: ақпаратты автоматты түрде алу (information retrieval, IR), сөздік материалды индекстеу, лемматизация, токенизация, квантитативтік әдіс, статистикалық талдау тәсілдері, мәтіндер (конкорданстар) ішінен сөз іздеу; ә) филологиялық сараптамалық талдау: мәтінді лингвистикалық өңдеу, мәтіндер базасын жасау, автоматты сөзжасамдық талдаулар, сөзтізбе (реестр) жасау (қос сөздер тізімі, біріккен сөздер сөздігі, сөзжасамдық қосымшалар тізімі), сөздік құрастыру; б) бағдарламалау әдістері: бағдарламалау тілін және пәрмендер жүйесін жасау, таңдалған стандартпен бағдарламалау, визуальды бағдарламалау, құрылымдық бағдарламалау, деректердің жаңа типтерін құрылымдау, жадты динамикалық басқару; в) сипаттама әдісі: корпустағы лингвистикалық белгіленімдер және сөзжасам мәселелері, түрік және орыс тілінің ұлттық корпусындағы сөзжасамдық белгіленімдер туралы шолу, қос функциялы қосымшалардың сөзжасамдық және формажасамдық қызметін айқындау және т.б. Результаты: Дана характеристика понятия разметки в корпусе, видов разметок, понятия «производное слово» в казахском языке и способов словообразования. Определена роль аффиксов в словообразовании и формообразовании. Проведен анализ разработки внедрения словообразовательных разметок в национальном корпусе турецкого языка. Проведен анализ разработки внедрения словообразовательных разметок в национальном корпусе русского языка. Созданы списки сложных слов, словарь составных слов, а также таблицы словообразовательных аффиксов по частям речи в качестве лингвистических инструкций для алгоритма автоматического распознавания слов в корпусе. Разработан инструмент автоматического распознавания сложных слов, составных слов и производных слов с аффиксами, являющихся словообразовательными разметками, для использования в корпусе. Научная новизна исследования: Теоретико-методологическая база исследования опирается на работы по системе словообразования казахского языка (Н. Оралбаева) [4], академическое издание «Қазақ грамматикасы» [5], учебники для вузов (А. Ысқақов) [6], список (словарь) составных слов из «Словаря казахского литературного языка», словарь сложных слов (Ә. Қайдар) [7], а также научно-теоретические работы по вопросам корпусной лингвистики в русском и казахском языкознании, материалы сайта «Корпус текстов казахского языка» отдела прикладной лингвистики. Нәтижелер: - корпустағы белгіленім ұғымына, белгіленім түрлеріне қазақ тіліндегі «туынды сөз» ұғымына және сөзжасамдық тәсілдерге сипаттама беріледі; - қосымшалардың сөзжасамға және формажасамға қатысы айқындалады; - түрік тілінің ұлттық корпусындағы сөзжасамдық белгіленімдер енгізу әзірлемесіне талдау жасалады; - орыс тілінің ұлттық корпусындағы сөзжасамдық белгіленімдер енгізу әзірлемесіне талдау жасалады; - сөздерді корпуста автоматты танудың алгоритмін түзуге негіз болатын лингвистикалық нұсқаулықтар ретінде қос сөздер тізімі, біріккен сөздер тізімі мен сөздігі, әр сөз табы бойынша сөзжасамдық қосымшалар кестесі жасалады; - сөзжасамдық белгіленімдер болып табылатын қос сөздер, біріккен сөздер және қосымшалы туынды сөздерді корпуста автоматты тану әзірлемесі дайындалады. Зерттеу бағдарламасындағы ғылыми жаңалығы: зерттеудің теориялық-әдіснемелік негіздерін қазақ тілінің сөзжасам жүйесі бойынша жазылған еңбектер (Н. Оралбаева) [4], академиялық «Қазақ грамматикасы» [5], жоғары оқу орындарына арналған оқулықтар (А. Ысқақов) [6], біріккен сөздер тізімі (сөздігі) жасалған «Қазақ әдеби тілінің сөздігі», қос сөздер сөздігі (Ә. Қайдар)[7] және корпустық лингвистика мәселелері бойынша жазылған орыс және қазақ тіл біліміндегі ғылыми-теориялық еңбектер, Қолданбалы лингвистика бөлімінің «Қазақ тілінің мәтіндер корпусы» сайты және т.б. құрайды. Реализация работы компьютерной программы для автоматического словообразовательного анализа в онлайн-системе, доступной для широкой аудитории. Внедрение базы данных различных словарей (список сложных слов, словарь составных слов, список словообразовательных аффиксов) в интернет-ресурсы для массового использования. Обеспечение доступности языковых и познавательных материалов для учащихся (школьников, студентов, магистрантов, докторантов), педагогов (школьных учителей, методистов, авторов учебников, преподавателей вузов), лингвистов и ученых. - жалпы көпшілікке арналған онлайн жүйесіндегі сөзжасамдық белгіленімдер компьютерлік бағдарламасы қызметінің жүзеге асырылуы; - көпшілік пайдаланушыларға арналған әртүрлі сөздік (қос сөздер тізімі, біріккен сөздер сөздігі, сөзжасамдық қосымшалар тізімі) базасының интернет жүйесіне енгізілуі; - білім алушылар (оқушылар, студенттер, магистранттар, докторанттар), білім берушілер (мектеп мұғалімдері, әдіскерлер, оқулық авторлары, жоғары оқу орын оқытушылары), тілші мамандар мен ғалымдар т.б. арналған тілдік танымдық материалдар қолжетімділігі т.б. Автоматический словообразовательный анализ текста способствует решению множества языковых явлений в области лингвистики, упрощает проведение языковых исследований, открывает новые грани изучения языка и способствует созданию эффективных лингвистических практических инструментов. Программа автоматического словообразовательного анализа текста имеет большое значение в образовательной и методической сфере, так как способствует созданию различных методических пособий, учебников, учебных материалов, разработке лексического минимума и частотных словарей, а также повышает эффективность языковых анализов. Реализация программы автоматической обработки текста, тесно связанной с областью информатики, способствует развитию компьютерного программирования. Автоматическая обработка текста также находит применение в общественно-социальной сфере, так как способствует оживлению всех видов общественной деятельности, осуществляемых на казахском языке. - мәтінге автоматты сөзжасамдық талдауды жүзеге асыру ең алдымен лингвистика саласында көптеген тілдік құбылыстарды шешуге, тілдік зерттеулерді оңай жүргізуге, тілді жаңа қырынан тануға, тиімді лингвистикалық практикалық құралдар шығаруға ықпал етеді; - мәтінге автоматты сөзжасамдық талдау бағдарламасының жүзеге асыру оқу-әдістеме саласында әртүрлі әдістемелік құралдар, оқулықтар, оқу құралдарын шығаруға, лексикалық минимумдар жасау және осы мақсатта жиілік сөздіктер құрастыру, тілдік талдаулар тиімділігін арттыру сияқты мәселелердің шешімін табуға ықпалы мол; - мәтінді автоматты өңдеу бағдарламасын жүзеге асыру информатика саласымен тығыз байланысты болғандықтан, компьютерлік бағдарламалау ісінің дамуына мүмкіндік береді. - мәтінді автоматты өңдеу бағдарламасын жүзеге асыру қоғамдық әлеуметтік салада да өзіндік қызметке ие, өйткені ол қазақ тілі арқылы жүзеге асатын барлық қоғамдық қызмет түрлерінің жандануына жол ашады. Данный проект позволяет усовершенствовать инструменты лингвистических исследований посредством систематизации словообразовательных обозначений в корпусе текстов казахского языка. Это создает условия для более глубокого анализа словообразовательных структур и расширения сферы их применения. Также проект обладает практической и методической ценностью для изучающих казахский язык и исследователей. Бұл жоба қазақ тілі мәтіндер корпусындағы сөзжасамдық белгіленімдерді жүйелеу арқылы тіл білімінің зерттеу құралдарын жетілдіруге мүмкіндік береді. Сөзжасамдық құрылымдарды тереңірек талдауға және олардың қолдану аясын кеңейтуге жағдай жасайды. Сондай-ақ, қазақ тілін үйренушілер мен зерттеушілер үшін практикалық және әдістемелік құндылыққа ие болады. Результаты проекта могут быть широко использованы в области казахского языкознания, компьютерной лингвистики, филологии и образования. Кроме того, они могут эффективно применяться для разработки инструментов изучения языка, систем автоматического анализа текстов, лексикографии и создания цифровых ресурсов казахского языка. Жоба нәтижелері қазақ тіл білімі, компьютерлік лингвистика, филология және білім беру салаларында кеңінен қолданылуы мүмкін. Сонымен қатар, тіл үйрену құралдарын жасау, мәтіндерді автоматты талдау жүйелерін дамыту, лексикография және қазақ тілінің цифрлық ресурстарын құру бағыттарында тиімді пайдаланылады. |
||
UDC indices | ||
81’33 | ||
International classifier codes | ||
16.00.00; | ||
Readiness of the development for implementation | ||
Key words in Russian | ||
прикладная лингвистика; корпусная лингвистика; национальный корпус; метаразметка; словообразовательные обозначения; | ||
Key words in Kazakh | ||
қолданбалы лингвистика; корпустық лингвистика; ұлттық корпус; белгіленім; сөзжасамдық белгіленімдер; | ||
Head of the organization | Айтжанова Жамилa Нурматовна | Пірманова Күнсұлу Қамбарбекқызы / магистр |
Head of work | Пірманова Күнсұлу Қамбарбекқызы | / жоқ |
Native executive in charge |