Inventory number IRN Number of state registration
0325РК01374 AP26103909-KC-25 0125РК00564
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 29999259 AP26103909
Name of work
Корпус фольклорных текстов: лингвистические и ІТ решения в цифровизации казахского языка
Type of work Source of funding Report authors
Fundamental Сарекенова Қарлығаш Құрманғалиқызы
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
Некоммерческое акционерное общество "Евразийский Национальный университет имени Л.Н. Гумилева"
Abbreviated name of the service recipient НАО "ЕНУ им.Л.Н.Гумилева"
Abstract

тексты фольклора

фольклор мәтіндері

разработка корпуса казахских фольклорных текстов, внедрение национального языкового наследия в цифровое пространство с применением лингвистического анализа текстов и информационных технологий

қазақ фольклорлық мәтіндер корпусын әзірлеу, мәтіндерді лингвистикалық талдау және ақпараттық технологиялар қолдану арқылы ұлттық тілдік мұраны цифрлық кеңістікке енгізу

Для достижения цели исследовательского проекта были использованы следующие методы, позволяющие создать корпус и проанализировать языковые особенности фольклора с учетом динамических структур языка, междисциплинарных и межкультурных связей: методы корпусного анализа, количественные (численные) и статистические методы, наблюдение и лингвистическое описание, машинное обучение и обработка естественного языка, методы с использованием IT-инструментов и цифровых платформ.

Зерттеу жобасының мақсатына жетуі үшін тілдің динамикалық құрылымдарын, пәнаралық, мәдениетаралық байланыстарды есепке ала отырып, корпус құру мен фольклордағы тілдік ерекшеліктерді талдауды мүмкін ететін төмендегідей әдістер қолданskfls: корпустық талдау әдістері, квантативті (сандық) және статистикалық әдіс, бақылау және лингвистикалық сипаттау, машинаны үйрету мен табиғи тілді өңдеу, ІТ құралдары мен цифрлық платформаларды қолдану әдістері.

Новизна исследования заключается в том, что среди корпусных текстов казахского языка корпус фольклорных текстов ранее не создавался и не изучался с позиций корпусной лингвистики. Данный проект вносит существенный вклад в развитие лингвистических и информационно-технологических основ корпуса фольклорных текстов, его использование в научных исследованиях и создание цифровых языковых ресурсов. Реализация разработки корпуса фольклорных текстов, прежде всего, окажет положительное влияние на подготовку квалифицированных кадров в области корпусной лингвистики и корпусной фольклористики, эффективную организацию будущих текстологических исследований, интеграцию научных исследований филологов и IT-специалистов, интеграцию и оптимизацию фундаментальных и прикладных исследований.

Зерттеудің жаңашылдығы қазақ тілінің корпустық мәтіндері ішінде фольклорлық мәтіндер корпусы бұрын соңды жасақталып, корпустық лингвистика тұрғысынан зерттеуге алынбауында. Бұл жоба фольклорлық мәтіндер корпусының лингвистикалық әрі ақпараттық технологиялық негіздерін әзірлеуге, оны ғылыми-зерттеулерде қолдануға және цифрлық тілдік ресурстарды дамытуға өзіндік үлес қосады. Фольклорлық мәтіндер корпусын әзірлеуді жүзеге асыру алдымен, корпустық лингвистика, корпустық фольклортану бағытындағы білікті кадрларды даярлауға, болашақтағы мәтіндік зерттеулерді тиімді ұйымдастыруға, филолог мамандар мен ІТ мамандардың ғылыми ізденістерін кіріктіруге, іргелі және қолданбалы зерттеулерді интеграциялап, оңтайландыруға оң ықпал етеді.

Тема проекта соответствует содержанию Государственной программы «Информационный Казахстан», принятой в связи с бурным развитием корпусных исследований в стране, информационно-технологическими и социальными интересами в Казахстане, и Заключением о развитии языковой политики в Республике Казахстан на 2023-2029 годы (главы 5, 6).

Жоба тақырыбы еліміздегі корпустық зерттеулердің қарқынды дамуына, Қазақстанда ақпараттық-технологиялық, әлеуметтік мүддесіне байланысты қабылданған «Ақпараттық Қазақстан» мемлекеттік бағдарламасының, Қазақстан Республикасында тіл саясатын дамытудың 2023-2029 жылдарға арналған тұжырымдасы (5,6-тараулар) мазмұнына сәйкес.

В 2025 году не внедрено.

2025 жылы енгізілген жоқ.

Проект реализуется в контексте взаимосвязи языкознания, фольклористики и информационных технологий, интегрируя методы и подходы этих наук. Значимость проекта заключается в возможности использования корпуса фольклорных текстов для расширения сферы применения государственного языка, его развития и популяризации, а также в качестве ценного источника и информационного механизма, демонстрирующего богатство и художественность казахского языка. Данный корпус может быть использован в качестве ресурса для автоматического распознавания, обработки и искусственного интеллекта для развития казахского языка в сфере информационных технологий.

Жоба лингвистика, фольклортану және ІТ ғылым салаларының өзара сабақтастығында, осы ғылымдардың әдіс-тәсілдерін кіріктіре отырып орындалады. Жобаның маңыздылығы фольклорлық мәтіндер корпусын мемлекеттік тілдің қолданыс аясын кеңейту, тілді дамыту мен насихаттауда және қазақ тілінің байлығы мен көркемдігін көрсететін құнды дереккөз, ақпараттық тетік ретінде қолданыс табу мүмкіндігінде. Қазақ тілін ІТ саласында дамыту үшін бұл корпусты тілді автоматты тану, өңдеу, жасанды интеллектіге ресурс ретінде қолдануға болады.

Корпус служит справочным, текстовым ресурсом в направлении научно-исследовательских, образовательных, повышения популярности казахского языка. Корпус предполагает изучение фольклорных текстов из одного источника, сравнительный анализ динамики языка с эффективными поисковыми функциями, упрощение составления словарей, учебных материалов, планирует сделать их общедоступными.

Корпус ғылыми-зерттеу, білім беру, қазақ тілінің танымалдылығын арттыру бағытында анықтамалық, мәтіндік ресурс ретінде қызмет етеді. Корпус фольклорлық мәтіндерді бір көзден зерттеуді, тиімді іздеу функцияларымен тілдің динамикасын салыстыра талдауды, сөздіктерді, оқу материалдарын құрастыруды жеңілдетуді көздейді, көпшілікке қолжетімді етуді жоспарлайды.

UDC indices
801.81
International classifier codes
17.00.00; 16.31.21;
Key words in Russian
фольклорный текст; корпусная лингвистика; ІТ лингвистика; автоматическая обработка; частота слов; цифровизация;
Key words in Kazakh
фольклорлық мәтін; корпустық лингвистика; ІТ лингвистика; автоматты өңдеу; сөз жиілігі; цифрландыру;
Head of the organization Сыдыков Ерлан Батташевич доктор исторических наук / Профессор
Head of work Сарекенова Қарлығаш Құрманғалиқызы Кандидат филологических наук / қауымдастырылған профессор