Inventory number IRN Number of state registration
0324РК00054 AP19174298-KC-24 0123РК00176
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 4 Publications Web of science: 1 Publications Scopus: 3
Patents Amount of funding Code of the program
0 7849924 AP19174298
Name of work
Реализация системы многоуровневого языкового моделирования для языка со сложной морфологической структурой
Type of work Source of funding Report authors
Applied Оралбекова Дина Орымбаевна
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Модели и методы многоуровневого языкового моделирования для морфологически сложного языка

Морфологиялық күрделі тіл үшін көпдеңгейлі тілді модельдеудің моделдері мен әдістері

Цель проекта заключается в уменьшении проблемы с разреженностью данных, вызванные языковой природой MCL, и улучшение способности модели к обобщению в плане разработки оптимизированной иерархической многоуровневой языковой модели языка со сложной структурой

Жобаның мақсаты морфологиялық күрделі тілдің тілдік табиғатынан туындайтын деректердің сирек мәселелерін азайту және күрделі құрылымы бар тіл үшін оңтайландырылған иерархиялық деңгейлі тіл үлгісін жасау тұрғысынан модельдің жалпылау қабілетін жақсарту болып табылады.

Обработка естественного языка, машинное обучение, глубокое обучение

Табиғи тілді өңдеу, машиналық оқыту, терең оқыту

Новизна этого проекта заключается в том, чтобы вместо того, чтобы моделировать морфологически сложные языки только на уровне предложений, в дополнение к информации уровня предложения, включает в языковую модель информацию о внутренней структуре слов в сочетании, что позволит решить проблемы высокой разреженностью данных и низкой способности модели к обобщению. Основное внимание в исследовании будет уделяться не только эффективному представлению слова, но и, что более важно, интеграционному подходу, основанному на репрезентативном обучении. В результате будет разработана иерархическая многоуровневая языковая модель для языков, имеющих сложную морфологическую структуру. В результате применение данной модели позволит решить вышеприведенные проблемы и дает возможность использовать разработанные алгоритмы к другим задачам NLP для улучшения их производительности. Например, как распознавание и синтез речи, машинный перевод.

Бұл жобаның жаңалығы - морфологиялық күрделі тілдерді тек сөйлем деңгейінде модельдеудің орнына, сөйлем деңгейіндегі ақпараттан басқа, тілдік модельге сөздердің ішкі құрылымы туралы ақпаратты біріктіріп, деректердің жоғары сиректігі мен модельдің жалпылау қабілетінің төмендігі мәселелерін шешуге мүмкіндік береді. Зерттеудің негізгі бағыты сөзді тиімді ұсынуға ғана емес, сонымен қатар, ең бастысы, репрезентативті оқытуға негізделген интеграциялық тәсілге де бағытталған. Нәтижесінде күрделі морфологиялық құрылымы бар тілдер үшін иерархиялық көп деңгейлі лингвистикалық модель жасалады. Нәтижесінде, осы модельді қолдану жоғарыда аталған мәселелерді шешуге мүмкіндік береді және олардың өнімділігін жақсарту үшін басқа NLP тапсырмаларына әзірленген алгоритмдерді қолдануға мүмкіндік береді. Мысалы, сөйлеуді тану және синтездеу, машиналық аударма.

Основные конструктивные и технико-экономические показатели заключается в повышении качества и увеличении степени адаптации современных технологий автоматической обработки текстов к языкам со сложной структурой. Интенсификация использования этих технологий позволит расширить качество информационно-поисковых услуг для рядового пользователя. Как следствие, будет происходить большее внедрение таких технологий в повседневную жизнь людей, что приведет к улучшению их качества жизни, так как эффективность обработки письменного и устного казахского языка существенно вырастет.

Негізгі конструкторлық және техникалық-экономикалық көрсеткіштер мәтінді автоматты өңдеудің заманауи технологияларының күрделі құрылымы бар тілдерге бейімделу дәрежесін және сапасын арттыру болып табылады. Бұл технологияларды қолдануды белсендіру қарапайым пайдаланушыға арналған ақпаратты іздеу қызметінің сапасын кеңейтеді. Нәтижесінде мұндай технологияларды адамдардың күнделікті өміріне көбірек енгізу жүзеге асырылады, бұл олардың өмір сүру сапасын жақсартуға әкеледі, өйткені жазбаша және ауызша қазақ тілін өңдеудің тиімділігі айтарлықтай артады.

Не внедрено

Енгізілмеген

Реализованные алгоритмы будут обеспечивать такие функции, как иерархическая многоуровневая модель морфологически сложного языка и модель обучения представлений на основе морфем, делая модель морфологически сложного языка способной к низкой разреженности данных и высокой способности к обобщению. Эти алгоритмы будут работать на больших неразмеченных наборах данных, кроме того, они могут быть применены к другим морфологически сложным языкам и другим задачам NLP.

Іске асырылатын алгоритмдер морфологиялық күрделі тілдің иерархиялық көп деңгейлі моделі және морфема негізіндегі оқыту моделі сияқты мүмкіндіктерді қамтамасыз етеді, бұл морфологиялық күрделі тіл моделін деректердің төмен сиректігі мен жоғары жалпылау қабілетіне қабілетті етеді. Бұл алгоритмдер үлкен таңбаланбаған деректер жиынында жұмыс істейді және басқа морфологиялық күрделі тілдерге және басқа NLP тапсырмаларына қолданылуы мүмкін.

Распознавание и синтез речи, машинный перевод, робототехника

Сөйлеуді тану және синтездеу, машиналық аударма, робототехника

UDC indices
004.89
International classifier codes
28.23.29;
Key words in Russian
языковая модель; морфологически сложный язык; нейронные сети; встраивание морфем/слов; прикладная лингвистика;
Key words in Kazakh
тілдік модель; морфологиялық күрделі тіл; нейрондық желілер; морфемаларды/сөздерді кірістіру; қолданбалы лингвистика;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Оралбекова Дина Орымбаевна Phd / Ассоциированный профессор