Inventory number | IRN | Number of state registration | ||
---|---|---|---|---|
0324РК01085 | AP19677756-KC-24 | 0123РК00617 | ||
Document type | Terms of distribution | Availability of implementation | ||
Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
Publications | ||||
Native publications: 0 | ||||
International publications: 2 | Publications Web of science: 2 | Publications Scopus: 2 | ||
Patents | Amount of funding | Code of the program | ||
0 | 33602074 | AP19677756 | ||
Name of work | ||||
Неконтролируемое извлечение терминов: комплект моделей и наборов данных для высокотехнологических доменов и малоресурсных языков | ||||
Type of work | Source of funding | Report authors | ||
Applied | Нугуманова Алия Багдатовна | |||
0
2
1
0
|
||||
Customer | МНВО РК | |||
Information on the executing organization | ||||
Short name of the ministry (establishment) | Нет | |||
Full name of the service recipient | ||||
Товарищество с ограниченной ответственностью "Astana IT University" | ||||
Abbreviated name of the service recipient | "Astana IT University" | |||
Abstract | ||||
Неконтролируемые модели извлечения терминов Терминдерді шығарудың бақыланбайтын үлгілері Обеспечить конкурентоспособность неконтролируемых моделей извлечения терминов для высокотехнологических доменов и малоресурсных языков Жоғары техникалық аймақтар мен ресурсы аз тілдер үшін терминдерді бақылаусыз шығару үлгілерінің бәсекеге қабілеттілігін қамтамасыз ету Применялись инструменты и методы обработки естественного языка, метод неотрицательной матричной факторизации, модели семантических эмбеддингов. Табиғи тілді өңдеудің құралдары мен әдістері, теріс емес матрицалық факторизация әдісі және семантикалық кірістіру модельдері қолданылды. Сформирован набор данных Matcha на английском и казахском языках для доменов Блокчейн и Материаловедение. Адаптация аннотатора UA1 для английского языка позволила достичь производительности 39,3% в домене Блокчейн и 41,31% в домене Материаловедение. На казахских текстах показатели для UA1 составляют 26,18% и 18,97% соответственно. Производительность аннотатора UA2 на английском языке достигла 34,39% и 28,72%, а на казахских текстах — 21,95% и 20,77% для доменов Блокчейн и Материаловедение соответственно. Эти результаты демонстрируют потенциал аннотаторов UA1 и UA2 для автоматического извлечения терминов и подтверждают возможность их адаптации для работы с новыми языками. Блокчейн және Материалтану домендері үшін ағылшын және қазақ тілдерінде Matcha мәліметтер жинағы жасалды. UA1 аннотаторының ағылшын тіліне бейімделуі Блокчейн доменінде 39,3% және Материалтану доменінде 41,31% өнімділікке қол жеткізуге мүмкіндік берді. Қазақ тіліндегі мәтіндерде UA1 көрсеткіштері тиісінше 26,18% және 18,97% құрайды. Ағылшын тіліндегі UA2 аннотаторының өнімділігі Блокчейн және Материалтану домендерінде 34,39% және 28,72%-ды құрады, ал қазақ тіліндегі мәтіндерде UA2 сәйкесінше 21,95% және 20,77%-ға жетті. Бұл нәтижелер UA1 және UA2 аннотациялаушыларының терминдерді автоматты түрде алу әлеуетін және оларды жаңа тілдерге бейімдеу мүмкіндігін көрсетеді. Точность аннотаторов варьируется в зависимости от домена и составляет 28,72-41,31% на английском языке и 18,97-26,18% на казахском. Это свидетельствует о конкурентоспособности разработанных решений. Аннотаторлардың дәлдігі доменге байланысты өзгеріп, ағылшын тілінде 28,72-41,31%-ды, ал қазақ тілінде 18,97-26,18%-ды құрайды. Бұл әзірленген шешімдердің бәсекеге қабілеттілігін көрсетеді.
приложения искусственного интеллекта, интеллектуальные информационные системы, человеко-машинные интерфейсы жасанды интеллект қолданбалары, интеллектуалды ақпараттық жүйелер, адам мен машина интерфейстері |
||||
UDC indices | ||||
004.83 | ||||
International classifier codes | ||||
28.23.37; | ||||
Key words in Russian | ||||
Обработка естественного языка; Малоресурсные языки; Извлечение терминов; Трансформеры; Неконтролируемое и контролируемое обучение; | ||||
Key words in Kazakh | ||||
Табиғи тілді өңдеу; Ресурсы аз тілдер; Терминдерді шығару; Трансформерлер; Бақыланбайтын және бақыланатын оқыту; | ||||
Head of the organization | Хикметов Аскар Кусупбекович | PhD in Physical and Mathematical Sciences / - | ||
Head of work | Нугуманова Алия Багдатовна | PhD in Information Systems / - |