Inventory number IRN Number of state registration
0225РК00250 AP19677756-OT-25 0123РК00617
Document type Terms of distribution Availability of implementation
Заключительный Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 2 Publications Web of science: 0 Publications Scopus: 1
Number of books Appendicies Sources
1 3 85
Total number of pages Patents Illustrations
99 0 33
Amount of funding Code of the program Table
34047254 AP19677756 28
Name of work
Неконтролируемое извлечение терминов: комплект моделей и наборов данных для высокотехнологических доменов и малоресурсных языков
Report title
Type of work Source of funding The product offerred for implementation
Applied Модель
Report authors
Нугуманова Алия Багдатовна , Байбурин Ержан Мухаметкалиевич , Мансурова Айғаным Қанатқызы , Алимжанов Ермек Серикович , Мансурова Айгерім Қанатқызы , Альжанов Алмас Миржанович , Калыкулова Алия Муратовна ,
0
0
1
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
"Astana IT University"
Abbreviated name of the service recipient "Astana IT University"
Abstract

Неконтролируемые модели извлечения терминов

Терминдерді шығарудың бақыланбайтын үлгілері

Обеспечить конкурентоспособность неконтролируемых моделей извлечения терминов для высокотехнологических доменов и малоресурсных языков

Жоғары техникалық аймақтар мен ресурсы аз тілдер үшін терминдерді бақылаусыз шығару үлгілерінің бәсекеге қабілеттілігін қамтамасыз ету

Применялись инструменты и методы обработки естественного языка, метод неотрицательной матричной факторизации, модели семантических эмбеддингов

Табиғи тілді өңдеудің құралдары мен әдістері, теріс емес матрицалық факторизация әдісі және семантикалық кірістіру модельдері қолданылды.

- Разработаны эффективные неконтролируемые аннотаторы UA1 и UA2. - Получены оценки производительности аннотаторов UA1 и UA2 на наборах данных ACTER и ACL RD-TEC 2.0. - Разработан эффективный оптимизатор корпуса текстов. - Создан набор данных Matcha в доменах "Материаловедение" и "Блокчейн" на английском и казахском языках. - Оценена производительность аннотаторов UA1 и UA2 на тестовом подмножестве набора данных Matcha. - Разработан новый метод извлечения терминов T-Extractor. - Созданы графы знаний в доменах “Материаловедение” и “Блокчейн”. Научная новизна проекта заключается в разработке новых методов автоматического аннотирования и оптимизации текстовых корпусов, позволяющих компенсировать нехватку обучающих данных и повысить эффективность контролируемых моделей извлечения терминов на английском и казахском языках в доменах “Материаловедение” и “Блокчейн”.

- UA1 және UA2 атты тиімді бақыланбайтын аннотациялаушылар әзірленді. - UA1 және UA2 аннотациялаушыларының өнімділігі ACTER және ACL RD-TEC 2.0 деректер жинақтарында бағаланды. -Мәтін корпустарын тиімді оңтайландырушы әзірленді. - «Материалтану» және «Блокчейн» домендерінде ағылшын және қазақ тілдерінде Matcha атты деректер жинағы құрылды. - UA1 және UA2 аннотациялаушыларының өнімділігі Matcha деректер жинағының тестілік ішкі жиынында бағаланды. - Терминдерді алу бойынша жаңа T-Extractor әдісі жасалды. - «Материалтану» және «Блокчейн» домендерінде білім графтары құрылды. Жобаның ғылыми жаңалығы ағылшын және қазақ тілдерінде «Материалтану» мен «Блокчейн» салаларында терминдерді бақылаулы түрде алу үлгілерінің тиімділігін арттыруға және оқыту деректерінің жетіспеушілігін өтеуге мүмкіндік беретін мәтін корпустарын автоматты аннотациялау мен оңтайландырудың жаңа әдістерін әзірлеуден тұрады.

Показатель F1 аннотаторов варьируется в зависимости от домена и составляет 39–51,7% на английском языке и 28,43–38,36% на казахском. Это свидетельствует о конкурентоспособности разработанных решений.

Аннотаторлдардың F1 көрсеткіші доменге байланысты өзгеріп, ағылшын тілінде 39–51,7%-ды, ал қазақ тілінде 28,43–38,36%-ды құрайды. Бұл әзірленген шешімдердің бәсекеге қабілеттілігін көрсетеді.

не внедрена

жүзеге асырылмаған

высокая, заменяет ручную работу на 100%

жоғары, қол жұмысын 100% алмастырады

приложения искусственного интеллекта, интеллектуальные информационные системы, человеко-машинные интерфейсы

жасанды интеллект қолданбалары, интеллектуалды ақпараттық жүйелер, адам мен машина интерфейстері

UDC indices
004.82
International classifier codes
28.23.13;
Readiness of the development for implementation
Key words in Russian
Обработка естественного языка; Малоресурсные языки; Извлечение терминов; Трансформеры; Неконтролируемое и контролируемое обучение;
Key words in Kazakh
Табиғи тілді өңдеу; Ресурсы аз тілдер; Терминдерді шығару; Трансформерлер; Бақыланбайтын және бақыланатын оқыту;
Head of the organization Ахметов Альтаир Амангельдиевич Кандидат юридических наук /
Head of work Нугуманова Алия Багдатовна PhD in Information Systems / -
Native executive in charge