| Inventory number | IRN | Number of state registration |
|---|---|---|
| 0225РК00250 | AP19677756-OT-25 | 0123РК00617 |
| Document type | Terms of distribution | Availability of implementation |
| Заключительный | Gratis | Number of implementation: 0 Not implemented |
| Publications | ||
| Native publications: 0 | ||
| International publications: 2 | Publications Web of science: 0 | Publications Scopus: 1 |
| Number of books | Appendicies | Sources |
| 1 | 3 | 85 |
| Total number of pages | Patents | Illustrations |
| 99 | 0 | 33 |
| Amount of funding | Code of the program | Table |
| 34047254 | AP19677756 | 28 |
| Name of work | ||
| Неконтролируемое извлечение терминов: комплект моделей и наборов данных для высокотехнологических доменов и малоресурсных языков | ||
| Report title | ||
| Type of work | Source of funding | The product offerred for implementation |
| Applied | Модель | |
| Report authors | ||
| Нугуманова Алия Багдатовна , Байбурин Ержан Мухаметкалиевич , Мансурова Айғаным Қанатқызы , Алимжанов Ермек Серикович , Мансурова Айгерім Қанатқызы , Альжанов Алмас Миржанович , Калыкулова Алия Муратовна , | ||
|
0
0
1
0
|
||
| Customer | МНВО РК | |
| Information on the executing organization | ||
| Short name of the ministry (establishment) | Нет | |
| Full name of the service recipient | ||
| "Astana IT University" | ||
| Abbreviated name of the service recipient | "Astana IT University" | |
| Abstract | ||
|
Неконтролируемые модели извлечения терминов Терминдерді шығарудың бақыланбайтын үлгілері Обеспечить конкурентоспособность неконтролируемых моделей извлечения терминов для высокотехнологических доменов и малоресурсных языков Жоғары техникалық аймақтар мен ресурсы аз тілдер үшін терминдерді бақылаусыз шығару үлгілерінің бәсекеге қабілеттілігін қамтамасыз ету Применялись инструменты и методы обработки естественного языка, метод неотрицательной матричной факторизации, модели семантических эмбеддингов Табиғи тілді өңдеудің құралдары мен әдістері, теріс емес матрицалық факторизация әдісі және семантикалық кірістіру модельдері қолданылды. - Разработаны эффективные неконтролируемые аннотаторы UA1 и UA2. - Получены оценки производительности аннотаторов UA1 и UA2 на наборах данных ACTER и ACL RD-TEC 2.0. - Разработан эффективный оптимизатор корпуса текстов. - Создан набор данных Matcha в доменах "Материаловедение" и "Блокчейн" на английском и казахском языках. - Оценена производительность аннотаторов UA1 и UA2 на тестовом подмножестве набора данных Matcha. - Разработан новый метод извлечения терминов T-Extractor. - Созданы графы знаний в доменах “Материаловедение” и “Блокчейн”. Научная новизна проекта заключается в разработке новых методов автоматического аннотирования и оптимизации текстовых корпусов, позволяющих компенсировать нехватку обучающих данных и повысить эффективность контролируемых моделей извлечения терминов на английском и казахском языках в доменах “Материаловедение” и “Блокчейн”. - UA1 және UA2 атты тиімді бақыланбайтын аннотациялаушылар әзірленді. - UA1 және UA2 аннотациялаушыларының өнімділігі ACTER және ACL RD-TEC 2.0 деректер жинақтарында бағаланды. -Мәтін корпустарын тиімді оңтайландырушы әзірленді. - «Материалтану» және «Блокчейн» домендерінде ағылшын және қазақ тілдерінде Matcha атты деректер жинағы құрылды. - UA1 және UA2 аннотациялаушыларының өнімділігі Matcha деректер жинағының тестілік ішкі жиынында бағаланды. - Терминдерді алу бойынша жаңа T-Extractor әдісі жасалды. - «Материалтану» және «Блокчейн» домендерінде білім графтары құрылды. Жобаның ғылыми жаңалығы ағылшын және қазақ тілдерінде «Материалтану» мен «Блокчейн» салаларында терминдерді бақылаулы түрде алу үлгілерінің тиімділігін арттыруға және оқыту деректерінің жетіспеушілігін өтеуге мүмкіндік беретін мәтін корпустарын автоматты аннотациялау мен оңтайландырудың жаңа әдістерін әзірлеуден тұрады. Показатель F1 аннотаторов варьируется в зависимости от домена и составляет 39–51,7% на английском языке и 28,43–38,36% на казахском. Это свидетельствует о конкурентоспособности разработанных решений. Аннотаторлдардың F1 көрсеткіші доменге байланысты өзгеріп, ағылшын тілінде 39–51,7%-ды, ал қазақ тілінде 28,43–38,36%-ды құрайды. Бұл әзірленген шешімдердің бәсекеге қабілеттілігін көрсетеді. не внедрена жүзеге асырылмаған высокая, заменяет ручную работу на 100% жоғары, қол жұмысын 100% алмастырады приложения искусственного интеллекта, интеллектуальные информационные системы, человеко-машинные интерфейсы жасанды интеллект қолданбалары, интеллектуалды ақпараттық жүйелер, адам мен машина интерфейстері |
||
| UDC indices | ||
| 004.82 | ||
| International classifier codes | ||
| 28.23.13; | ||
| Readiness of the development for implementation | ||
| Key words in Russian | ||
| Обработка естественного языка; Малоресурсные языки; Извлечение терминов; Трансформеры; Неконтролируемое и контролируемое обучение; | ||
| Key words in Kazakh | ||
| Табиғи тілді өңдеу; Ресурсы аз тілдер; Терминдерді шығару; Трансформерлер; Бақыланбайтын және бақыланатын оқыту; | ||
| Head of the organization | Ахметов Альтаир Амангельдиевич | Кандидат юридических наук / |
| Head of work | Нугуманова Алия Багдатовна | PhD in Information Systems / - |
| Native executive in charge | ||