Inventory number IRN Number of state registration
0321РК00038 AP09259309-KC-21 0121РК00404
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 1
International publications: 2 Publications Web of science: 0 Publications Scopus: 2
Patents Amount of funding Code of the program
0 18437921 AP09259309
Name of work
Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода
Type of work Source of funding Report authors
Applied Мамырбаев Оркен Жумажанович
0
0
1
2
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.

Қазақ, орыс және ағылшын тілдеріндегі мәтіндік ақпараттарды онтологиялық тәсіл негізінде автоматты түрде іздеу және талдау модельдері мен әдістері.

Разработка информационной модели системы автоматической идентификации противо-правных текстов казахского, русского и английского языков в Интернет сетях. Разраба-тываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.

Интернет желілерде қазақ, орыс және ағылшын тілдерінің заңсыз мәтіндерін автоматты түрде сәйкестендіру жүйесінің ақпараттық моделін әзірлеу. Әзірленіп жатқан ақпараттық модельге «Құқыққа қайшы Интернет-контент» онтологиясы, мәтіндердің мамандандырылған корпустары және экстремистік және құқыққа қайшы мәтіндерді іздеу және талдау бағдарламалық инструментарийі кіреді.

Математические модели, алгоритмы и методы автоматического выявления фактической противоправной информации в текстовых массивах

Мәтіндік массивтердегі нақты құқыққа қарсы ақпаратты автоматты түрде анықтау әдістері және алгоритмдері, математикалық модельдері

Полученные результаты: 1) базовый терминологический тезаурус противоправной лексики казахского, русского и английского языков, представляющий мета-онтологию ограниченного размера и структуры; 2) расширенные корпуса криминально значащих текстов групповых онлайн сообществ обсуждения (СМС); 3) метод автоматической генерации онтологии, на базе имеющихся корпусов и разработанного подхода излечения событий из текста OdEE. Новизна: 1) новый интегрированный подход смыслового анализа текстового кон-тента Интернета, базирующийся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области; 2) метод автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извле-чения событий, их типов, триггеров, аргументов и ролей аргументов из неструктуриро-ванных документов.

Алынған нәтижелер: 1) шектеулі көлемдегі және құрылымдағы мета-онтологияны білдіретін қазақ, орыс және ағылшын тілдерінің құқыққа қарсы лексикасының базалық терминологиялық тезаурусы; 2) талқылаудың топтық онлайн қоғамдастықтарының кри-миналдық маңызы бар мәтіндерінің кеңейтілген корпустары (СМС); 3) қолда бар корпу-стар базасында онтологияны автоматты түрде генерациялау әдісі және OdEE мәтінінен компоненттерді алудың әзірленген тәсілі. Жаңалық: 1) пәндік саланың онтологиясынан алынған машиналық оқыту әдістерін бір мезгілде пайдалануға және саралау белгілерін күшейтуге негізделген Интернеттің мәтіндік контентін мағыналық талдаудың жаңа интеграцияланған тәсілі; 2) оқиғаларды, олардың түрлерін, триггерлерді, аргументтерді және құрылымданбаған құжаттардан ар-гументтер рөлдерін шығарудың логикалық-лингвистикалық моделі негізінде «Құқыққа қарсы Интернет-контент» лингвистикалық онтологиясын автоматты түрде генерациялау әдісі.

созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.

жасалған жоғары мамандандырылған «Құқыққа қарсы Интернет-контент» онтологиясы кейінгі әзірлемелердің ғылыми әлеуетін арттыратын қазақ тілінің жаңа лингвистикалық ресурсын ұсынады.

на стадии разработки

әзірлеу сатысында.

реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках

осы жобаны іске асыру қазақ, орыс және ағылшын тілдеріндегі мәтіндерді мағыналық өңдеудің тиімділігін арттыруға мүмкіндік береді

Правоохранительные и специальные государственные организации; социальные службы; учебные заведения и другие государственные учреждения.

Құқық қорғау және арнаулы мемлекеттік органдар; әлеуметтік қызметтер; оқу орындары және басқа да мемлекеттік мекемелер.

UDC indices
004.89
International classifier codes
28.23.29; 28.23.17;
Key words in Russian
компьютерная лингвистика; лингвистический корпус; информационный поиск; машинное обучение; онтологический подход;
Key words in Kazakh
компьютерлік лингвистика; лингвистикалық корпус; ақпараттық іздеу; машиналық оқыту; онтологиялық тәсіл;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Мамырбаев Оркен Жумажанович PhD / Профессор