Inventory number IRN Number of state registration
0322РК00037 AP09259309-KC-22 0121РК00404
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 3
International publications: 3 Publications Web of science: 0 Publications Scopus: 3
Patents Amount of funding Code of the program
0 22798087.58 AP09259309
Name of work
Информационная модель и программный инструментарий системы автоматического поиска и анализа многоязычного противоправного веб-контента на базе онтологического подхода
Type of work Source of funding Report authors
Applied Мамырбаев Оркен Жумажанович
0
0
1
2
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) МНВО РК
Full name of the service recipient
РГП на ПХВ "Институт информационных и вычислительных технологий" МОН РК
Abbreviated name of the service recipient ИИВТ
Abstract

Модели и методы автоматического поиска и анализа противоправной текстовой информации казахского, русского и английского языков на базе онтологического подхода.

Қазақ, орыс және ағылшын тілдеріндегі мәтіндік ақпараттарды онтологиялық тәсіл негізінде автоматты түрде іздеу және талдау модельдері мен әдістері.

Разработка информационной модели системы автоматической идентификации противоправных текстов казахского, русского и английского языков в Интернет сетях. Разрабатываемая информационная модель включает онтологию «Противоправный Интернет-контент», специализированные корпуса текстов и программный инструментарий поиска и анализа экстремистских и противоправных текстов.

Интернет желілерде қазақ, орыс және ағылшын тілдерінің құқыққа қайшы мәтіндерін автоматты түрде сәйкестендіру жүйесінің ақпараттық моделін әзірлеу. Әзірленіп жатқан ақпараттық модельге «Құқыққа қайшы Интернет-контент» онтологиясы, мәтіндердің мамандандырылған корпустары және экстремистік және құқыққа қайшы мәтіндерді іздеу және талдау бағдарламалық инструментарийі кіреді.

Математические модели, алгоритмы и методы автоматического выявления фактической противоправной информации в текстовых массивах

Мәтіндік массивтердегі нақты құқыққа қайшы ақпаратты автоматты түрде анықтау әдістері және алгоритмдері, математикалық модельдері

Полученные результаты: 1) Завершена работа по расширению и дополнению созданных корпусов криминально значащих текстов Computer-Mediated Communication казахского, русского и английского языков. Осуществлена семантическая разметка корпусов; 2) Разработан метод, на базе которого осуществлена автоматическая генерация онтологии «Противоправный интернет- контент» для казахского, русского и английского языков; 3) Разработан метод автоматической семантической разметки динамически наполняемых корпусов казахского, русского и английского языков, акцентированный на выделении лингвистических и лексических маркеров специализированного противоправного контента. Осуществлена автоматическая семантическая разметка корпусов; 4) Разработана интегрированая технология поиска и анализа противоправного контента в социальных сетях и других Интернет источниках на казахском, русском и английском языках, включающей методы машинного обучения и онтологический подход. Новизна: 1) новый интегрированный подход смыслового анализа текстового контента Интернета, базирующийся на одновременном использовании методов машинного обучения и усиливающих дифференцирующих признаков, полученных из онтологии предметной области; 2) метод автоматической генерации лингвистической онтологии «Противоправный Интернет-контент» на базе с логико-лингвистической модели извлечения событий, их типов, триггеров, аргументов и ролей аргументов из неструктурированных документов.

Алынған нәтижелер: 1) Қазақ, орыс және ағылшын тілдеріндегі Computer-Mediated Communication криминалдық маңызы бар мәтіндердің құрылған корпустарын кеңейту және толықтыру жөніндегі жұмыс аяқталды. Корпустарды семантикалық белгілеу жүзеге асырылды; 2) Қазақ, орыс және ағылшын тілдері үшін "Құқыққа қайшы интернет-контент" онтологиясын автоматты түрде генерациялау жүзеге асырылған әдіс әзірленді; 3) Мамандандырылған құқыққа қайшы контенттің лингвистикалық және лексикалық маркерлерін бөліп көрсетуге баса назар аудара отырып, қазақ, орыс және ағылшын тілдерінің динамикалық толтырылатын корпустарын автоматты семантикалық белгілеу әдісі әзірленді. Корпустарды автоматты семантикалық белгілеу жүзеге асырылды; 4) Машиналық оқыту әдістері мен онтологиялық тәсілді қамтитын әлеуметтік желілерде және басқа да Интернет көздерінде қазақ, орыс және ағылшын тілдерінде құқыққа қайшы контентті іздеудің және талдаудың интеграцияланған технологиясы әзірленді. Жаңалық: 1) пәндік саланың онтологиясынан алынған машиналық оқыту әдістерін және күшейтетін саралау белгілерін бір мезгілде пайдалануға негізделген Интернеттің мәтіндік құрамын семантикалық талдаудың жаңа интеграцияланған тәсілі; 2) оқиғаларды, олардың түрлерін, триггерлерін алудың логикалық-лингвистикалық моделі негізінде "Құқыққа қайшы Интернет-контент" лингвистикалық онтологиясын автоматты түрде генерациялау әдісі, құрылымдалмаған құжаттардан алынған дәлелдер мен аргументтердің рөлдері.

Созданная узкоспециализированная онтология «Противоправный Интернет-контент» представляет новый лингвистический ресурс казахского языка, повышающий научный потенциал последующих разработок.

Жасалған жоғары мамандандырылған «Құқыққа қайшы Интернет-контент» онтологиясы кейінгі әзірлемелердің ғылыми әлеуетін арттыратын қазақ тілінің жаңа лингвистикалық ресурсын ұсынады.

На стадии разработки

Әзірлеу сатысында

Реализация данного проекта позволяет повысить эффективность смысловой обработки текстов на казахском, русском и английском языках

Осы жобаны іске асыру қазақ, орыс және ағылшын тілдеріндегі мәтіндерді мағыналық өңдеудің тиімділігін арттыруға мүмкіндік береді

Правоохранительные и специальные государственные организации; социальные службы; учебные заведения и другие государственные учреждения.

Құқық қорғау және арнаулы мемлекеттік органдар; әлеуметтік қызметтер; оқу орындары және басқа да мемлекеттік мекемелер.

UDC indices
004.89
International classifier codes
28.23.29; 28.23.17;
Key words in Russian
компьютерная лингвистика; лингвистический корпус; информационный поиск; машинное обучение; онтологический подход;
Key words in Kazakh
компьютерлік лингвистика; лингвистикалық корпус; ақпараттық іздеу; машиналық оқыту; онтологиялық тәсіл;
Head of the organization Мутанов Галимкаир Мутанович Доктор технических наук / профессор
Head of work Мамырбаев Оркен Жумажанович PhD / Ассоциированный профессор