| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК01373 | AP23488900-KC-25 | 0124РК00846 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 4 | ||||
| International publications: 4 | Publications Web of science: 0 | Publications Scopus: 4 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 20115170 | AP23488900 | ||
| Name of work | ||||
| Автоматическое обнаружение кибербуллинга среди молодежи в социальных сетях с использованием искусственного интеллекта | ||||
| Type of work | Source of funding | Report authors | ||
| Applied | Абдрахманов Рустам Бахтиёрулы | |||
|
0
0
0
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МКС РК | |||
| Full name of the service recipient | ||||
| Международный университет туризма и гостеприимства | ||||
| Abbreviated name of the service recipient | Международный университет туризма и гостеприимства | |||
| Abstract | ||||
|
Объектом исследования являются текстовые данные на казахском языке, содержащие проявления кибербуллинга в различных формах. В частности, внимание уделяется сообщениям, комментариям и другим текстовым материалам, которые могут использоваться для выявления и анализа кибербуллинга. Также объектом являются признаки и особенности казахоязычных текстов, важные для построения эффективных моделей машинного и глубокого обучения. Исследование направлено на изучение закономерностей языка и структуры данных, которые обеспечивают точное распознавание кибербуллинга. Зерттеу нысаны – әртүрлі формадағы кибербуллинг көріністерін қамтитын қазақ тіліндегі мәтіндік деректер. Атап айтқанда, кибербуллингті анықтау және талдау үшін пайдаланылуы мүмкін хабарламаларға, түсініктемелерге және басқа да мәтіндік материалдарға назар аударылады. Сондай-ақ, тиімді машиналық және терең оқыту модельдерін құру үшін маңызды қазақ тіліндегі мәтіндердің ерекшеліктері мен сипаттамаларын қарастырады. Зерттеу кибербуллингті дәл анықтауға мүмкіндік беретін тілдік және деректер құрылымының үлгілерін түсінуге бағытталған. Целью работы является создание эффективной системы для обнаружения и классификации кибербуллинга в текстах на казахском языке. Для этого предполагается определить ключевые признаки текстовых данных и использовать их для обучения моделей машинного и глубокого обучения. Особое внимание уделяется адаптации моделей к лингвистическим и культурным особенностям казахского языка. Реализация подхода позволит повысить точность и надежность распознавания кибербуллинга в казахоязычном сегменте сети. Жұмыстың мақсаты – қазақ тіліндегі мәтіндердегі кибербуллингті анықтау және жіктеудің тиімді жүйесін құру. Ол үшін мәтіндік деректердің негізгі ерекшеліктерін анықтау және оларды машиналық және терең оқыту үлгілерін үйрету үшін пайдалану ұсынылады. Модельдерді қазақ тілінің тілдік-мәдени ерекшеліктеріне бейімдеуге ерекше көңіл бөлінеді. Бұл тәсілді жүзеге асыру интернеттің қазақтілді сегментінде кибербуллингті анықтаудың дәлдігі мен сенімділігін арттырады. Зерттеуде қазақ тіліндегі мәтіндік деректерді жинау, құрылымдау және аннотациялау әдістері қолданылып, кибербуллинг мысалдары бар мамандандырылған деректер жиынтығы жасалды. Деректерді талдау және модельдер құру үшін қазақ тілінің тілдік ерекшеліктерін ескеретін машиналық оқыту әдістері қолданылды. Тану дәлдігін арттыру үшін қазақ тіліндегі мәтіндерге бейімделген қайталанатын нейрондық желілер мен трансформерлер сияқты терең оқыту әдістері қолданылды. В работе применялись методы сбора, структурирования и аннотирования текстовых данных на казахском языке для формирования специализированного датасета с примерами кибербуллинга. Для анализа данных и построения моделей использовались методы машинного обучения с учетом лингвистических особенностей казахского языка. Для повышения точности распознавания применялись методы глубокого обучения, такие как рекуррентные нейронные сети и трансформеры, адаптированные под казахоязычные тексты. В рамках проекта были разработаны и реализованы модели глубокого обучения, специально адаптированные для анализа текстов на казахском языке. Проведена тонкая настройка современных архитектур нейронных сетей, что позволило существенно повысить качество и точность автоматического обнаружения кибербуллинга. Полученные модели продемонстрировали высокую эффективность при обработке казахоязычных данных, что подтверждает успешное выполнение поставленных задач. Қазақ тіліндегі мәтіндерді талдауға арнайы бейімделген терең оқыту модельдері әзірленіп, іске асырылды. Заманауи нейрондық желі архитектураларын жетілдіру кибербуллингті автоматты түрде анықтау сапасы мен дәлдігін айтарлықтай жақсартты. Нәтижесінде алынған модельдер қазақ тіліндегі деректерді өңдеуде жоғары өнімділік көрсетті, бұл берілген тапсырмалардың сәтті орындалғанын растады. В рамках проекта были разработаны и реализованы модели машинного и глубокого обучения, адаптированные для анализа казахоязычных текстов с целью обнаружения кибербуллинга. Для обучения и тестирования использовались корпусные данные, включающие более 50 000 текстовых сообщений и комментариев на казахском языке. С точки зрения технико-экономических характеристик, реализация проекта выполнена с использованием открытых библиотек (PyTorch, Transformers, scikit-learn), что позволило минимизировать затраты на программное обеспечение. Использование облачных вычислительных ресурсов позволило снизить стоимость экспериментов и ускорить процесс обучения. Разработанные модели отличаются высокой точностью, масштабируемостью и возможностью интеграции в системы мониторинга онлайн-контента, что обеспечивает эффективность и экономическую целесообразность внедрения решений для автоматического выявления кибербуллинга на казахском языке. Кибербуллингті анықтау үшін қазақ тіліндегі мәтіндерді талдауға бейімделген машиналық және терең оқыту модельдері әзірленіп, енгізілді. Оқыту және тестілеу үшін қазақ тіліндегі 50 000-нан астам мәтіндік хабарламалар мен түсініктемелерді қоса алғанда, корпустық деректер пайдаланылды. Техникалық-экономикалық сипаттамалар бойынша жоба ашық кітапханаларды (PyTorch, Transformers, scikit-learn) қолдану арқылы жүзеге асырылды, бұл бағдарламалық қамтамасыз ету шығындарын барынша азайтуға мүмкіндік берді. Бұлтты есептеулер ресурстарын пайдалану эксперименттердің құнын төмендетті және оқу үдерісін жылдамдатты. Әзірленген модельдер өте дәл, масштабталатын және онлайн мазмұнды бақылау жүйелеріне біріктірілуі мүмкін, бұл қазақ тілінде кибербуллингті автоматты түрде анықтау шешімдерін енгізудің тиімділігі мен үнемділігін қамтамасыз етеді. Разработанные модели машинного и глубокого обучения были успешно реализованы и протестированы на корпусе казахоязычных текстов, что подтвердило их эффективность в задаче обнаружения и классификации кибербуллинга. Созданный программный прототип демонстрирует стабильную работу и может быть использован для анализа контента в социальных сетях и онлайн-платформах. Методы отбора признаков и обучения моделей прошли апробацию. Результаты проекта могут быть интегрированы в существующие системы мониторинга и модерации текстового контента. Әзірленген машиналық және терең оқыту модельдері қазақ тіліндегі мәтіндер корпусында сәтті енгізіліп, сынақтан өткізілді, бұл олардың кибербуллингті анықтау және жіктеудегі тиімділігін растады. Нәтижесінде алынған бағдарламалық жасақтаманың прототипі тұрақты жұмыс істейтінін көрсетеді және әлеуметтік желілердегі және онлайн платформалардағы мазмұнды талдау үшін пайдаланылуы мүмкін. Белгілерді таңдау және үлгіні оқыту әдістері сынақтан өтті. Жобаның нәтижелері қолданыстағы мәтіндік мазмұнды бақылау және модерациялау жүйелеріне біріктірілуі мүмкін. Экспериментальные результаты подтвердили высокую эффективность гибридных нейросетевых моделей, что открывает перспективы внедрения предложенных решений в системы автоматической модерации цифрового контента. Эксперименттік нәтижелер гибридті нейрондық желі үлгілерінің жоғары тиімділігін растады, бұл ұсынылған шешімдерді цифрлық контентті автоматты модерациялау жүйелерінде енгізу перспективаларын ашады. Разработанные модели и методы могут быть внедрены в системы автоматического мониторинга и модерации контента на казахском языке, используемые в социальных сетях, форумах и мессенджерах. Результаты проекта могут применяться в образовательных и исследовательских организациях для изучения и профилактики кибербуллинга. Кроме того, созданные решения могут быть интегрированы в программные продукты, обеспечивающие анализ пользовательских комментариев и сообщений с целью повышения безопасности онлайн-среды. Полученные технологии также могут использоваться государственными и неправительственными структурами, занимающимися цифровой безопасностью и защитой пользователей в сети Интернет. Әзірленген модельдер мен әдістерді әлеуметтік желілерде, форумдарда және хабар алмасу қолданбаларында қолданылатын қазақ тіліндегі мазмұнды автоматты бақылау және мазмұнды модерациялау жүйелеріне енгізуге болады. Жобаның нәтижелерін білім беру және ғылыми-зерттеу мекемелерінде кибербуллингті зерттеу және алдын алу үшін қолдануға болады. Сонымен қатар, әзірленген шешімдерді онлайн қауіпсіздікті жақсарту үшін пайдаланушылардың пікірлері мен хабарламаларын талдайтын бағдарламалық өнімдерге біріктіруге болады. Алынған технологияларды онлайн режимінде цифрлық қауіпсіздік және пайдаланушыларды қорғау саласында жұмыс істейтін мемлекеттік және үкіметтік емес ұйымдар да пайдалана алады. |
||||
| UDC indices | ||||
| УДК 004.8, УДК 004.89 | ||||
| International classifier codes | ||||
| 28.23.00; | ||||
| Key words in Russian | ||||
| кибербуллинг; Искусственный интеллект; машинное обучение; глубокое обучение; обработка естественных языков; | ||||
| Key words in Kazakh | ||||
| кибербуллинг; Жасанды интеллект; Машиналық оқыту; Терең оқыту; табиғи тілдерді өңдеу; | ||||
| Head of the organization | Мырзаев Бекежан Кожабекович | - / - | ||
| Head of work | Абдрахманов Рустам Бахтиёрулы | Кандидат технических наук / доцент | ||