| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00321 | AP26195591-KC-25 | 0125РК00556 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 0 | ||||
| International publications: 1 | Publications Web of science: 0 | Publications Scopus: 1 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 39982264 | AP26195591 | ||
| Name of work | ||||
| Разработка комплексной системы обнаружение фейковых новостей в социальных сетях с учетом казахского языка | ||||
| Type of work | Source of funding | Report authors | ||
| Fundamental | Самбетбаева Мадина Аралбаевна | |||
|
0
1
3
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| Частное учреждение «Международный научный комплекс «Астана» | ||||
| Abbreviated name of the service recipient | ЧУ "МНК "Астана" | |||
| Abstract | ||||
|
Многоязычный (казахский/русский) текстовый контент новостного и социально-сетевого сегментов Казахстана: посты, заголовки, подписи и комментарии, содержащие как дезинформацию/фейки, так и достоверные сообщения, с привязкой к источнику, времени публикации и контексту распространения. Қазақстанның жаңалықтар және әлеуметтік-желілік сегменттерінің көп тілді (қазақ/орыс) мәтіндік мазмұны: жалған ақпарат/фейктер, сондай-ақ шынайы хабарламалар бар, жарияланым көзіне, уақытына және таралу мәнмәтініне байланысты хабарламалар, тақырыптар, қолтаңбалар мен түсініктемелер. Сформировать научно-методическую базу проекта: провести системный обзор и исследование методов NLP/ML для детекции фейков в RU/KZ-среде, собрать и аннотировать данные из социальных сетей, подготовить воспроизводимые обучающие/тестовые выборки и регламент оценивания - как основу для последующего разработки и оптимизации моделей в 2026–2027 годах. Жобаның ғылыми-әдістемелік базасын қалыптастыру: RU / KZ-ортадағы фейктерді анықтау үшін NLP/ML әдістеріне жүйелі шолу және зерттеу жүргізу, әлеуметтік желілерден деректерді жинау және аннотациялау, 2026-2027 жылдары модельдерді кейіннен әзірлеу және оңтайландыру үшін негіз ретінде қайталанатын оқыту/тест үлгілерін және бағалау регламентін дайындау. В 2025 году мы собрали открытые данные из соцсетей и медиа, провели очистку и нормализацию (дедупликация, выравнивание метаданных, учёт агглютинативности и код-свитчинга), аннотировали корпус по многоуровневой схеме в Label Studio с контролем качества (Cohen’s κ≈0,72–0,81), сформировали воспроизводимые train/dev/test-выборки и запустили базовые и трансформерные модели с калиброванными метриками. 2025 жылы біз әлеуметтік желілер мен медиадан ашық деректерді жинадық, тазарту және қалыпқа келтірдік (қайталану, метадеректерді теңестіру, агглютинативтілік және кодты ауыстыру), сапаны бақылайтын Label Studio-да көп деңгейлі схема бойынша корпусқа түсініктеме бердік (Cohen ' s κ≈0,72–0,81), қайталанатын train/dev/test үлгілерін қалыптастырдық және калибрленген өлшемдері бар негізгі және трансформаторлық модельдер іске қосылды. Сформирован консолидированный корпус RU/KZ новостного контента из соцсетей и медиа; создана и проверена единая схема аннотации, обеспечившая воспроизводимость (κ≈0,72–0,81 по ключевым уровням). Подготовлены чистые обучающие/тестовые выборки с полными метаданными (у большинства примеров сохранены timestamp/source/url) и связками CLAIM–EVIDENCE–SOURCE, что позволяет тренировать объяснимые модели. Бейзлайны установили «пол» качества (SVM/LR на TF-IDF+маркерах), трансформеры после мультиязычного дообучения обеспечили прирост качества: бинарная детекция ~0,84 macro-F1, классификация техник ~0,77, намерения ~0,73; дистилляция дала ускорение в 3× при умеренной потере точности. Зафиксированы узкие места и пути их снятия: орфографическая вариативность и агглютинативность частично компенсированы лемматизацией/аффикс-правилами и расширением субсловного словаря; back-translation и перефразы улучшили устойчивость к доменному сдвигу. Итог 2025: создана валидированная дата- и методологическая база (корпус, разметка, сплиты, протокол метрик, бейзлайны) как прочный фундамент для масштабирования и внедрения моделей в 2026–2027 гг. Әлеуметтік желілер мен медиадан RU/KZ жаңалықтар контентінің шоғырландырылған корпусы құрылды; репродуктивтілікті қамтамасыз ететін аннотацияның бірыңғай схемасы құрылды және тексерілді (κ≈0,72–0,81 негізгі деңгейлер бойынша). Толық метадеректермен (көптеген мысалдар timestamp/source/url мекен–жайларын сақтайды) және CLAIM–EVIDENCE-source байламдарымен таза оқыту/тест үлгілерін дайындады, бұл түсіндірілетін модельдерді жаттықтыруға мүмкіндік береді. Бейзлайндар сапа (TF-IDF+маркерлерінде SVM/LR) орнатты, көп тілді оқытудан кейінгі трансформаторлар сапаның өсуін қамтамасыз етті: екілік детекция ~0,84 macro-F1, техниканың жіктелуі ~0,77, ниет ~0,73; дистилляция дәлдіктің орташа жоғалуымен 3× жылдамдықты арттырды. Орфографиялық вариативтілік пен агглютинативтілік ішінара лемматизациямен/аффикс-ережелермен және қосалқы сөздіктің кеңеюімен өтеледі; back-translation және парафразалар домендік сдысуға төзімділікті жақсартты. 2025 жылдың қорытындысы: 2026-2027 жылдары модельдерді масштабтау және енгізу үшін берік негіз ретінде валидацияланған күн мен әдістемелік база (корпус, белгілеу, сплиттер, метрика хаттамасы, бейзлайндар) құрылды. Проведены фундаментальные исследования, направленные на формирование научно-методической базы для разработки системы автоматического выявления фейковых новостей; выполнен анализ современных NLP- и ML-подходов, собран и аннотирован корпус русско-казахских текстов объёмом 148 000 документов, разработана многоуровневая схема аннотации и оценены базовые метрики качества (F1 ≈ 0,84 для бинарной детекции), что создало основу для последующей разработки и внедрения прикладных моделей и обеспечивающий снижение трудозатрат на анализ контента на 30–60 %. Жалған жаңалықтарды автоматты түрде анықтау жүйесін әзірлеу үшін ғылыми-әдістемелік базаны қалыптастыруға бағытталған іргелі зерттеулер жүргізілді; қазіргі заманғы NLP - және ML-тәсілдерге талдау жасалды, көлемі 148 000 құжат орыс-қазақ мәтіндерінің корпусы жиналды және аннотацияланды, аннотацияның көп деңгейлі схемасы әзірленді және сапаның базалық көрсеткіштері бағаланды (екілік детекция үшін F1 ≈ 0,84), бұл мазмұнды талдауға жұмсалатын еңбек шығындарының 30-60% - ға төмендеуін қамтамасыз ететін қолданбалы модельдерді кейіннен әзірлеу және енгізу үшін негіз болды. результаты находятся на стадии разработки; проведена лабораторная апробация прототипа модуля детекции фейков и подготовлены датасеты, получено авторское свидетельство, ведётся подготовка к пилотной интеграции. нәтижелер әзірлеу сатысында; фейктерді анықтау модулінің прототипіне зертханалық апробация жүргізілді және датасеттер дайындалды, авторлық куәлік алынды, пилоттық интеграцияға дайындық жүргізілуде. Экономический эффект формируется из: (1) прямой экономии затрат на ручную проверку и расследование инцидентов (автоматизация процессов → меньше человеко-часов); (2) предотвращённых потерь из-за фейков (штрафы, возвраты, утечка клиентов, репутационные издержки); (3) роста производительности аналитиков (больше проверок при тех же ресурсах); (4) эффектов масштабирования — тиражирование решения и лицензирование ИС/ПО, импортозамещение и снижение валютных расходов на зарубежные сервисы. Экономикалық әсер келесі құрамдас бөліктерден қалыптасады: (1) қолмен тексеру мен инциденттерді тергеуге жұмсалатын шығындарды тікелей үнемдеу — процестерді автоматтандыру нәтижесінде адам-сағат саны азаяды; (2) жалған ақпараттың алдын алу арқылы болдырылмаған шығындар — айыппұлдар, қайтарымдар, клиенттердің кетуі және беделдік тәуекелдер төмендейді; (3) талдаушылардың өнімділігінің артуы — сол ресурстармен көбірек тексерулер жүргізу мүмкіндігі артады; (4) масштабтау әсері — шешімді тираждау және зияткерлік жүйе мен бағдарламалық қамтылымды лицензиялау, импортты алмастыру және шетелдік сервистерге валюталық шығындарды азайту. Результаты исследования могут применяться в области информационной безопасности, вычислительной лингвистики, медиааналитики и анализа данных, а также в смежных фундаментальных и прикладных научных исследованиях по обработке естественного языка. Полученные модели, корпуса и методологии могут использоваться для изучения механизмов распространения дезинформации, разработки теорий и алгоритмов анализа новостного контента в многоязычной среде, особенно в условиях низкоресурсных языков. Зерттеу нәтижелері ақпараттық қауіпсіздік, есептеу лингвистикасы, медиааналитика және деректерді талдау саласында, сондай-ақ табиғи тілді өңдеу бойынша іргелі және қолданбалы ғылыми зерттеулерде қолданылуы мүмкін. Алынған модельдер, корпустар мен әдістемелер жалған ақпараттың таралу механизмдерін зерттеу, көп тілді ортада, әсіресе ресурстары төмен тілдерде жаңалықтар мазмұнын талдау теориялары мен алгоритмдерін әзірлеу үшін пайдаланылуы мүмкін. |
||||
| UDC indices | ||||
| 004.8:004.912:316.774 | ||||
| International classifier codes | ||||
| 28.23.00; 20.23.25; 28.23.37; 28.23.35; | ||||
| Key words in Russian | ||||
| Фейковые новости; Обнаружение фейковых новостей; Глубокое обучение; Машинное обучение; Обработка естественного языка; Генеративные состязательные сети; Социальные сети; | ||||
| Key words in Kazakh | ||||
| Жалған жаңалықтар; Жалған жаңалықтарды табу; Терең оқыту; Машиналық оқыту; Табиғи тілді өңдеу; Генеративті қарсылас желілер; Әлеуметтік желі; | ||||
| Head of the organization | Абдрахманов Кайрат Амангельдинович | / нет | ||
| Head of work | Самбетбаева Мадина Аралбаевна | Доктор философии (PhD) / Ассоциированный профессор | ||