Inventory number IRN Number of state registration
0325РК00653 AP23490123-KC-25 0124РК00879
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 2
International publications: 1 Publications Web of science: 0 Publications Scopus: 1
Patents Amount of funding Code of the program
0 32952368 AP23490123
Name of work
Разработка системы идентификации текстовых заимствований на основе комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка
Type of work Source of funding Report authors
Applied Белощицкая Светлана Васильевна
0
3
2
1
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
"Astana IT University"
Abbreviated name of the service recipient "Astana IT University"
Abstract

Объектом исследования является процесс выявления текстовых заимствований, или плагиата, в текстах на казахском языке. Это включает: • Различные текстовые документы, написанные на казахском языке. • Методы и модели поиска неполных дубликатов, которые позволяют обнаружить частичное совпадение текстов. • Применение комбинированных подходов для улучшения точности выявления плагиата с учетом особенностей казахского языка.

Зерттеу нысаны – қазақ тіліндегі мәтіндердегі мәтіндік жалғауларды немесе плагиатты анықтау процесі. Бұған мыналар кіреді: • Қазақ тілінде жазылған түрлі мәтіндік құжаттар. • Мәтіндердің ішінара сәйкестігін анықтауға мүмкіндік беретін толық емес көшірмелерді іздеу әдістері мен үлгілері. • Қазақ тілінің ерекшеліктерін ескере отырып, плагиатты анықтаудың дәлдігін арттыру үшін біріктірілген тәсілдерді қолдану.

Нахождение и предотвращение фактов плагиата, а также несанкционированного использования результатов интеллектуальной деятельности путем усовершенствования существующей системы определения степени уникальности научных работ за счет создания системы идентификации текстовых заимствований на основе разработанных комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка.

Қазақ тілін ескере отырып, әзірленген аралас әдістер, толық емес телнұсқаларды іздеу модельдері негізінде шеттен алып пайдалануды сәйкестендіру жүйесін құру есебінен ғылыми жұмыстардың бірегейлігі дәрежесін айқындаудың қолданыстағы жүйесін жетілдіру жолымен плагиат, зияткерлік қызмет нәтижелерін рұқсатсыз пайдалану фактілерін табу және болдырмау.

1. Теоретико-аналитические методы 2. Методы обработки и подготовки данных 3. Алгоритмические и вычислительные методы 4. Методы экспериментальной оценки и валидации 5. Методы проектирования и реализации системы

1. Теориялық және аналитикалық әдістер 2. Мәліметтерді өңдеу және дайындау әдістері 3. Алгоритмдік және есептеу әдістері 4. Эксперименттік бағалау және валидация әдістері 5. Жүйені жобалау және енгізу әдістері

1. Модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях. 2. Методы подготовки элементов контента, которые обязаны нейтрализовать влияние использования методов скрытия заимствований. 3. Альтернативные модели и методы поиска неполных дубликатов (near-duplicate) на основе N-грамм анализа текстовых данных.

1. Электрондық құжаттардың мәтіндік бөлігі мен бейнелеріндегі толық емес (near-duplicate) дубликаттарды анықтау үлгілері мен әдістері. 2. Қарыз алу әдістерін жасыру әсерін бейтараптандыруға бағытталған контент элементтерін дайындау әдістері. 3. Мәтіндік деректердің N-грамма талдауына негізделген толық емес (near-duplicate) дубликаттарды іздеудің баламалы үлгілері мен әдістері.

Тип системы — веб-приложение с возможностью локального и облачного размещения. Основной язык программирования — Python; интерфейс реализуется с использованием JavaScript. Основные библиотеки и фреймворки — Flask или FastAPI, TensorFlow или PyTorch, scikit-learn, Elasticsearch, spaCy, HuggingFace Transformers. Поддерживаемые языки — казахский, русский и английский. Архитектура системы — модульная: включает этапы предварительной обработки текста, извлечения признаков, вычисления степени сходства и формирования отчёта. Используемые методы — n-граммный анализ, MinHash, векторизация на основе Word2Vec, FastText и BERT-моделей, а также комбинированные hash- и embedding-подходы. Форматы входных данных — TXT, DOCX, PDF, HTML. Форматы выходных отчётов — DOCX, PDF и JSON для интеграции через API.

Жүйенің түрі — жергілікті және бұлттық орналастыру мүмкіндігі бар веб-қосымша. Негізгі бағдарламалау тілі — Python; интерфейс JavaScript тілі арқылы жүзеге асырылады. Негізгі кітапханалар мен фреймворктер — Flask немесе FastAPI, TensorFlow немесе PyTorch, scikit-learn, Elasticsearch, spaCy, HuggingFace Transformers. Қолдау көрсетілетін тілдер — қазақ, орыс және ағылшын. Жүйе архитектурасы — модульдік: мәтінді алдын ала өңдеу, белгілерді шығару, ұқсастық дәрежесін есептеу және есепті қалыптастыру кезеңдерін қамтиды. Қолданылатын әдістер — n-граммдық талдау, MinHash, Word2Vec, FastText және BERT модельдеріне негізделген векторлау, сондай-ақ біріктірілген hash және embedding тәсілдері. Кіріс деректерінің форматтары — TXT, DOCX, PDF, HTML. Шығыс есеп форматтары — DOCX, PDF және API арқылы біріктіру үшін JSON.

Протестировано

Тестілеуден өткізілді

Области применения системы: 1. Образовательные учреждения: o Проверка студенческих работ, курсовых и дипломных проектов на наличие плагиата. o Автоматизированный контроль академической честности в вузах и школах. 2. Научно-исследовательские институты: o Анализ научных публикаций и диссертаций на предмет оригинальности содержания. 3. Издательский бизнес и журналистика: o Проверка рукописей и статей на предмет заимствований перед публикацией.

Аймақтық қолдану жүйесі: 1. Оқу орындары: o Студенттердің жұмыстарын, курстық және дипломдық жобаларды плагиатқа тексеру. o Университеттер мен мектептердегі академиялық адалдықты автоматтандырылған бақылау. 2. Ғылыми-зерттеу институты: o Тақырып мазмұнының түпнұсқалығы бойынша ғылыми жарияланымдар мен диссертацияларды талдау. 3. Баспа ісі және журналистика: o Жарияланар алдында қолжазбалар мен қарыздар бойынша мақалаларды тексеру.

UDC indices
001
International classifier codes
14.35.09; 12.41.55; 12.41.51;
Key words in Russian
Информационная система «Антиплагиат»; IT определения нечетких совпадений; интеллектуальная обработка контента документов; N-грамм метод; локально-чувствительное хеширование; поиск плагиата на казахском языке; антиплагиат; методы поиска плагиата;
Key words in Kazakh
"Антиплагиат" ақпараттық жүйесі; Анық емес сәйкестіктердің IТ анықтамалары; құжаттар мазмұнын зияткерлік өңдеу; N-грамм әдісі; жергілікті-сезімтал хэштеу; қазақ тіліндегі плагиатты іздеу; антиплагиат; плагиатты іздеу әдістері;
Head of the organization Ахметов Альтаир Амангельдиевич Phd / Ассоциированный профессор
Head of work Белощицкая Светлана Васильевна Доктор технических наук / доцент