Inventory number IRN Number of state registration
0324РК01253 AP23490123-KC-24 0124РК00879
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 0
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 31852501 AP23490123
Name of work
Разработка системы идентификации текстовых заимствований на основе комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка
Type of work Source of funding Report authors
Applied Белощицкая Светлана Васильевна
0
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Товарищество с ограниченной ответственностью "Astana IT University"
Abbreviated name of the service recipient "Astana IT University"
Abstract

Объектом исследования является процесс выявления текстовых заимствований, или плагиата, в текстах на казахском языке. Это включает: • Различные текстовые документы, написанные на казахском языке. • Методы и модели поиска неполных дубликатов, которые позволяют обнаружить частичное совпадение текстов. • Применение комбинированных подходов для улучшения точности выявления плагиата с учетом особенностей казахского языка.

Зерттеу нысаны – қазақ тіліндегі мәтіндердегі басқа авторлардың мәтінін пайдалануды немесе плагиатты анықтау процесі. Бұған мыналар кіреді: • Қазақ тілінде жазылған түрлі мәтіндік құжаттар. • Мәтіндердің ішінара сәйкестігін анықтауға мүмкіндік беретін толық емес көшірмелерді іздеу әдістері мен үлгілері. • Қазақ тілінің ерекшеліктерін ескере отырып, плагиатты анықтаудың дәлдігін арттыру үшін кіріктірілген тәсілдерді қолдану.

Нахождение и предотвращение фактов плагиата, а также несанкционированного использования результатов интеллектуальной деятельности путем усовершенствования существующей системы определения степени уникальности научных работ за счет создания системы идентификации текстовых заимствований на основе разработанных комбинированных методов и моделей поиска неполных дубликатов с учетом казахского языка.

Қазақ тілін ескере отырып, әзірленген аралас әдістер, толық емес телнұсқаларды іздеу модельдері негізінде шеттен алып пайдалануды сәйкестендіру жүйесін құру есебінен ғылыми жұмыстардың бірегейлігі дәрежесін айқындаудың қолданыстағы жүйесін жетілдіру жолымен плагиат, зияткерлік қызмет нәтижелерін рұқсатсыз пайдалану фактілерін табу және болдырмау.

Литературный обзор Анализ языковых особенностей Сбор и предобработка данных Разработка комбинированной модели для идентификации заимствований

Әдебиетке шолу Тілдік ерекшеліктерді талдау Деректерді жинау және алдын ала өңдеу Мәтін пайдалануды анықтаудың бiрiктiрiлген моделiн әзiрлеу

1. Модели и методы определения неполных дубликатов (near-duplicate) в контенте электронных документов в текстовой части документов и изображениях. 2. Методы подготовки элементов контента, которые обязаны нейтрализовать влияние использования методов скрытия заимствований. 3. Альтернативные модели и методы поиска неполных дубликатов (near-duplicate) на основе N-грамм анализа текстовых данных.

1. Құжаттар мен суреттердің мәтіндік бөлігіндегі электрондық құжаттардың мазмұнындағы толық емес дубликаттарды (near-duplicate) анықтаудың модельдері мен әдістері. 2. Басқаның мәтінін пайдалануды жасыру әдістерін қолданудың әсерін бейтараптандыруға міндетті мазмұн элементтерін дайындау әдістері. 3, Мәтін деректерін N-грамм-талдауы негізінде жақын арадағы көшірмелерді іздеудің баламалы модельдері мен әдістері.

Технические показатели системы: Точность (Precision), Полнота (Recall), F-мера, Производительность. Конструктивные особенности и архитектура системы: Алгоритмы и методы, Поддержка казахского языка, Модуль машинного обучения. Экономические показатели: Снижение затрат на проверку текстов, Экономия времени.

Жүйенің техникалық көрсеткіштері: Дәлдік (Precision), толықтық (Recall), F-score, өнімділік. Жүйенің конструкциялық ерекшеліктері мен архитектурасы: Алгоритмдер мен әдістер, қазақ тілін қамтамасыз ету, Machine Learning модулі. Экономикалық көрсеткіштер: мәтіндерді тексеруге кететін шығындарды азайту, уақытты үнемдеу.

Не внедрено

Енгізілмеген

Области применения системы: 1. Образовательные учреждения: o Проверка студенческих работ, курсовых и дипломных проектов на наличие плагиата. o Автоматизированный контроль академической честности в вузах и школах. 2. Научно-исследовательские институты: o Анализ научных публикаций и диссертаций на предмет оригинальности содержания. 3. Издательский бизнес и журналистика: o Проверка рукописей и статей на предмет заимствований перед публикацией.

Жүйені қолдану салалары: 1. Оқу орындары: o Студенттердің жұмыстарын, курстық және дипломдық жобаларды плагиатқа тексеру. o Университеттер мен мектептердегі академиялық адалдықты автоматтандырылған бақылау. 2. Ғылыми-зерттеу институты: o Тақырып мазмұнының түпнұсқалығы бойынша ғылыми жарияланымдар мен диссертацияларды талдау. 3. Баспа ісі және журналистика: o Жарияланар алдында қолжазбалар мен қарыздар бойынша мақалаларды тексеру.

UDC indices
004 информационные технологии
International classifier codes
14.35.09; 12.41.55; 12.41.51;
Key words in Russian
Информационная система «Антиплагиат»; IT определения нечетких совпадений; интеллектуальная обработка контента документов; N-грамм метод; локально-чувствительное хеширование; поиск плагиата на казахском языке; антиплагиат; методы поиска плагиата;
Key words in Kazakh
"Антиплагиат" ақпараттық жүйесі; Анық емес сәйкестіктердің IТ анықтамалары; құжаттар мазмұнын зияткерлік өңдеу; N-грамм әдісі; жергілікті-сезімтал хэштеу; қазақ тіліндегі плагиатты іздеу; антиплагиат; плагиатты іздеу әдістері;
Head of the organization Хикметов Аскар Кусупбекович Кандидат физико-математических наук / доцент
Head of work Белощицкая Светлана Васильевна Доктор технических наук / профессор