Inventory number IRN Number of state registration
0323РК01761 AP19677733-KC-23 0123РК00780
Document type Terms of distribution Availability of implementation
Краткие сведения Gratis Number of implementation: 0
Not implemented
Publications
Native publications: 3
International publications: 0 Publications Web of science: 0 Publications Scopus: 0
Patents Amount of funding Code of the program
0 27305265.5 AP19677733
Name of work
Разработка интеллектуальной распределенной системы параллельного анализа научных текстов
Type of work Source of funding Report authors
Applied Алтынбек Серік Атақонысұлы
4
0
0
0
Customer МНВО РК
Information on the executing organization
Short name of the ministry (establishment) Нет
Full name of the service recipient
Акционерное общество "Казахский университет технологии и бизнеса имени К. Кулажанова"
Abbreviated name of the service recipient АО «КазУТБ им. К.Кулажанова»
Abstract

Неструктурированные данные (научные тексты)

Құрылымдалмаған деректер (ғылыми мәтіндер)

Цель Проекта – развертывание распределенной интеллектуальной системы анализа научных текстов, на основе математических методов и быстрых алгоритмов параллельной обработки данных для повышения качества научных работ и научной независимости.

Жобаның мақсаты – ғылыми жұмыстың сапасын және ғылыми тәуелсіздікті арттыру үшін деректерді параллельді өңдеудің математикалық әдістері мен жылдам алгоритмдеріне негізделген ғылыми мәтіндерді талдаудың бөлінген интеллектуалды жүйесін енгізу.

− теоретический анализ методической, технической литературы по исследуемой проблеме; − топология естественного языка в метрических пространствах; − статистические методы гауссовского распределения и формула вероятностей Байеса; − морфологические и синтаксические анализаторы текста для автоматизации его представления на языке представления знаний; − мягкие вычисления для более удобной манипуляции неструктурированными данными; − методы data mining для обработки базы знаний и документов; − экспертные системы для разработки решателей задач с четким и нечетким выводом; − технологии объектно-ориентированного программирования для разработки программных приложений; − технологии Model-View-Controller; − пост-реляционной объектно-ориентированной системы управления базами данных MongoDB, HBase для создания базы данных и знаний; − agile для руководства процессом разработки программного обеспечения.

- зерттелетін мәселе бойынша әдістемелік, техникалық әдебиеттерді теориялық талдау; - метрикалық кеңістіктегі табиғи тіл топологиясы; - Гаусс үлестірімінің статистикалық әдістері және Байес ықтималдық формуласы; - білімді ұсыну тілінде оны ұсынуды автоматтандыру үшін мәтіннің морфологиялық және синтаксистік анализаторлары; - құрылымдалмаған деректерді ыңғайлы манипуляциялау үшін жұмсақ есептеу; - білім базасы мен құжаттарды өңдеуге арналған data mining әдістері; - нақты және анық емес қорытындысы бар есептерді шешушілерді әзірлеуге арналған сараптамалық жүйелер; -бағдарламалық қосымшаларды әзірлеуге арналған объектіге бағытталған бағдарламалау технологиялары; -Model-View-Controller технологиялары; -MongoDB, HBase реляциядан кейінгі объектіге бағытталған мәліметтер базасын басқару жүйесі, мәліметтер базасын құру және білім; - бағдарламалық жасақтаманы әзірлеу процесін басқаруға арналған agile.

В соответствии с планом мероприятий командой проекта были выполнены работы по сбору научного материала, в том числе из базы научных данных, такие как Science Citation Index Expanded и Scopus и на основе проведенного анализа получили представление о текущем состоянии исследований в данной области и подготовить к публикации ряд статей. Сформирован математический аппарат для реализации быстрых алгоритмов анализа научных текстов на естественном языке с применением теории вероятностей и статистики, включая методы Гауссовского распределения и формулы вероятностей Байеса. Аппаратное и программное решение на основе анализа опыта внедрения масштабируемых решений и научных публикаций привело нас к развертыванию распределенной Open Source фреймворка Apache Spark для параллельного анализа неструктурированных данных с необходимым программным инструментарием для разработки информационной системы.

Іс-шаралар жоспарына сәйкес жоба командасы ғылыми материалдарды, соның ішінде Science Citation Index Expanded және Scopus сияқты ғылыми деректер базасынан жинау бойынша жұмыстар орындады және жүргізілген талдау негізінде осы саладағы зерттеулердің ағымдағы жай-күйі туралы түсінік алды және жариялауға бірқатар мақалалар дайындады. Ықтималдықтар теориясы мен статистиканы, соның ішінде Гаусстың таралу әдістері мен Байес ықтималдық формулаларын қолдана отырып, табиғи тілдегі ғылыми мәтіндерді талдаудың жылдам алгоритмдерін жүзеге асыруға арналған математикалық аппарат құрылды. Масштабталатын шешімдер мен ғылыми басылымдарды енгізу тәжірибесін талдауға негізделген аппараттық және бағдарламалық шешім бізді Ақпараттық жүйені әзірлеу үшін қажетті бағдарламалық құралмен құрылымдалмаған деректерді параллель талдауға арналған Apache Spark таратылған open Source шеңберін орналастыруға әкелді.

В рамках решения задач по созданию информационной системы нами был изучен программный инструментарий, развернут высокопроизводительный сервер, установлены виртуальные машины, а в качестве языков программирования для решения задачи анализа научных текстов выбрана интеграция двух популярных технологии разработки Node.js и Scala. Серверная часть приложения имеет модульную организацию на основе HTTP REST API. Для обмена данными между модулями используется нотация JSON, на основе протокола HTTP (Hypertext Transfer Protocol выполняются стандартные операции над ресурсами такие как: GET, POST, PUT, DELETE. Для обработки запросов со стороны web-клиента используется технология Node.js. которая предоставляет высокопроизводительный и эффективный инструмент для разработки приложений благодаря своей асинхронной и событийно-ориентированной архитектуре, а для реализации модуля кластеризация данных используется язык программирования Scala с использованием на основе парадигмы Map-Reduce.

Ақпараттық жүйені құру мәселелерін шешу аясында біз бағдарламалық құралдарды зерттедік, жоғары өнімді серверді орналастырдық, виртуалды машиналарды орнаттық және ғылыми мәтіндерді талдау мәселесін шешу үшін бағдарламалау тілдері ретінде екі танымал node әзірлеу технологиясын біріктіру таңдалды.js және Scala. Қолданбаның артқы жағында http REST API негізіндегі модульдік ұйым бар. Модульдер арасында деректерді бөлісу үшін HTTP протоколына негізделген JSON белгісі қолданылады (Hypertext Transfer Protocol ресурс бойынша стандартты операциялар орындалады: GET, POST, PUT, DELETE. Веб-клиенттің сұраныстарын өңдеу үшін Node технологиясы қолданылады.js. ол асинхронды және оқиғаға бағытталған архитектурасының арқасында жоғары өнімді және тиімді қосымшаларды әзірлеу құралын ұсынады және модульді іске асыру үшін деректерді кластерлеу Map-Reduce парадигмасына негізделген Scala бағдарламалау тілін қолданады.

В рамках выполнения проекта развёрнуты и установлены виртуальные сервера на базе КазУТБ. Спроектировано нормализованная база данных, определены учетные роли пользователей. Определен программный инструментарий реализации проекта.

Жобаны орындау шеңберінде ҚазАТУ базасында виртуалды серверлер орналастырылды және орнатылды. Қалыпқа келтірілген мәліметтер базасы жасалды, пайдаланушылардың есептік рөлдері анықталды. Жобаны іске асырудың бағдарламалық құралдары анықталды.

В части обеспечения эффективности проекта, командой разработчиков установлено программное окружение на базе Open Source решений, в частности развернуты виртуальные машины на ОС Linux, развернут распределённой фреймворк параллельной обработки Apache spark, что значительно сокращает финансовые издержки на реализацию проекта и обеспечивает его эффективность.

Жобаның тиімділігін қамтамасыз ету бөлігінде әзірлеушілер тобы open source шешімдеріне негізделген бағдарламалық ортаны орнатты, атап айтқанда Linux ОЖ-де виртуалды машиналар орналастырылды, Apache spark таратылған параллельді өңдеу шеңбері орналастырылды, бұл жобаны іске асыруға қаржылық шығындарды айтарлықтай азайтады және оның тиімділігін қамтамасыз етеді.

Результаты Проекта можно применять во всех образовательных учреждениях, компаниях, государственных и квазигосударственных структур, которые заинтересованы в продвижении принципов Академической Честности и меритократии.

Жобаның нәтижелері Академиялық адалдық пен меритократия қағидаттарын ілгерілетуге мүдделі барлық оқу орындарына, компанияларға, мемлекеттік және квазимемлекеттік құрылымдарға қолданылуы мүмкін.

UDC indices
004.272.2; 004.91; 519.25
International classifier codes
20.23.19; 20.53.17; 27.43.17; 20.19.27;
Key words in Russian
параллельные вычисления; энтропия; неструктурированные данные; нечеткая экспертная система; база знаний; интеллектуальная система; информационная система; антиплагиат; анализ текста; статистическая обработка данных;
Key words in Kazakh
параллельді есептеу; энтропия; құрылымданбаған деректер; бұлдыр сараптама жүйесі; білім базасы; интеллектуалды жүйе; ақпараттық жүйе; антиплагиат; мәтінді талдау; статистикалық деректерді өңдеу;
Head of the organization Байбеков Сейдикасым Ниязбекович Доктор технических наук / Профессор
Head of work Алтынбек Серік Атақонысұлы PhD in Mathematics / -