Information card

You have disabled JavaScript ... To complete the work, you must enable JavaScript in your browser

Inventory number	IRN	Number of state registration
0323РК01761	AP19677733-KC-23	0123РК00780
Document type	Terms of distribution	Availability of implementation
Краткие сведения	Gratis	Number of implementation: 0 Not implemented
Publications
Native publications: 3
International publications: 0	Publications Web of science: 0	Publications Scopus: 0
Patents	Amount of funding	Code of the program
0	27305265.5	AP19677733
Name of work
Разработка интеллектуальной распределенной системы параллельного анализа научных текстов
Type of work	Source of funding	Report authors
Applied		Алтынбек Серік Атақонысұлы
Engineers from production 4 Undergraduates 0 Doctoral students 0 Foreign scientists 0
Customer		МНВО РК
Information on the executing organization
Short name of the ministry (establishment)		Нет
Full name of the service recipient
"Казахский университет технологии и бизнеса имени К. Кулажанова"
Abbreviated name of the service recipient		«КазУТБ им. К.Кулажанова»
Abstract
The object of research, development or design (in Russian) : Неструктурированные данные (научные тексты) The object of research, development or design (in Kazakh) : Құрылымдалмаған деректер (ғылыми мәтіндер) Aim of work (in Russian) : Цель Проекта – развертывание распределенной интеллектуальной системы анализа научных текстов, на основе математических методов и быстрых алгоритмов параллельной обработки данных для повышения качества научных работ и научной независимости. Aim of work (in Kazakh) : Жобаның мақсаты – ғылыми жұмыстың сапасын және ғылыми тәуелсіздікті арттыру үшін деректерді параллельді өңдеудің математикалық әдістері мен жылдам алгоритмдеріне негізделген ғылыми мәтіндерді талдаудың бөлінген интеллектуалды жүйесін енгізу. Методы исследования (на русском) : − теоретический анализ методической, технической литературы по исследуемой проблеме; − топология естественного языка в метрических пространствах; − статистические методы гауссовского распределения и формула вероятностей Байеса; − морфологические и синтаксические анализаторы текста для автоматизации его представления на языке представления знаний; − мягкие вычисления для более удобной манипуляции неструктурированными данными; − методы data mining для обработки базы знаний и документов; − экспертные системы для разработки решателей задач с четким и нечетким выводом; − технологии объектно-ориентированного программирования для разработки программных приложений; − технологии Model-View-Controller; − пост-реляционной объектно-ориентированной системы управления базами данных MongoDB, HBase для создания базы данных и знаний; − agile для руководства процессом разработки программного обеспечения. Методы исследования (на казахском) : - зерттелетін мәселе бойынша әдістемелік, техникалық әдебиеттерді теориялық талдау; - метрикалық кеңістіктегі табиғи тіл топологиясы; - Гаусс үлестірімінің статистикалық әдістері және Байес ықтималдық формуласы; - білімді ұсыну тілінде оны ұсынуды автоматтандыру үшін мәтіннің морфологиялық және синтаксистік анализаторлары; - құрылымдалмаған деректерді ыңғайлы манипуляциялау үшін жұмсақ есептеу; - білім базасы мен құжаттарды өңдеуге арналған data mining әдістері; - нақты және анық емес қорытындысы бар есептерді шешушілерді әзірлеуге арналған сараптамалық жүйелер; -бағдарламалық қосымшаларды әзірлеуге арналған объектіге бағытталған бағдарламалау технологиялары; -Model-View-Controller технологиялары; -MongoDB, HBase реляциядан кейінгі объектіге бағытталған мәліметтер базасын басқару жүйесі, мәліметтер базасын құру және білім; - бағдарламалық жасақтаманы әзірлеу процесін басқаруға арналған agile. Obtained results and novelty (in Russian) : В соответствии с планом мероприятий командой проекта были выполнены работы по сбору научного материала, в том числе из базы научных данных, такие как Science Citation Index Expanded и Scopus и на основе проведенного анализа получили представление о текущем состоянии исследований в данной области и подготовить к публикации ряд статей. Сформирован математический аппарат для реализации быстрых алгоритмов анализа научных текстов на естественном языке с применением теории вероятностей и статистики, включая методы Гауссовского распределения и формулы вероятностей Байеса. Аппаратное и программное решение на основе анализа опыта внедрения масштабируемых решений и научных публикаций привело нас к развертыванию распределенной Open Source фреймворка Apache Spark для параллельного анализа неструктурированных данных с необходимым программным инструментарием для разработки информационной системы. Obtained results and novelty (in Kazakh) : Іс-шаралар жоспарына сәйкес жоба командасы ғылыми материалдарды, соның ішінде Science Citation Index Expanded және Scopus сияқты ғылыми деректер базасынан жинау бойынша жұмыстар орындады және жүргізілген талдау негізінде осы саладағы зерттеулердің ағымдағы жай-күйі туралы түсінік алды және жариялауға бірқатар мақалалар дайындады. Ықтималдықтар теориясы мен статистиканы, соның ішінде Гаусстың таралу әдістері мен Байес ықтималдық формулаларын қолдана отырып, табиғи тілдегі ғылыми мәтіндерді талдаудың жылдам алгоритмдерін жүзеге асыруға арналған математикалық аппарат құрылды. Масштабталатын шешімдер мен ғылыми басылымдарды енгізу тәжірибесін талдауға негізделген аппараттық және бағдарламалық шешім бізді Ақпараттық жүйені әзірлеу үшін қажетті бағдарламалық құралмен құрылымдалмаған деректерді параллель талдауға арналған Apache Spark таратылған open Source шеңберін орналастыруға әкелді. The main constructive and technical economic indicators (in Russian) : В рамках решения задач по созданию информационной системы нами был изучен программный инструментарий, развернут высокопроизводительный сервер, установлены виртуальные машины, а в качестве языков программирования для решения задачи анализа научных текстов выбрана интеграция двух популярных технологии разработки Node.js и Scala. Серверная часть приложения имеет модульную организацию на основе HTTP REST API. Для обмена данными между модулями используется нотация JSON, на основе протокола HTTP (Hypertext Transfer Protocol выполняются стандартные операции над ресурсами такие как: GET, POST, PUT, DELETE. Для обработки запросов со стороны web-клиента используется технология Node.js. которая предоставляет высокопроизводительный и эффективный инструмент для разработки приложений благодаря своей асинхронной и событийно-ориентированной архитектуре, а для реализации модуля кластеризация данных используется язык программирования Scala с использованием на основе парадигмы Map-Reduce. The main constructive and technical economic indicators (in Kazakh) : Ақпараттық жүйені құру мәселелерін шешу аясында біз бағдарламалық құралдарды зерттедік, жоғары өнімді серверді орналастырдық, виртуалды машиналарды орнаттық және ғылыми мәтіндерді талдау мәселесін шешу үшін бағдарламалау тілдері ретінде екі танымал node әзірлеу технологиясын біріктіру таңдалды.js және Scala. Қолданбаның артқы жағында http REST API негізіндегі модульдік ұйым бар. Модульдер арасында деректерді бөлісу үшін HTTP протоколына негізделген JSON белгісі қолданылады (Hypertext Transfer Protocol ресурс бойынша стандартты операциялар орындалады: GET, POST, PUT, DELETE. Веб-клиенттің сұраныстарын өңдеу үшін Node технологиясы қолданылады.js. ол асинхронды және оқиғаға бағытталған архитектурасының арқасында жоғары өнімді және тиімді қосымшаларды әзірлеу құралын ұсынады және модульді іске асыру үшін деректерді кластерлеу Map-Reduce парадигмасына негізделген Scala бағдарламалау тілін қолданады. Level of implementation (in Russian) : В рамках выполнения проекта развёрнуты и установлены виртуальные сервера на базе КазУТБ. Спроектировано нормализованная база данных, определены учетные роли пользователей. Определен программный инструментарий реализации проекта. Level of implementation (in Kazakh) : Жобаны орындау шеңберінде ҚазАТУ базасында виртуалды серверлер орналастырылды және орнатылды. Қалыпқа келтірілген мәліметтер базасы жасалды, пайдаланушылардың есептік рөлдері анықталды. Жобаны іске асырудың бағдарламалық құралдары анықталды. Efficiency (in Russian) : В части обеспечения эффективности проекта, командой разработчиков установлено программное окружение на базе Open Source решений, в частности развернуты виртуальные машины на ОС Linux, развернут распределённой фреймворк параллельной обработки Apache spark, что значительно сокращает финансовые издержки на реализацию проекта и обеспечивает его эффективность. Efficiency (in Kazakh) : Жобаның тиімділігін қамтамасыз ету бөлігінде әзірлеушілер тобы open source шешімдеріне негізделген бағдарламалық ортаны орнатты, атап айтқанда Linux ОЖ-де виртуалды машиналар орналастырылды, Apache spark таратылған параллельді өңдеу шеңбері орналастырылды, бұл жобаны іске асыруға қаржылық шығындарды айтарлықтай азайтады және оның тиімділігін қамтамасыз етеді. Field of application (in Russian) : Результаты Проекта можно применять во всех образовательных учреждениях, компаниях, государственных и квазигосударственных структур, которые заинтересованы в продвижении принципов Академической Честности и меритократии. Field of application (in Kazakh) : Жобаның нәтижелері Академиялық адалдық пен меритократия қағидаттарын ілгерілетуге мүдделі барлық оқу орындарына, компанияларға, мемлекеттік және квазимемлекеттік құрылымдарға қолданылуы мүмкін.
UDC indices
004.272.2; 004.91; 519.25
International classifier codes
20.23.19; 20.53.17; 27.43.17; 20.19.27;
Key words in Russian
параллельные вычисления; энтропия; неструктурированные данные; нечеткая экспертная система; база знаний; интеллектуальная система; информационная система; антиплагиат; анализ текста; статистическая обработка данных;
Key words in Kazakh
параллельді есептеу; энтропия; құрылымданбаған деректер; бұлдыр сараптама жүйесі; білім базасы; интеллектуалды жүйе; ақпараттық жүйе; антиплагиат; мәтінді талдау; статистикалық деректерді өңдеу;
Head of the organization	Байбеков Сейдикасым Ниязбекович	Academic degree/title: Доктор технических наук / Профессор
Head of work	Алтынбек Серік Атақонысұлы	Academic degree/title : PhD in Mathematics / -

Eng

Қаз

Рус