| Inventory number | IRN | Number of state registration | ||
|---|---|---|---|---|
| 0325РК00339 | AP23487816-KC-25 | 0124РК00676 | ||
| Document type | Terms of distribution | Availability of implementation | ||
| Краткие сведения | Gratis | Number of implementation: 0 Not implemented |
||
| Publications | ||||
| Native publications: 2 | ||||
| International publications: 2 | Publications Web of science: 0 | Publications Scopus: 1 | ||
| Patents | Amount of funding | Code of the program | ||
| 0 | 39794230 | AP23487816 | ||
| Name of work | ||||
| Исследование нейронных моделей формирования стенограммы речи и протоколов совещаний на тюркских языках | ||||
| Type of work | Source of funding | Report authors | ||
| Fundamental | Тукеев Уалшер Ануарбекович | |||
|
1
1
1
0
|
||||
| Customer | МНВО РК | |||
| Information on the executing organization | ||||
| Short name of the ministry (establishment) | МНВО РК | |||
| Full name of the service recipient | ||||
| Некоммерческое акционерное общество "Казахский национальный университет имени аль-Фараби" | ||||
| Abbreviated name of the service recipient | НАО "КазНУ им. аль-Фараби" | |||
| Abstract | ||||
|
Параллельные корпуса, модели и методы машинного перевода и формирования протоколов совещаний на тюркских языках: казахский, азербайджанский, кыргызский, турецкий, туркменский, узбекский. Түркі тілдерінде (қазақ, әзірбайжан, қырғыз, түрік, түрікмен, өзбек) машиналық аудару мен жиналыс хаттамаларын қалыптастыруға арналған параллельді корпустар, модельдер мен тәсілдер. Разработка параллельных корпусов и нейронных моделей машинного перевода и формирования протоколов совещаний на тюркских языках: казахский, азербайджанский, кыргызский, турецкий, туркменский, узбекский. Түркі тілдерінде (қазақ, әзербайжан, қырғыз, түрік, түрікмен, өзбек) машиналық аудару мен жиналыс хаттамаларын қалыптастыруға арналған параллельді корпустар мен нейрондық модельдерді жасау. Вычислительные и реляционные модели и методы NLP, модели и методы нейронного моделирования, модели искусственного интеллекта Есептеуіш және реляциялық табиғи тілдерді өңдеу модельдері мен әдістері, нейрондық модельдеу мен жасанды интеллект модельдері. Разработаны параллельные корпуса в среднем объемом 780 тысяч строк и тонко настроены нейронные модели перевода для пяти пар государственных тюркских языков. Разработан мультиязычный параллельный корпус объемом 3 885 542 параллельных предложений и тонко настроена нейронная модель для шести государственных тюркских языков. Новизна данного результата: такого объема параллельные корпуса для пар тюркских языков (кроме, пары турец-каз) разрабатываются впервые. Разработана двухэтапная экстрактивная технология суммаризации, включающая этап определения наиболее важных предложений исходного текста с использованием метода TF-IDF и упрощения в них длинных предложений. Новизна заключается в разработке такой двухэтапной технологии суммаризации для казахских текстов. Разработана тонко настроенная модель Gemma 3.4b-it fine-tuned на созданном синтетическом казахском корпусе суммаризации xsum_kk3 в 116 тысяч записей на базе английского XSUM. Разработана программа парсинга датасета с казахских новостных сайтов и собран датасет суммаризации с сайта baq.kz объемом 74726 записей. Выполнена тонкая настройка моделей Sherkala и mT5-base на собранном датасете. Новизна заключается в создании казахского корпуса суммаризации на 116 тысяч записей, в сборе казахского датасета суммаризации на 74726 записей, в разработке тонко настроенных нейронных моделей на разработанных датасетах суммаризации. Орташа көлемі 780 мың жолдан тұратын параллель корпустар жасалып, мемлекеттік бес түркі тіл жұбы үшін нейрондық аударма модельдері дәл баптаудан өткізілді. 3 885 542 параллель сөйлемнен тұратын мультитілді параллель корпус жасалып, алты мемлекеттік түркі тілі үшін нейрондық модель дәл баптаудан өткізілді. Осы нәтижелердің жаңалығы: мұндай көлемдегі параллель корпустар түркі тілдерінің жұптары үшін (түрік–қазақ жұбынан басқа) алғаш рет жасалуда. TF-IDF әдісін пайдалану арқылы бастапқы мәтіннің ең маңызды сөйлемдерін анықтау және олардың ішіндегі ұзақ сөйлемдерді жеңілдету кезеңдерін қамтитын екі кезеңнен тұратын экстрактивтік суммаризация технологиясы әзірленді. Жаңалығы — қазақ мәтіндері үшін осындай екі кезеңді суммаризация технологиясының әзірленуінде. Ағылшын тіліндегі XSUM деректер жиыны негізінде құрылған, 116 мың жазбадан тұратын синтетикалық қазақ суммаризация корпусы xsum_kk3 бойынша Gemma 3.4b-it моделі дәл баптаудан өткізілді. Қазақ жаңалық сайттарынан деректерді парсинг жасау бағдарламасы әзірленіп, baq.kz сайтынан 74 726 жазбадан тұратын суммаризация деректер жиыны жиналды. Жиналған деректер жиынында Sherkala және mT5-base модельдері дәл баптаудан өткізілді. Жаңалығы — 116 мың жазбадан тұратын қазақ суммаризация корпусын жасау, 74 726 жазбадан тұратын қазақ суммаризация деректер жиынын жинау және осы деректер жиындары негізінде дәл бапталған нейрондық модельдерді әзірлеу болып табылады. Расходование средств финансирования производится согласно утвержденной смете. Қаржыландыруды жұмсау бекітілген сметаға сәйкес жүзеге асырылады. Внедрения нет. Планируется в следующем году создание опытного образца автоматизированной системы формирования протоколов совещаний для шести государственных тюркских языков. Әлі іске асырылған жоқ. Келесі жылға алты ресми түркі тілі үшін жиналыс хаттамаларын жасауға арналған автоматтандырылған жүйенің прототипін жасау жоспарлары жасалуда. Социальный эффект результатов проекта будет заключаться в формирования протоколов совещаний на тюркских языках и, таким образом, развитие социальных контактов между представителями тюркских народов. Экономический эффект будет определяться оперативностью оформления стенограмм и протоколов совещаний на тюркских языках. Научно-технический эффект результатов проекта будет заключаться в создании возможностей дальнейшего развития прикладных направлений распознавания речи, машинного перевода и искусственного интеллекта в области тюркских языков. Развитие данного направления стенограммы речи и формирования протоколов совещаний на тюркских языках позволит внести вклад в социально-экономическое развитие отношений тюркоязычных государств. Жобаның нәтижелерінің әлеуметтік әсері түркі тілдерінде жиналыс хаттамаларын қалыптастыру және осы арқылы түркі халықтары өкілдерінің арасындағы әлеуметтік байланыстарды дамыту болып табылады. Экономикалық әсер түркі тілдерінде стенограммалар мен жиналыс хаттамаларын жедел рәсімдеу деңгейімен айқындалады. Жобаның нәтижелерінің ғылыми-техникалық әсері түркі тілдері саласында сөйлеуді тану, машиналық аударма және жасанды интеллекттің қолданбалы бағыттарын одан әрі дамыту мүмкіндіктерін жасауда көрініс табады. Түркі тілдерінде сөйлеу стенограммасын әзірлеу және жиналыс хаттамаларын қалыптастыру бағытын дамыту түркітілдес мемлекеттер арасындағы әлеуметтік-экономикалық қатынастардың дамуына үлес қосуға мүмкіндік береді. Область применения результатов: разработанных корпусов и тонко настроенных нейронных моделей по формирования протоколов совещаний может быть использован в самых различных областях. Целевые потребители результатов: это прежде всего сообщество исследователей и разработчиков систем машинного перевода текстов естественных языков, именно, тюркских языков, а также любые организации, проводящие конференции, совещания, семинары. Нәтижелерді қолдану саласы: Жиналыс хаттамаларын қалыптастыруға арналған дайындалған корпустар мен жұқа бапталған нейрондық модельдер әртүрлі салаларда қолданылуы мүмкін. Нәтижелердің мақсатты тұтынушылары: Бұл ең алдымен табиғи тілдердің, соның ішінде түркі тілдерінің мәтіндерін машиналық аударма жүйелерін зерттеушілер мен әзірлеушілер қауымдастығы, сондай-ақ конференциялар, жиналыстар мен семинарлар өткізетін кез келген ұйымдар болып табылады. |
||||
| UDC indices | ||||
| 004.8 | ||||
| International classifier codes | ||||
| 20.19.27; | ||||
| Key words in Russian | ||||
| Искусственный интеллект; обработка естественного языка; распознавание речи; машинный перевод; тюркские языки; | ||||
| Key words in Kazakh | ||||
| Жасанды интеллект; табиғи тілді өңдеу; сөйлеуді тану; машиналық аударма; түркі тілдер; | ||||
| Head of the organization | Ибраимов Маргулан Касенович | PhD / ассоциированный профессор (доцент) | ||
| Head of work | Тукеев Уалшер Ануарбекович | Доктор технических наук / профессор | ||