Метод многомодельной обработки данных для выполнения мультимодального преобразования видеолекции в текстовый документ

500 руб

Журнал «Системы высокой доступности» №1 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j20729472-202601-17

УДК: 004.85

Ключевые слова: Мультимодальное преобразование видео видеолекция метод мультимодальной обработки многомодельный конвейер разделение модальностей машинное обучение большие языковые модели интерпретируемость автоматическая генерация текста мультиагентная система

Авторы:

М.Е. Исмагулов1

1 Югорский государственный университет (г. Ханты-Мансийск, Россия)

1 m_ismagulov@ugrasu.ru

Аннотация:

Постановка проблемы. В работе рассмотрена проблема мультимодального преобразования видеолекции в текстовый документ.

Цель. Разработать метод мультимодального преобразования видеолекции, основанный на многомодельном конвейере обработки данных с декомпозицией видеоматериала на отдельные модальности и их специализированной обработкой, при котором большая языковая модель используется на этапе структурирования итогового текста.

Результаты. Реализован алгоритм многомодельного мультимодального преобразования видеолекции в виде мультиагентной системы, обеспечивающий полный цикл обработки одного из целевых форматов видеолекций.

Практическая значимость. Предложенный метод может быть использован для автоматической генерации текстовых представлений онлайн-курсов, подготовки методических материалов и автоматизированного протоколирования вебинаров и научных мероприятий.

Страницы: 85-89

Для цитирования

Исмагулов М.Е. Метод многомодельной обработки данных для выполнения мультимодального преобразования видеолекции в текстовый документ // Системы высокой доступности. 2026. Т. 22. № 1. С. 85−89. DOI: https://doi.org/10.18127/j20729472-202601-17

Список источников

Xie T., Kuang Y., Tang Y., Liao J., Yang Y. Using LLM-supported lecture summarization sys-tem to improve knowledge recall and student satisfaction. Expert Systems with Applications. 2025. V. 269. Art. 126371. https://doi.org/10.1016/j.eswa.2024.126371
Wang J., Kang Z., Wang H. et al. VGR: Visual Grounded Reasoning. arXiv:2506.11991. 2025. https://arxiv.org/abs/2506.11991 (accessed: 13.01.2026).
Nikolaou N., Salazar D., RaviPrakash H. et al. A Machine Learning Approach for Multimodal Data Fusion for Survival Prediction in Cancer Patients. npj Precision Oncology. 2025. V. 9. Art. 128. https://doi.org/10.1038/s41698-025-00917-6
Shambour Q.Y., Al-Zyoud M.M., Hussein A.H. From Data to Diagnosis: Knowledge-Driven, Explainable AI for Reliable Early Autism Detection. Interdisciplinary Journal of Information, Knowledge, and Management. 2025. V. 20. P. 032. https://doi.org/10.28945/5652
Белых А.А., Шайдулин Р.Ф., Гуреев К.А., Харитонов В.А., Алексеев А.О. Принцип многомодельности в задачах моделирования индивидуальных предпочтений // Управление большими системами. Спец. выпуск 30.1: Сетевые модели в управлении. Пермь, 2010. С. 128–140.
Бессонов П.Е., Пивоваров О.Г. Прогнозирование технического состояния объектов наземных комплексов на основе принципа многомодельности // Космос. 2011. № 2. С. 45–52.
Исмагулов М.Е. Конвейерный мультимодальный нейросетевой метод обработки ви-део // Системная инженерия и информационные технологии. 2025. Т. 7. № 1(20). С. 78–85.
Ogundulu O. Methodological Foundations for Merging Structured and Unstructured Sources in ML Pipelines. The American Journal of Engineering and Technology. 2025. V. 7. № 9. P. 159–165. https://doi.org/10.37547/tajet/Volume07Issue09-10
Исмагулов М.Е. Репозиторий экспериментальных данных и результатов обработки видеолекций в рамках многомодельного конвейера [Электронный ресурс]. GitHub. Режим доступа: https://github.com/MilanIsmagulov/Multimodel-Pipeline-Result.git (дата обращения: 09.02.2026).

Дата поступления: 24.02.2026

Одобрена после рецензирования: 26.02.2026

Принята к публикации: 10.03.2026