Обзор методов искусственного интеллекта для генерации видеоконтента и их применение в построении цифровых двойников ситуационных центров

500 руб

Журнал «Нейрокомпьютеры: разработка, применение» №2 за 2026 г.

Статья в номере:

Тип статьи: научная статья

DOI: https://doi.org/10.18127/j19998554-202602-07

УДК: 004

Ключевые слова: Искусственный интеллект цифровой двойник ситуационный центр генерация видеоконтента

Авторы:

А.С. Себякин1
1 Финансовый университет при Правительстве Российской Федерации (Москва, Россия)

1 249702@edu.fa.ru

Аннотация:

Постановка проблемы. Методы генерации видеоконтента на базе искусственного интеллекта становятся важным компонентом цифровых двойников ситуационных центров, однако их практическое применение осложняется требованиями к пространственно-временной согласованности, управляемости и воспроизводимости результатов, высокой вычислительной стоимостью и рисками злоупотребления deepfake-технологиями.

Цель. Систематизировать актуальные подходы к генерации видео (GAN, диффузионные модели и трансформерные архитектуры), выделить механизмы обеспечения временной согласованности и управляемости, а также определить метрики и факторы, критичные для применения в цифровых двойниках ситуационных центров.

Результаты. Выполнен обзор и предложена классификация методов по типу условности (текст/изображение/видео/аудио), по архитектуре генератора и по способам поддержания консистентности. Выделены практические механизмы: временное self-attention, декомпозиция «контент-движение», генерация в латентном (скрытом) пространстве, каскадирование и работа с длинным контекстом. Систематизированы метрики оценки синтетического видео (перцептивные, дистрибутивные, семантические и динамические), и описаны ключевые ограничения: ресурсоемкость, переносимость на новые домены, требования к данным и меры безопасности (маркировка/водяные знаки, защита авторских прав и комплаенс).

Практическая значимость. Результаты работы могут быть использованы при проектировании цифровых двойников ситуационных центров для визуализации сценариев «what–if», формирования обучающих симуляций и повышения прозрачности принятия решений при соблюдении требований надежности и этики.

Страницы: 78-84

Для цитирования

Себякин А.С. Обзор методов искусственного интеллекта для генерации видеоконтента и их применение в построении цифровых двойников ситуационных центров // Нейрокомпьютеры: разработка, применение. 2026. Т. 28. № 2. С. 78–84. DOI: https://doi.org/10.18127/j19998554-202602-07

Список источников

Ramesh A. et al. Zero-shot text-to-image generation // Proceedings of the 38th International Conference on Machine Learning. 2021. V. 139. P. 8821–8831 [Электронный ресурс] / URL: https://proceedings.mlr.press/v139/ramesh21a.html (дата обращения: 12.12.2025).
Chang H. et al. Muse: Text-to-image generation via masked generative transformers // Proceedings of the 40th International Conference on Machine Learning. 2023. V. 202. P. 4055–4075 [Электронный ресурс] / URL: https://proceedings.mlr.press/v202/ chang23b.html (дата обращения: 12.12.2025).
Xing Z. et al. A survey on video diffusion models // arXiv preprint. arXiv:2310.10647. 2023 [Электронный ресурс] / URL: https://arxiv.org/abs/2310.10647 (дата обращения: 12.12.2025).
Melnik A., Ljubljanac M., Lu C. et al. Video diffusion models: A survey // arXiv preprint. arXiv:2405.03150. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2405.03150 (дата обращения: 12.12.2025).
Lei W., Wang J., Ma F. et al. A comprehensive survey on human video generation: Challenges, methods, and insights // arXiv preprint. arXiv:2407.08428. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2407.08428 (дата обращения: 12.12.2025).
Li H., Zhang Y., Shi H. et al. A survey: Spatiotemporal consistency in video generation // arXiv preprint. arXiv:2502.17863. 2025 [Электронный ресурс] / URL: https://arxiv.org/abs/2502.17863 (дата обращения: 12.12.2025).
Chen M., Liu X. et al. Neural video generation: State-of-the-art and future directions // ACM Computing Surveys. 2024. V. 56. № 2. P. 1–35.
Zhang H., Goodfellow I., Metaxas D. et al. Self-attention generative adversarial networks // Proceedings of the 36th International Conference on Machine Learning. 2019. V. 97. P. 7354–7363 [Электронный ресурс] / URL: https://proceedings.mlr.press/v97/ zhang19d.html (дата обращения: 12.12.2025).
Karras T., Aittala M., Hellsten J. et al. Alias-free generative adversarial networks // arXiv preprint. arXiv:2106.12423. 2021 [Электронный ресурс] / URL: https://arxiv.org/abs/2106.12423 (дата обращения: 12.12.2025).
Luo Z. et al. VideoFusion: Decomposed diffusion models for high-quality video generation // arXiv preprint. arXiv:2303.08320. 2023 [Электронный ресурс] / URL: https://arxiv.org/abs/2303.08320 (дата обращения: 12.12.2025).
Sora is here // OpenAI, 9 Dec 2024 [Электронный ресурс] / URL: https://openai.com/index/sora-is-here/.
Villegas R., Yang J., Zou Y. et al. Phenaki: Variable length video generation from open domain textual descriptions // arXiv preprint. arXiv:2209.06794. 2022 [Электронный ресурс] / URL: https://arxiv.org/abs/2209.06794 (дата обращения: 12.12.2025).
Press A. OpenAI releases AI video generator sora but limits how it depicts people. 2024 [Электронный ресурс] / URL: https://apnews.com/ article/openai-sora-generative-ai-texttovideo-214d578d048f39c9c7b327f870dc6df8.
Introducing runway gen-4. 2025 [Электронный ресурс] / URL: https://runwayml.com/research/introducing-runway-gen-4.
Methodologies for the subjective assessment of the quality of television images / Recommendation ITU-R BT.500-15. 2023 [Электронный ресурс] / URL: https://www.itu.int/rec/R-REC-BT.500-15-202305-I (дата обращения: 12.12.2025).
Unterthiner T., van Steenkiste S., Kurach K. et al. Towards accurate generative models of video: A new metric and challenges // arXiv preprint. arXiv:1812.01717. 2019 [Электронный ресурс] / URL: https://arxiv.org/abs/1812.01717 (дата обращения: 12.12.2025).
Luo G.Y., Favero G.M., Luo Z.H. et al. Beyond FVD: Enhanced evaluation metrics for video generation quality // arXiv preprint. arXiv:2410.05203. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2410.05203 (дата обращения: 12.12.2025).
Kim P.J., Kim S., Yoo J. STREAM: Spatio-temporal evaluation and analysis metric for video generative models // arXiv preprint. arXiv:2403.09669. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2403.09669 (дата обращения: 12.12.2025).
Liu J., Qu Y., Yan Q. et al. Fréchet video motion distance: A metric for evaluating motion consistency in videos // arXiv preprint. arXiv:2407.16124. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2407.16124 (дата обращения: 12.12.2025).
Mavlankar A., Li Z., Krasula L. All of netflix’s HDR video streaming is now dynamically optimized // Netflix TechBlog. 29 Nov 2023 [Электронный ресурс] / URL: https://netflixtechblog.com/all-of-netflixs-hdr-video-streaming-is-now-dynamically-optimized-e9e0cb15f2ba.
Radford A. et al. Learning transferable visual models from natural language supervision // arXiv preprint. arXiv:2103.00020. 2021 [Электронный ресурс] / URL: https://arxiv.org/abs/2103.00020 (дата обращения: 12.12.2025).
Фридман А.Я., Куликова Д.С., Осипов В.Ю., Дружинин В.Ю. Онтологическая модель цифрового двойника для интеллектуальных систем управления // Проблемы управления безопасностью сложных систем. 2022. № 3. С. 34–49.
Purdue University. Digital twin & robotic automation center (DigiTRACKER). 2023 [Электронный ресурс] / URL: https://engineering. purdue.edu/digitwin/.
Deceptive audio or visual media («deepfakes»). 2024 [Электронный ресурс] / URL: https://www.ncsl.org/technology-and-communication/deceptive-audio-or-visual-media-deepfakes-2024-legislation.
Report on deepfakes: What the Copyright office found and what comes next in AI regulation // Reuters. 18 Dec 2024 [Электронный ресурс] / URL: https://www.reuters.com/legal/government/report-deepfakes-what-copyright-office-found-what-comes-next-ai-regulation-2024-12-18/.

Дата поступления: 14.01.2026

Одобрена после рецензирования: 04.02.2026

Принята к публикации: 10.03.2026