500 руб
Журнал «Нейрокомпьютеры: разработка, применение» №2 за 2026 г.
Статья в номере:
Обзор методов искусственного интеллекта для генерации видеоконтента и их применение в построении цифровых двойников ситуационных центров
Тип статьи: научная статья
DOI: https://doi.org/10.18127/j19998554-202602-07
УДК: 004
Авторы:

А.С. Себякин1
1 Финансовый университет при Правительстве Российской Федерации (Москва, Россия)

1 249702@edu.fa.ru

Аннотация:

Постановка проблемы. Методы генерации видеоконтента на базе искусственного интеллекта становятся важным компонентом цифровых двойников ситуационных центров, однако их практическое применение осложняется требованиями к пространственно-временной согласованности, управляемости и воспроизводимости результатов, высокой вычислительной стоимостью и рисками злоупотребления deepfake-технологиями.

Цель. Систематизировать актуальные подходы к генерации видео (GAN, диффузионные модели и трансформерные архитектуры), выделить механизмы обеспечения временной согласованности и управляемости, а также определить метрики и факторы, критичные для применения в цифровых двойниках ситуационных центров.

Результаты. Выполнен обзор и предложена классификация методов по типу условности (текст/изображение/видео/аудио), по архитектуре генератора и по способам поддержания консистентности. Выделены практические механизмы: временное self-attention, декомпозиция «контент-движение», генерация в латентном (скрытом) пространстве, каскадирование и работа с длинным контекстом. Систематизированы метрики оценки синтетического видео (перцептивные, дистрибутивные, семантические и динамические), и описаны ключевые ограничения: ресурсоемкость, переносимость на новые домены, требования к данным и меры безопасности (маркировка/водяные знаки, защита авторских прав и комплаенс).

Практическая значимость. Результаты работы могут быть использованы при проектировании цифровых двойников ситуационных центров для визуализации сценариев «what–if», формирования обучающих симуляций и повышения прозрачности принятия решений при соблюдении требований надежности и этики.

Страницы: 78-84
Для цитирования

Себякин А.С. Обзор методов искусственного интеллекта для генерации видеоконтента и их применение в построении цифровых двойников ситуационных центров // Нейрокомпьютеры: разработка, применение. 2026. Т. 28. № 2. С. 78–84. DOI: https://doi.org/10.18127/j19998554-202602-07

Список источников
  1. Ramesh A. et al. Zero-shot text-to-image generation // Proceedings of the 38th International Conference on Machine Learning. 2021. V. 139. P. 8821–8831 [Электронный ресурс] / URL: https://proceedings.mlr.press/v139/ramesh21a.html (дата обращения: 12.12.2025).
  2. Chang H. et al. Muse: Text-to-image generation via masked generative transformers // Proceedings of the 40th International Conference on Machine Learning. 2023. V. 202. P. 4055–4075 [Электронный ресурс] / URL: https://proceedings.mlr.press/v202/ chang23b.html (дата обращения: 12.12.2025).
  3. Xing Z. et al. A survey on video diffusion models // arXiv preprint. arXiv:2310.10647. 2023 [Электронный ресурс] / URL: https://arxiv.org/abs/2310.10647 (дата обращения: 12.12.2025).
  4. Melnik A., Ljubljanac M., Lu C. et al. Video diffusion models: A survey // arXiv preprint. arXiv:2405.03150. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2405.03150 (дата обращения: 12.12.2025).
  5. Lei W., Wang J., Ma F. et al. A comprehensive survey on human video generation: Challenges, methods, and insights // arXiv preprint. arXiv:2407.08428. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2407.08428 (дата обращения: 12.12.2025).
  6. Li H., Zhang Y., Shi H. et al. A survey: Spatiotemporal consistency in video generation // arXiv preprint. arXiv:2502.17863. 2025 [Электронный ресурс] / URL: https://arxiv.org/abs/2502.17863 (дата обращения: 12.12.2025).
  7. Chen M., Liu X. et al. Neural video generation: State-of-the-art and future directions // ACM Computing Surveys. 2024. V. 56. № 2. P. 1–35.
  8. Zhang H., Goodfellow I., Metaxas D. et al. Self-attention generative adversarial networks // Proceedings of the 36th International Conference on Machine Learning. 2019. V. 97. P. 7354–7363 [Электронный ресурс] / URL: https://proceedings.mlr.press/v97/ zhang19d.html (дата обращения: 12.12.2025).
  9. Karras T., Aittala M., Hellsten J. et al. Alias-free generative adversarial networks // arXiv preprint. arXiv:2106.12423. 2021 [Электронный ресурс] / URL: https://arxiv.org/abs/2106.12423 (дата обращения: 12.12.2025).
  10. Luo Z. et al. VideoFusion: Decomposed diffusion models for high-quality video generation // arXiv preprint. arXiv:2303.08320. 2023 [Электронный ресурс] / URL: https://arxiv.org/abs/2303.08320 (дата обращения: 12.12.2025).
  11. Sora is here // OpenAI, 9 Dec 2024 [Электронный ресурс] / URL: https://openai.com/index/sora-is-here/.
  12. Villegas R., Yang J., Zou Y. et al. Phenaki: Variable length video generation from open domain textual descriptions // arXiv preprint. arXiv:2209.06794. 2022 [Электронный ресурс] / URL: https://arxiv.org/abs/2209.06794 (дата обращения: 12.12.2025).
  13. Press A. OpenAI releases AI video generator sora but limits how it depicts people. 2024 [Электронный ресурс] / URL: https://apnews.com/ article/openai-sora-generative-ai-texttovideo-214d578d048f39c9c7b327f870dc6df8.
  14. Introducing runway gen-4. 2025 [Электронный ресурс] / URL: https://runwayml.com/research/introducing-runway-gen-4.
  15. Methodologies for the subjective assessment of the quality of television images / Recommendation ITU-R BT.500-15. 2023 [Электронный ресурс] / URL: https://www.itu.int/rec/R-REC-BT.500-15-202305-I (дата обращения: 12.12.2025).
  16. Unterthiner T., van Steenkiste S., Kurach K. et al. Towards accurate generative models of video: A new metric and challenges // arXiv preprint. arXiv:1812.01717. 2019 [Электронный ресурс] / URL: https://arxiv.org/abs/1812.01717 (дата обращения: 12.12.2025).
  17. Luo G.Y., Favero G.M., Luo Z.H. et al. Beyond FVD: Enhanced evaluation metrics for video generation quality // arXiv preprint. arXiv:2410.05203. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2410.05203 (дата обращения: 12.12.2025).
  18. Kim P.J., Kim S., Yoo J. STREAM: Spatio-temporal evaluation and analysis metric for video generative models // arXiv preprint. arXiv:2403.09669. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2403.09669 (дата обращения: 12.12.2025).
  19. Liu J., Qu Y., Yan Q. et al. Fréchet video motion distance: A metric for evaluating motion consistency in videos // arXiv preprint. arXiv:2407.16124. 2024 [Электронный ресурс] / URL: https://arxiv.org/abs/2407.16124 (дата обращения: 12.12.2025).
  20. Mavlankar A., Li Z., Krasula L. All of netflix’s HDR video streaming is now dynamically optimized // Netflix TechBlog. 29 Nov 2023 [Электронный ресурс] / URL: https://netflixtechblog.com/all-of-netflixs-hdr-video-streaming-is-now-dynamically-optimized-e9e0cb15f2ba.
  21. Radford A. et al. Learning transferable visual models from natural language supervision // arXiv preprint. arXiv:2103.00020. 2021 [Электронный ресурс] / URL: https://arxiv.org/abs/2103.00020 (дата обращения: 12.12.2025).
  22. Фридман А.Я., Куликова Д.С., Осипов В.Ю., Дружинин В.Ю. Онтологическая модель цифрового двойника для интеллектуальных систем управления // Проблемы управления безопасностью сложных систем. 2022. № 3. С. 34–49.
  23. Purdue University. Digital twin & robotic automation center (DigiTRACKER). 2023 [Электронный ресурс] / URL: https://engineering. purdue.edu/digitwin/.
  24. Deceptive audio or visual media («deepfakes»). 2024 [Электронный ресурс] / URL: https://www.ncsl.org/technology-and-commu­nication/deceptive-audio-or-visual-media-deepfakes-2024-legislation.
  25. Report on deepfakes: What the Copyright office found and what comes next in AI regulation // Reuters. 18 Dec 2024 [Электронный ресурс] / URL: https://www.reuters.com/legal/government/report-deepfakes-what-copyright-office-found-what-comes-next-ai-regulation-2024-12-18/.
Дата поступления: 14.01.2026
Одобрена после рецензирования: 04.02.2026
Принята к публикации: 10.03.2026