文本到视频生成模型
一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。
文本到视频模型(英语:Text-to-Video Model)是一种机器学习模型,它使用自然语言描述作为输入,生成与输入文本相关的视频。[1] 2020年代,高质量文本到视频生成的进展主要得益于视频扩散模型的发展。[2]
模型
目前存在多种文本到视频模型,包括开源模型。中文输入的模型[3] CogVideo是最早开发的文本到视频模型之一,拥有94亿参数,其开源代码演示版本于2022年在GitHub上发布。[4] 同年,Meta Platforms发布了部分文本到视频模型“Make-A-Video”,[5][6][7] 而Google的Brain(后为Google DeepMind)推出了Imagen Video,这是一个基于3D U-Net的文本到视频模型。[8][9][10][11][12]
2023年3月,一篇题为“VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation”的研究论文发表,提出了一种新的视频生成方法。[13] VideoFusion模型将扩散过程分解为两个部分:基础噪声和残差噪声,这些部分在帧之间共享以确保时间一致性。通过使用预训练的图像扩散模型作为基础生成器,该模型能够高效生成高质量且连贯的视频。通过在视频数据上微调预训练模型,解决了图像和视频数据之间的领域差距,增强了模型生成逼真且一致视频序列的能力。[14] 同月,Adobe在其功能中引入了Firefly AI。[15]
2024年1月,Google宣布开发了一款名为Lumiere的文本到视频模型,预计将集成先进的视频编辑功能。[16] Matthias Niessner和Lourdes Agapito在AI公司Synthesia致力于开发3D神经渲染技术,通过使用2D和3D神经表示形状、外观和运动,实现可控的视频合成。[17] 2024年6月,Luma Labs推出了其Dream Machine视频工具。[18][19] 同月,[20] 快手将其Kling AI文本到视频模型扩展到国际用户。2024年7月,TikTok母公司字节跳动通过其子公司Faceu Technology在中国发布了Jimeng AI。[21] 到2024年9月,中国AI公司MiniMax推出了其video-01模型,加入了智谱AI、百川智能和月之暗面等AI模型公司的行列,推动中国在AI技术领域的参与。[22]
文本到视频模型的替代方法包括[23] Google的Phenaki、Hour One、Colossyan,[3] Runway的Gen-3 Alpha,[24][25] 以及OpenAI的Sora。[26] [27] 此外,还出现了Plug-and-Play、Text2LIVE和TuneAVideo等文本到视频模型。[28] Google还计划在2025年为YouTube Shorts推出名为Veo的视频生成工具。[29] FLUX.1的开发者Black Forest Labs宣布了其文本到视频模型SOTA。[30]
架构与训练
文本到视频模型的开发采用多种架构。与文生图模型类似,这些模型可使用循环神经网络(如长短期记忆网络)进行训练,此类方法应用于像素转换模型和随机视频生成模型,分别提升连贯性与真实感。[31] 其他替代架构包括Transformer模型。生成对抗网络、变分自编码器(用于人体运动预测)[32] 以及扩散模型也被用于图像生成部分的开发。[33]
用于模型训练的文本-视频数据集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[34][35] 这些数据集包含数百万原始视频、生成视频、带字幕视频及辅助训练的文本信息。此外PromptSource、DiffusionDB和VidProM等数据集提供多样化文本输入,指导模型解析不同提示。[34][35]
视频生成过程需要同步文本输入与视频帧序列,保证时序对齐与内容一致性。[35] 由于计算资源限制,视频长度增加时生成质量可能下降。[35]
局限性
尽管文本到视频模型性能快速提升,但其主要局限在于计算强度过高,导致难以生成高质量长视频。[36][37] 此外,模型需大量特定训练数据才能生成高质量内容,造成数据获取难题。[37][36]
模型可能误解文本提示,导致视频内容偏离预期。这源于语义上下文捕捉不足,影响视频与文本的语义对齐能力。[37][35] 当前正在优化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文本-视频对齐性能。[37]
伦理问题
文本到视频模型引发与内容生成相关的伦理和法律问题,可能产生不适当或未经授权的内容,包括侵权信息、虚假信息及未经许可使用真实人物肖像。[38] 确保AI生成内容符合安全伦理标准至关重要,因其生成内容可能难以识别有害性。AI对NSFW内容或版权材料的识别过滤仍存挑战,影响创作者与受众双方。[38]
影响与应用
文本到视频模型在教育宣传、创意产业等领域具有广泛应用前景,可简化培训视频、电影预告、游戏资产及可视化内容的生成流程。[39] 这些功能为用户带来经济效益与个性化体验。 2024年完成的首部全AI生成长片《时间真相》,部分旁白由约翰·德·兰西(《星际迷航:下一代》中"Q"的扮演者)担任。该片采用Runway Gen-3 Alpha和Kling 1.6等先进工具制作,相关著作《电影人工智能》探讨了文本到视频技术的局限性与实施挑战,以及图像到视频技术在关键镜头中的应用。
现有模型对比
模型/产品 | 公司 | 发布年份 | 状态 | 核心功能 | 能力特点 | 定价 | 视频时长 | 支持语言 |
---|---|---|---|---|---|---|---|---|
Synthesia | Synthesia | 2019 | 已发布 | AI数字人、支持60+语言、定制化选项[40] | 专注企业培训与营销数字人生成[40] | 订阅制,起价约30美元/月 | 依订阅方案变化 | 60+ |
InVideo AI | InVideo | 2021 | 已发布 | AI视频创作、大型素材库、AI讲解员[40] | 社交媒体模板适配[40] | 免费版可用,付费版起价16美元/月 | 依内容类型变化 | 多语言(未具体说明) |
Fliki | Fliki AI | 2022 | 已发布 | 支持AI数字人与语音、覆盖70种语言[40] | 提供65+数字人与2000+语音库[40] | 免费版可用,付费版起价30美元/月 | 依订阅方案变化 | 70+ |
Runway Gen-2 | Runway AI | 2023 | 已发布 | 支持文本/图像/视频多模态输入[41] | 高画质生成,含风格化与分镜模式[41] | 免费试用,付费方案未详述 | 最长16秒 | 多语言(未具体说明) |
Pika Labs | Pika Labs | 2024 | 测试版 | 动态视频生成、摄像机运动控制[42] | 自然动态生成,用户友好界面[42] | 测试期免费 | 支持帧延续生成较长视频 | 多语言(未具体说明) |
Runway Gen-3 Alpha | Runway AI | 2024 | 测试版 | 超高画质、照片级人物生成、精细时序控制[43] | 影视级定制化生成[43] | 免费试用,企业定制定价 | 单片段最长10秒,可扩展 | 多语言(未具体说明) |
OpenAI Sora | OpenAI | 2024 | 测试版 | 深度语义理解、电影级视觉效果、多镜头生成[44] | 支持细节丰富、动态感强的情绪化视频生成,处于安全测试阶段[44] | 定价未公布 | 预计支持长视频(时长待定) | 多语言(未具体说明) |
相关条目
参考资料
- ^ Artificial Intelligence Index Report 2023 (PDF) (报告). Stanford Institute for Human-Centered Artificial Intelligence: 98. [2025-03-13]. (原始内容存档 (PDF)于2025-02-26).
Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.
- ^ Melnik, Andrew; Ljubljanac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge. Video Diffusion Models: A Survey. 2024-05-06. arXiv:2405.03150
[cs.CV].
- ^ 3.0 3.1 Wodecki, Ben. Text-to-Video Generative AI Models: The Definitive List. AI Business. Informa. 2023-08-11 [2024-11-18]. (原始内容存档于2025-03-05).
- ^ CogVideo, THUDM, 2022-10-12 [2022-10-12]
- ^ Davies, Teli. Make-A-Video: Meta AI's New Model For Text-To-Video Generation. Weights & Biases. 2022-09-29 [2022-10-12]. (原始内容存档于2025-03-05) (英语).
- ^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt. Medium. 2022-08-03 [2022-10-12]. (原始内容存档于2023-08-22) (英语).
- ^ Meta's Make-A-Video AI creates videos from text. www.fonearena.com. [2022-10-12]. (原始内容存档于2024-12-27).
- ^ google: Google takes on Meta, introduces own video-generating AI. The Economic Times. 2022-10-06 [2022-10-12]. (原始内容存档于2023-06-05).
- ^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt. Medium. 2022-08-03 [2022-10-12]. (原始内容存档于2023-08-22) (英语).
- ^ Nuh-uh, Meta, we can do text-to-video AI, too, says Google. The Register. [2022-10-12].
- ^ Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction. paperswithcode.com. [2022-10-12] (英语).
- ^ Papers with Code - Text-driven Video Prediction. paperswithcode.com. [2022-10-12]. (原始内容存档于2025-02-19) (英语).
- ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320
[cs.CV].
- ^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320
[cs.CV].
- ^ Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom. Adobe Inc. 2024-10-10 [2024-11-18]. (原始内容存档于2025-01-08).
- ^ Yirka, Bob. Google announces the development of Lumiere, an AI-based next-generation text-to-video generator.. Tech Xplore. 2024-01-26 [2024-11-18].
- ^ Text to Speech for Videos. Synthesia.io. [2023-10-17]. (原始内容存档于2024-03-04).
- ^ Nuñez, Michael. Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race. VentureBeat. 2024-06-12 [2024-11-18]. (原始内容存档于2025-03-05) (美国英语).
- ^ Fink, Charlie. Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video. Forbes. [2024-11-18]. (原始内容存档于2024-12-12) (英语).
- ^ Franzen, Carl. What you need to know about Kling, the AI video generator rival to Sora that's wowing creators. VentureBeat. 2024-06-12 [2024-11-18]. (原始内容存档于2024-06-27) (美国英语).
- ^ ByteDance joins OpenAI's Sora rivals with AI video app launch. Reuters. 2024-08-06 [2024-11-18].
- ^ Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora. Yahoo! Finance. 2024-09-02 [2024-11-18].
- ^ Text2Video-Zero, Picsart AI Research (PAIR), 2023-08-12 [2023-08-12]
- ^ Kemper, Jonathan. Runway's Sora competitor Gen-3 Alpha now available. THE DECODER. 2024-07-01 [2024-11-18]. (原始内容存档于2024-12-26) (美国英语).
- ^ Generative AI's Next Frontier Is Video. Bloomberg.com. 2023-03-20 [2024-11-18]. (原始内容存档于2023-03-21) (英语).
- ^ OpenAI teases 'Sora,' its new text-to-video AI model. NBC News. 2024-02-15 [2024-11-18]. (原始内容存档于2024-02-15) (英语).
- ^ Kelly, Chris. Toys R Us creates first brand film to use OpenAI's text-to-video tool. Marketing Dive. Informa. 2024-06-25 [2024-11-18]. (原始内容存档于2025-01-08) (美国英语).
- ^ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong. Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network. 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT). IEEE. 2023-08-04: 108–114 [2025-03-13]. ISBN 979-8-3503-4269-7. doi:10.1109/CCPQT60491.2023.00024. (原始内容存档于2024-12-15).
- ^ Forlini, Emily Dreibelbis. Google's veo text-to-video AI generator is coming to YouTube shorts. PC Magazine. 2024-09-18 [2024-11-18]. (原始内容存档于2025-03-06).
- ^ Announcing Black Forest Labs. Black Forest Labs. 2024-08-01 [2024-11-18]. (原始内容存档于2024-11-17) (美国英语).
- ^ Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13]. ISBN 978-1-7281-7590-4. doi:10.1109/PICC51425.2020.9362485. (原始内容存档于2024-12-12).
- ^ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo. Human Motion Aware Text-to-Video Generation with Explicit Camera Control. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE. 2024-01-03: 5069–5078. ISBN 979-8-3503-1892-0. doi:10.1109/WACV57701.2024.00500.
- ^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329
. doi:10.1109/AIRC57904.2023.10303174. (原始内容存档于2024-12-15).
- ^ 34.0 34.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965
[cs.CV].
- ^ 35.0 35.1 35.2 35.3 35.4 Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping. From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification. 2018 24th International Conference on Pattern Recognition (ICPR). IEEE. August 2018: 1695–1700 [2025-03-13]. ISBN 978-1-5386-3788-3. doi:10.1109/ICPR.2018.8545513. (原始内容存档于2024-12-13).
- ^ 36.0 36.1 Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches. 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13]. ISBN 978-1-7281-7590-4. doi:10.1109/PICC51425.2020.9362485. (原始内容存档于2024-12-12).
- ^ 37.0 37.1 37.2 37.3 Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329
. doi:10.1109/AIRC57904.2023.10303174. (原始内容存档于2024-12-15).
- ^ 38.0 38.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965
[cs.CV].
- ^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators. 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13]. ISBN 979-8-3503-4824-8. arXiv:2311.06329
. doi:10.1109/AIRC57904.2023.10303174. (原始内容存档于2024-12-15).
- ^ 40.0 40.1 40.2 40.3 40.4 40.5 Top AI Video Generation Models of 2024. Deepgram. [2024-08-30]. (原始内容存档于2024-11-03) (英语).
- ^ 41.0 41.1 Runway Research | Gen-2: Generate novel videos with text, images or video clips. runwayml.com. [2024-08-30]. (原始内容存档于2025-02-27) (英语).
- ^ 42.0 42.1 Sharma, Shubham. Pika Labs' text-to-video AI platform opens to all: Here's how to use it. VentureBeat. 2023-12-26 [2024-08-30]. (原始内容存档于2024-12-13) (美国英语).
- ^ 43.0 43.1 Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation. runwayml.com. [2024-08-30]. (原始内容存档于2025-03-13) (英语).
- ^ 44.0 44.1 Sora | OpenAI. openai.com. [2024-08-30]. (原始内容存档于2025-03-05).