4K、多模态、长视频:AI视频生成的下一个战场,谁在领跑?
关键词: 豆包Seedance 1.0 pro AI视频生成模型 视频生成技术 模型对比 市场前景
电子发烧友网报道(文/李弯弯) 6月11日,豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型,支持文字与图片输入,可生成多镜头无缝切换的1080P高品质视频,主体运动稳定性与画面自然度较高。
相关技术报告显示,在国际知名评测榜单Artificial Analysis上,Seedance在文生视频、图生视频两项任务上均排名首位,超越Veo3、可灵2.0等优秀模型。目前,该模型已通过豆包App、即梦AI、火山引擎等平台对外开放。
笔者在在豆包App试用,发现真的非常方便好用,比如,只需在对话框选择“照片动起来”,上传图片或输入文字指令,等待一会儿就能生成一段视频。相较此前效果,新模型的视频结果更符合物理逻辑且富于生动张力,同时可以保持对原图人脸的保真度。
除了豆包的视频生成模型之外,近年来,国内外已经出现过多款视频生成模型,如国外的Runway、Pika、Sora、Veo,国内有可灵、PixVerse、腾讯混元、通义万相等。
Runway
2025年4月8日,Runway 官方称,现已推出最新版视频模型Gen-4 Turbo。Gen-4Turbo是Runway Gen-4系列的最新迭代版本。相较于此前的模型,Gen-4Turbo在保持高保真度和动态运动表现的基础上,大幅缩短了生成时间。使用 Gen-4 Turbo,用户只需 30 秒即可生成10秒的视频,非常适合快速迭代和创意探索。Runway方面表示,Gen-4Turbo现已开始向所有付费用户逐步开放,包括个人用户和企业客户。
Pika
当地时间2024年12月13日,美国AI视频生成初创公司Pika推出了新版视频生成模型 Pika 2.0。Pika 2.0最大的亮点是其卓越的可定制性,新推出的“场景配料”功能,允许用户上传和自定义角色、物体和场景等各个元素。通过先进的图像识别技术,这些元素能够完美地融入场景中,让创作者能够更精细地控制内容。
在技术层面,Pika 2.0 在文本对齐和运动渲染方面都实现了新突破。系统能够准确理解并执行复杂的文字提示,即使是最具挑战性的场景描述也能被完整地转化为连贯的视频片段。不论是真实世界的自然运动,还是科幻场景中的特效,都能呈现出令人信服的效果。
Sora
2024年12月,OpenAI推出AI视频生成模型Sora。OpenAI表示,该工具不仅可以通过文本提示生成视频,还能够基于静态图片和已有视频创建新的内容。例如,用户可以上传一段视频剪辑,Sora会生成扩展这个片段的后续画面,使视频变得更长、更完整。新版工具Sora Turbo可以生成最长达20秒的视频,并且可以提供这些视频的多种变体。
Veo 3
在今年5月的I/O开发者大会上,谷歌发布第三代视频生成模型Veo 3。Veo 3能够根据提示词生成高质量视频,同时自动生成与画面同步的对白、唇动对齐、拟真环境音效以及情绪氛围音轨。其底层技术V2A(Video-to-Audio)通过将视频像素转化为语义信号,结合文本提示生成同步音频波形,从而实现了音画同步。
Veo 3的音画同步功能基于对物理世界的深刻理解,能够实时生成与画面匹配的声音,例如脚步声、烹饪声等,而不是后期拼接。此外,Veo 3还能精准捕捉画面情绪,渲染氛围音效,甚至在多角色、多种风格的复杂场景下表现出色。在长提示词理解与事件流生成方面,Veo 3也能处理复杂的事件流,生成逻辑连贯、多步骤执行的视频片段。
可灵AI
2025年4月15日,可灵AI宣布基座模型升级,面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵是全球首个用户可用的DiT(Diffusion Transformer)视频生成模型,其2.0版本的模型在动态质量、语义响应和画面美学做了相应提升,而可图2.0模型主要集中在指令遵循、电影质感及艺术风格表现等方面。
5月29日,可灵AI宣布,推出全新可灵2.1系列模型。可灵2.1模型包含标准(720p)、高品质(1080p)两种模式,主打高性价比和高效生成。其高品质模式(1080p)生成5s视频仅需不到1分钟,处于业内领先水平。在动态表现方面,模型动态细节更好、动态响应更强、动态幅度更大;其次,物理模拟更真实,人物动作幅度等更加贴近现实。
PixVerse(拍我AI)
最近,美国iOS应用商店有一个新变化。全球用户量最大的国产AI视频生成平台之一——PixVerse更新了4.5版本,一下子冲到了美国iOS应用商店总榜第四,视频类应用第一。今年6月初,PixVerse正式推出国内版产品——拍我AI,同步上线网页端及移动端应用,并开放最新V4.5模型供用户使用。据介绍,PixVerse自海外上线以来,已累计吸引全球超6000万用户,月活跃用户突破1600万,居AI视频生成领域第一梯队。
V4.5模型在生成速度、画面精细度及多主体控制等方面均有显著优化,支持更复杂的电影级运镜与多角色互动叙事。“拍我AI”采用“App+网页端”双端策略,满足不同用户群体的需求:App端主打趣味化、低门槛体验,内置百余种创意模板,如“宠物跳舞”“喷火特效”等,用户上传一张照片即可一键生成高质量短视频,极大降低AI视频创作的技术门槛。
网页端则面向专业创作者,提供更精细的参数调节功能,支持多主体运动控制、动态运镜及智能音效匹配,适用于短剧制作、广告创意、游戏开发等高阶需求。
除服务C端用户外,“拍我AI”还推出了企业级API开放平台,目前已与百度、科大讯飞、蓝色光标等国内头部企业达成合作,提供高效的视频生成工具。企业可通过API快速生成营销视频、电商素材、私域运营内容等,大幅降低传统视频制作的成本与时间。
腾讯混元
2025年3月6日,据腾讯混元消息,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及2K高质量视频。腾讯混元图生视频模型目前已经上线,企业和开发者可在腾讯云申请使用API接口;用户通过混元AI视频官网即可体验。混元视频生成开源模型目前在Github、HuggingFace等主流开发者社区均可下载体验。
基于图生视频的能力,用户只需上传一张图片,并简短描述希望画面如何运动、镜头如何调度等,混元即可按照用户要求让图片动起来,变成5秒的短视频,还能自动配上合适的背景音效。此外,上传一张人物图片,并输入希望“对口型”的文字或音频,图片中的人物即可“说话”或“唱歌”;如果选择动作模版,还能一键生成同款跳舞视频。目前用户通过混元AI视频官网即可体验,企业和开发者可在腾讯云申请使用API接口使用。
通义万相
2024年9月 19 日,在杭州云栖大会上,阿里云CTO周靖人宣布通义万相全面升级,并发布全新视频生成模型,可生成影视级高清视频,可应用于影视创作、动画设计、广告设计等领域。即日起,所有用户可通过通义APP及通义万相官网免费体验。
通义万相首批上线文生视频、图生视频功能,在文生视频功能中,用户输入任意文字提示词,即可生成一段高清视频,支持中英文多语言输入,并可以通过灵感扩写功能智能丰富视频内容表现力,支持16:9、9:16等多种比例生成;在图生视频功能中,支持用户将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成,同时可以通过提示词来控制视频运动。现场,阿里云演示了该模型强大的运动生成和概念组合能力,输入“穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景”,通义万相仅用数分钟就能生成一段高清、逼真的视频。
写在最后
AI视频生成工具有着可观的市场前景,如在影视制作领域,AI可承担分镜设计、后期渲染等任务,降低制作成本,缩短周期;在广告营销领域,可支持批量生成个性化广告,通过数字人形象与用户实时互动,提升转化率;在教育领域,可模拟复杂操作流程,提供3D动态演示,提升学习效率。
如今国内外企业已经推出众多AI视频生成模型工具。在技术迭代上,主流模型已经实现4K分辨率、60秒以上视频生成,并支持多模态输入,包括文本、图像、音频。尽管如此,AI视频生成仍然有很多不足之处,如复杂物理交互仍易出错;大多模型在生成较长时间视频方面仍存在困难;高分辨率视频生成需要强大硬件支持,训练和推理成本高昂等。所以,如论是从模型角度还是硬件支持角度,AI视频生成模型还有待持续优化。
