4K、多模态、长视频：AI视频生成的下一个战场，谁在领跑？

2025-06-16 来源：电子发烧友

1267

关键词：豆包Seedance 1.0 pro AI视频生成模型视频生成技术模型对比市场前景

电子发烧友网报道（文/李弯弯） 6月11日，豆包App上线视频生成模型豆包Seedance 1.0 pro。这是字节跳动最新视频模型，支持文字与图片输入，可生成多镜头无缝切换的1080P高品质视频，主体运动稳定性与画面自然度较高。

相关技术报告显示，在国际知名评测榜单Artificial Analysis上，Seedance在文生视频、图生视频两项任务上均排名首位，超越Veo3、可灵2.0等优秀模型。目前，该模型已通过豆包App、即梦AI、火山引擎等平台对外开放。

笔者在在豆包App试用，发现真的非常方便好用，比如，只需在对话框选择“照片动起来”，上传图片或输入文字指令，等待一会儿就能生成一段视频。相较此前效果，新模型的视频结果更符合物理逻辑且富于生动张力，同时可以保持对原图人脸的保真度。

除了豆包的视频生成模型之外，近年来，国内外已经出现过多款视频生成模型，如国外的Runway、Pika、Sora、Veo，国内有可灵、PixVerse、腾讯混元、通义万相等。

Runway

2025年4月8日，Runway 官方称，现已推出最新版视频模型Gen-4 Turbo。Gen-4Turbo是Runway Gen-4系列的最新迭代版本。相较于此前的模型，Gen-4Turbo在保持高保真度和动态运动表现的基础上，大幅缩短了生成时间。使用 Gen-4 Turbo，用户只需 30 秒即可生成10秒的视频，非常适合快速迭代和创意探索。Runway方面表示，Gen-4Turbo现已开始向所有付费用户逐步开放，包括个人用户和企业客户。

Pika

当地时间2024年12月13日，美国AI视频生成初创公司Pika推出了新版视频生成模型 Pika 2.0。Pika 2.0最大的亮点是其卓越的可定制性，新推出的“场景配料”功能，允许用户上传和自定义角色、物体和场景等各个元素。通过先进的图像识别技术，这些元素能够完美地融入场景中，让创作者能够更精细地控制内容。

在技术层面，Pika 2.0 在文本对齐和运动渲染方面都实现了新突破。系统能够准确理解并执行复杂的文字提示，即使是最具挑战性的场景描述也能被完整地转化为连贯的视频片段。不论是真实世界的自然运动，还是科幻场景中的特效，都能呈现出令人信服的效果。

Sora

2024年12月，OpenAI推出AI视频生成模型Sora。OpenAI表示，该工具不仅可以通过文本提示生成视频，还能够基于静态图片和已有视频创建新的内容。例如，用户可以上传一段视频剪辑，Sora会生成扩展这个片段的后续画面，使视频变得更长、更完整。新版工具Sora Turbo可以生成最长达20秒的视频，并且可以提供这些视频的多种变体。

Veo 3

在今年5月的I/O开发者大会上，谷歌发布第三代视频生成模型Veo 3。Veo 3能够根据提示词生成高质量视频，同时自动生成与画面同步的对白、唇动对齐、拟真环境音效以及情绪氛围音轨。其底层技术V2A（Video-to-Audio）通过将视频像素转化为语义信号，结合文本提示生成同步音频波形，从而实现了音画同步。

Veo 3的音画同步功能基于对物理世界的深刻理解，能够实时生成与画面匹配的声音，例如脚步声、烹饪声等，而不是后期拼接。此外，Veo 3还能精准捕捉画面情绪，渲染氛围音效，甚至在多角色、多种风格的复杂场景下表现出色。在长提示词理解与事件流生成方面，Veo 3也能处理复杂的事件流，生成逻辑连贯、多步骤执行的视频片段。

可灵AI

2025年4月15日，可灵AI宣布基座模型升级，面向全球正式发布可灵2.0视频生成模型及可图2.0图像生成模型。可灵是全球首个用户可用的DiT（Diffusion Transformer）视频生成模型，其2.0版本的模型在动态质量、语义响应和画面美学做了相应提升，而可图2.0模型主要集中在指令遵循、电影质感及艺术风格表现等方面。

5月29日，可灵AI宣布，推出全新可灵2.1系列模型。可灵2.1模型包含标准（720p）、高品质（1080p）两种模式，主打高性价比和高效生成。其高品质模式（1080p）生成5s视频仅需不到1分钟，处于业内领先水平。在动态表现方面，模型动态细节更好、动态响应更强、动态幅度更大；其次，物理模拟更真实，人物动作幅度等更加贴近现实。

PixVerse（拍我AI）

最近，美国iOS应用商店有一个新变化。全球用户量最大的国产AI视频生成平台之一——PixVerse更新了4.5版本，一下子冲到了美国iOS应用商店总榜第四，视频类应用第一。今年6月初，PixVerse正式推出国内版产品——拍我AI，同步上线网页端及移动端应用，并开放最新V4.5模型供用户使用。据介绍，PixVerse自海外上线以来，已累计吸引全球超6000万用户，月活跃用户突破1600万，居AI视频生成领域第一梯队。

V4.5模型在生成速度、画面精细度及多主体控制等方面均有显著优化，支持更复杂的电影级运镜与多角色互动叙事。“拍我AI”采用“App+网页端”双端策略，满足不同用户群体的需求：App端主打趣味化、低门槛体验，内置百余种创意模板，如“宠物跳舞”“喷火特效”等，用户上传一张照片即可一键生成高质量短视频，极大降低AI视频创作的技术门槛。

网页端则面向专业创作者，提供更精细的参数调节功能，支持多主体运动控制、动态运镜及智能音效匹配，适用于短剧制作、广告创意、游戏开发等高阶需求。

除服务C端用户外，“拍我AI”还推出了企业级API开放平台，目前已与百度、科大讯飞、蓝色光标等国内头部企业达成合作，提供高效的视频生成工具。企业可通过API快速生成营销视频、电商素材、私域运营内容等，大幅降低传统视频制作的成本与时间。

腾讯混元

2025年3月6日，据腾讯混元消息，腾讯混元发布图生视频模型并对外开源，同时上线对口型与动作驱动等玩法，并支持生成背景音效及2K高质量视频。腾讯混元图生视频模型目前已经上线，企业和开发者可在腾讯云申请使用API接口；用户通过混元AI视频官网即可体验。混元视频生成开源模型目前在Github、HuggingFace等主流开发者社区均可下载体验。

基于图生视频的能力，用户只需上传一张图片，并简短描述希望画面如何运动、镜头如何调度等，混元即可按照用户要求让图片动起来，变成5秒的短视频，还能自动配上合适的背景音效。此外，上传一张人物图片，并输入希望“对口型”的文字或音频，图片中的人物即可“说话”或“唱歌”；如果选择动作模版，还能一键生成同款跳舞视频。目前用户通过混元AI视频官网即可体验，企业和开发者可在腾讯云申请使用API接口使用。

通义万相

2024年9月 19 日，在杭州云栖大会上，阿里云CTO周靖人宣布通义万相全面升级，并发布全新视频生成模型，可生成影视级高清视频，可应用于影视创作、动画设计、广告设计等领域。即日起，所有用户可通过通义APP及通义万相官网免费体验。

通义万相首批上线文生视频、图生视频功能，在文生视频功能中，用户输入任意文字提示词，即可生成一段高清视频，支持中英文多语言输入，并可以通过灵感扩写功能智能丰富视频内容表现力，支持16:9、9:16等多种比例生成；在图生视频功能中，支持用户将任意图片转化为动态视频，按照上传的图像比例或预设比例进行生成，同时可以通过提示词来控制视频运动。现场，阿里云演示了该模型强大的运动生成和概念组合能力，输入“穿着滑冰鞋的小兔子在冰面上灵活移动的可爱场景”，通义万相仅用数分钟就能生成一段高清、逼真的视频。

写在最后

AI视频生成工具有着可观的市场前景，如在影视制作领域，AI可承担分镜设计、后期渲染等任务，降低制作成本，缩短周期；在广告营销领域，可支持批量生成个性化广告，通过数字人形象与用户实时互动，提升转化率；在教育领域，可模拟复杂操作流程，提供3D动态演示，提升学习效率。

如今国内外企业已经推出众多AI视频生成模型工具。在技术迭代上，主流模型已经实现4K分辨率、60秒以上视频生成，并支持多模态输入，包括文本、图像、音频。尽管如此，AI视频生成仍然有很多不足之处，如复杂物理交互仍易出错；大多模型在生成较长时间视频方面仍存在困难；高分辨率视频生成需要强大硬件支持，训练和推理成本高昂等。所以，如论是从模型角度还是硬件支持角度，AI视频生成模型还有待持续优化。

行业动态

芯承半导体完成数千万元A轮融资，加码先进封装基板战略布局

炬芯科技三季报利润暴增：翻倍增长的背后端侧AI芯片杀出全球黑马！

若芯片供应恢复荷兰政府或放弃安世半导体控制权

热读文章

苗圩出席统筹推进疫情防控和产业转型升级促进制造业通信业稳定发展发布会

一图读懂2020年《政府工作报告》

工业富联：拟7763万美元收购鸿海精密美国子公司相关资产