火山引擎发布会现场的大屏幕上,一个由AI生成的视频正流畅展示着多镜头切换,主体在变焦、环绕和平摇中保持完美一致,观众席传来阵阵惊叹。
字节跳动旗下火山引擎在深圳发布豆包视频生成模型,这个被新华社详细报道的技术突破展示了一致性多镜头生成、动态运镜和支持3D动画等前沿能力-1。
该模型采用全新设计的扩散模型训练方法,成功攻克了多镜头切换中主体、风格、氛围的一致性难题-1。
当国内多数视频生成模型还停留在简单指令执行阶段时,字节跳动技术新华社报道的这一进展,标志着国产AI视频生成技术迈出了从“有”到“优”的关键一步。

01 技术突破
字节跳动的豆包视频生成模型在多个方面实现了技术突破。基于DiT架构,通过高效的DiT融合计算单元,该模型能让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力-4。
这一创新解决了行业内长期存在的痛点——多镜头切换时主体不一致的问题。
传统视频生成模型在镜头切换时往往会导致主体形象、风格或氛围发生突变,影响观看体验。而豆包模型通过全新设计的扩散模型训练方法,成功攻克了这一难题-1。
在实际测试中,创作者发现生成的视频不仅能够遵循复杂指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节甚至头饰在不同运镜下也保持一致,接近实拍效果-4。
02 全栈布局
字节跳动的AI布局早已超越单一模型层面,形成了从底层硬件到上层应用的全栈式布局。这种纵向整合的战略使其在成本与体验上形成“飞轮效应”-6。
在基础架构方面,字节跳动基于自研DPU的GPU实例,较上一代集群性能最高提升三倍以上-6。
火山引擎发布的大模型训练视频预处理方案,更是解决了视频大模型训练的成本、质量和性能等技术挑战-3。
该方案依托自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战,对海量视频数据进行高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率-3。
芯片级的创新也在同步进行。字节自研视频编解码芯片经过内部实践验证,在同等视频压缩效率下,成本节省了95%以上,并在2024MSU世界编码器大赛中夺得最佳ASIC编码器-3。
03 应用落地
豆包视频生成模型目前已通过火山引擎面向企业开启邀测-3。这款模型支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例-4。
它不仅在电商营销、动画教育、城市文旅、微剧本等企业场景有应用潜力,也能为专业创作者和艺术家们提供创作辅助-4。
视频生成产品线成为字节跳动AI布局中的亮点。Seedance 1.0 Pro在全球Artificial Analysis文生视频、图生视频双榜领先,5秒1080P视频生成成本仅3.67元-6。
Waver 1.0则可支持长达10秒的高质量视频生成,兼容多种艺术风格,在运动连贯性、画面清晰度和提示理解能力上超越现有模型-6。
04 行业影响
视频生成大模型的发展将对传媒娱乐、广告营销、教育培训、元宇宙等众多行业产生深远影响,有利于大幅降低短视频、直播、影视制作的成本和周期-2。
在影视制作领域,视频生成大模型可根据导演或编剧的创意需求,生成具有个性和创意的视频片段,为影视创作提供更多可能性-2。
官方媒体的应用探索也在进行中。新华社曾推出AIGC MV《美债炸弹滴答响》,在国际传播中产生了不错的影响-10。
多模态大模型的出现,让文生图、文生视频变得简单可用,进一步推动了传媒机构可视化传播的提质增效-10。
有趣的是,研究显示在抖音平台上,68.1%的官方媒体新闻视频篇幅少于15秒,25.6%在15—30秒之间-8。用户生成内容成为官方媒体最重要的新闻来源,占比达60.3%-8。
05 未来挑战
尽管国产视频生成大模型层出不穷,已解决了“有”的问题,但需逐步向“优”进化-2。当前行业普遍存在可控性不足或一致性的不足这一核心问题-2。
在实际视频创作中,视频内容往往围绕特定对象展开,这些对象在视频中的形象需要保持连续一致。然而现有的视频模型往往难以实现这一点,主体在生成过程中容易崩坏-2。
尤其在涉及复杂动作和交互时,保持主体一致性更是一项挑战-2。生成的视频质量与连贯性仍有待提升,在处理复杂场景和动作时,模型容易出现画面崩坏、动作不连贯等问题-2。
模型对自然语言提示词的理解能力也有限,难以完全捕捉和表达用户的意图,生成结果具有很大的随机性,难以生成独特、新颖的视频内容-2。
字节跳动豆包视频生成模型的突破,正通过火山引擎向各行业渗透。目前豆包大模型服务着全球TOP10手机厂商中的9家、八成主流汽车品牌、70%的系统重要性银行及超五成985高校-6。
当深圳发布会现场的灯光渐暗,那些由AI生成的视频片段仍在观众脑海中流转。从多镜头一致性突破到全栈AI布局,字节跳动的技术路径显示了一个清晰方向:让前沿技术走出实验室,进入千行百业的生产流程。
正如火山引擎总裁谭待所言,视频生成有很多难关亟待突破,但AI视频的创作空间和应用落地正在加速拓展-1。这场始于字节跳动技术新华社报道的创新,正在重塑内容创作的未来图景。