字节跳动推出Seedance 1.5 pro模型：多语种音视频同步生成新突破-数码-沃资讯

字节跳动近日正式推出全新音视频生成模型Seedance 1.5 pro，这款模型实现了从文本或图像直接生成带有同步音频的动态视频，标志着音视频联合生成技术取得重要突破。该模型不仅支持多语言内容生成，还能精准模拟方言语音特征，为影视、广告、游戏等领域的内容创作提供了全新工具。

技术团队介绍，Seedance 1.5 pro在音画同步方面进行了深度优化，通过创新算法显著提升了口型匹配度、语调自然度与表演节奏的协调性。模型支持中文、英文、日文等主流语言，并具备模拟四川话、粤语等方言语音特征的能力，使生成内容更具地域特色。在视频生成层面，该模型突破传统固定镜头模式，能够自主完成长镜头跟随、希区柯克式变焦等复杂运镜效果，有效增强了画面的叙事张力和视觉冲击力。

该模型采用基于MMDiT架构的音视频联合生成框架，结合多阶段数据链路优化与强化学习技术，实现了从文本描述到完整音视频内容的自动化生成。测试数据显示，在影视创作、广告制作、短剧开发及游戏动画等应用场景中，生成内容在指令遵循准确率、音质清晰度等核心指标上均有显著提升。不过技术团队也坦言，当前模型在处理复杂物理运动场景的稳定性、多角色对话的逻辑连贯性等方面仍存在优化空间。

目前，Seedance 1.5 pro已向特定行业合作伙伴开放测试，其生成的内容在保持创作自由度的同时，大幅缩短了传统音视频制作流程。这项技术不仅为专业内容创作者提供了高效工具，也为普通用户降低音视频创作门槛开辟了新路径。随着模型持续迭代优化，未来有望在更多领域展现其技术价值。