沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

北京智源研究院Emu3模型登Nature:用“下一词预测”解锁多模态智能新路径

2026-02-07来源:快讯编辑:瑞雪

近日,国际顶级学术期刊《Nature》发表了一项来自中国团队的重要研究成果——北京智源人工智能研究院提出的“Emu3”多模态大模型,以颠覆性的技术路径在AI领域引发广泛关注。该模型通过“统一预测下一个符号”的极简设计,首次实现了图像生成、视频理解、语言推理等跨模态任务的高水平协同,为通用人工智能(AGI)的发展开辟了新路径。

传统多模态模型往往采用“分而治之”的策略:图像、视频、语言分别由独立模块处理,再通过复杂工程拼接。这种模式虽在特定任务中表现优异,却面临协同效率低、跨模态推理能力弱等瓶颈。例如,OpenAI的Sora擅长视频生成但难以理解内容,Google的Gemini整合多模态需依赖预训练编码器,而meta的Chameleon虽尝试统一架构,性能仍落后于专用模型。Emu3则彻底摒弃这一思路,提出“所有模态均可转化为符号序列”的核心假设,通过预测下一个符号实现跨模态学习。

这一突破的关键在于团队设计的“视觉分词器”。该组件能将512×512像素的图像压缩为4096个离散符号,视频则在时间维度进一步压缩4倍,同时保留98%以上的视觉信息。更创新的是,分词器采用三维卷积核,可同步捕捉空间结构与时间动态,使模型无需逐帧处理即可理解视频内容。实验显示,其重建质量与逐帧编码相当,但符号使用量减少75%,为后续统一训练奠定了基础。

在模型架构上,Emu3采用极简的decoder-only Transformer设计,仅通过扩大词汇表(新增32768个视觉符号)将语言模型扩展至多模态领域。这种“无编码器、无模态融合模块”的架构,迫使模型在预测任务中自主学习跨模态关联。测试结果表明,Emu3在图像生成人类偏好评分(70.0)超越Stable Diffusion XL(66.9),视觉语言理解平均分(62.1)媲美LLaVA-1.6,视频生成得分(81.0)超过Open-Sora-1.2,首次在生成与理解任务中同时达到专用模型水平。

论文更揭示了多模态学习的“规模定律”:当训练数据量翻倍时,模型验证损失以0.55的指数下降,且不同模态共享同一扩展规律。基于7亿参数模型的实验数据,研究团队准确预测了更大模型的性能,误差不足3%。这一发现意味着,未来无需为不同模态设计专属训练策略,仅需混合数据统一训练即可实现能力自然涌现,大幅降低AGI研发门槛。

在机器人控制任务中,Emu3展现了跨模态推理的深层潜力。在CALVIN基准测试中,模型以87%的成功率连续完成“拿杯子-开抽屉-放置”等复杂操作,证明其能同步处理视觉感知、语言指令与动作规划。更令人瞩目的是其“世界模型”能力:仅凭烹饪视频前两秒,模型可准确预测后续食材翻炒轨迹、手势移动方向及蒸汽扩散路径,为物理世界理解提供了新范式。

与海外模型相比,Emu3的开放性优势显著。团队承诺开源视觉分词器、训练代码及预训练权重,这与OpenAI对Sora的封闭策略形成鲜明对比。对于全球研究社区而言,这意味着一条可复现、可改进的技术路线正式诞生,有望加速多模态AI的普及与创新。

商业化层面,Emu3的统一架构带来显著效率提升。其核心模型可复用大语言模型的推理基础设施,支持动态批处理、内存优化等技术,在保持生成质量的同时实现低延迟服务。单一模型替代多专用模型的部署模式,更可降低70%以上的运维成本。在教育、电商、医疗等领域,其跨模态交互能力已展现出变革潜力:例如自动生成产品演示视频与说明书、同步处理医疗影像与报告分析等。

尽管Emu3仍面临推理速度优化、长视频处理等挑战,但其核心价值已得到学术界高度认可。这项研究不仅为中国AI研究确立了原创性标杆,更通过“预测即智能”的哲学视角,重新定义了多模态学习的可能性——当所有模态转化为符号序列,智能或许正是对下一个符号的连续探索。

青藏高原蛇绿岩藏天然氢气宝藏,中国科学家新发现指明清洁能源新方向
中国科学院地质与地球物理研究所(地质地球所)2月6日向媒体通报,该所刘传周研究员和吴福元院士领衔的研究团队,最近在青藏高原的蛇绿岩中,首次发现封存于微观包裹体内的天然氢气,不仅填补了中国相关领域天然氢气的研…

2026-02-07

OpenAI发布GPT-5.3 Codex:速度提升25%,开启编程智能体新篇章
OpenAI表示,GPT-5.3 Codex比其前一个模型(GPT-5.2)快25%,并且这是该公司第一个"在创建自己过程中发挥了关键作用"的模型,这意味着该公司的员工使用程序的早期版本来调试自己并评估其性…

2026-02-07

云南兰坪高原试飞多款无人机 验证性能为高原多领域应用筑基
多款大、中、小型高原无人机亮相首飞,成功验证了多系列机型在高原环境下的稳定性和可靠性,为今后规模化应用于高原物流、电力巡检、应急救援等领域奠定了基础。 兰坪丰华通用机场海拔2524.8米,是云南省首个A1级一…

2026-02-07

AI赋能制造业:实时感知网络引领生产逻辑从“滞后”到“瞬时”的跨越
一场由AI驱动的实时感知网络所引领的深刻变革,正在将制造业从“基于历史的生产”推向“响应当下的创造”,彻底重构从设备到决策的每一个生产环节。这意味着,一台机床的刀具磨损数据,可以瞬间被物料配送AGV和上游的排…

2026-02-07