沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

蚂蚁灵波科技开源世界模型LingBot-World,长时生成稳定交互能力直逼谷歌Genie 3

2026-01-30来源:快讯编辑:瑞雪

蚂蚁灵波科技近日宣布,其自主研发的世界模型LingBot-World正式开源,并同步发布技术报告。这一专为交互式场景设计的开源框架,通过高保真模拟环境与实时交互能力,为具身智能领域提供了新的技术路径。其核心模块LingBot-World-Base能够生成逻辑连贯的虚拟场景,在视频质量、动态表现及长时序一致性等关键指标上达到行业领先水平,部分性能已接近谷歌Genie 3的水准。

针对视频生成领域长期存在的“长时漂移”难题,LingBot-World通过多阶段训练架构与并行化加速技术,实现了近10分钟的稳定输出。在极端测试中,即使镜头移开60秒后返回,场景中的车辆、建筑等物体仍能保持结构完整,动态环境下的物体形态一致性表现尤为突出。该模型支持16帧/秒的实时生成吞吐量,端到端交互延迟控制在1秒以内,用户可通过键盘、鼠标或文本指令即时操控虚拟角色与场景元素,例如调整天气、切换画面风格或触发特定事件,所有操作均能在维持场景几何关系稳定的前提下完成。

为解决交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面通过游戏引擎与虚幻引擎(UE)合成管线,直接提取无界面干扰的纯净画面数据,并同步记录操作指令与相机参数。这种数据构建方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对特定场景重新训练,显著降低了部署成本。

在具身智能应用层面,LingBot-World通过数字世界模拟物理规律,为智能体提供了低成本、高保真的训练环境。其支持光照变化、物体位置调整等场景多样化生成功能,可有效提升算法在真实环境中的适应能力。例如,模型能模拟机器人穿越复杂城市街景的过程,通过动态调整场景参数训练其路径规划与障碍物规避能力。这种“想象物理世界”的能力,为解决真实场景中长程任务训练数据稀缺的问题提供了创新方案。

此次开源的LingBot-World框架包含完整代码库与预训练模型,开发者可通过Hugging Face、魔搭社区及GitHub获取资源。技术报告详细披露了模型架构设计与实验数据,为社区研究者提供了可复现的技术基准。随着该模型的广泛应用,世界模型有望成为连接生成式AI与实体交互的关键纽带,推动具身智能从封闭场景训练向开放环境适应的范式转变。

大模型算法实战全解析:从原理深潜到端侧智能落地的进阶之路
通往未来的道路并非坦途,从理解模型底层的数学原理,到训练出具备行业智慧的专用模型,再到将其稳定、高效地部署到实际业务中,这中间横亘着一条巨大的工程鸿沟。从原理到训练,再到严格的安全红队测试,这一完整闭环将构建…

2026-01-30

5G-A网络、“息壤”平台……电信智能云为成都两会注入数字新动能
通过本次两会期间探访发现,这一变化的背后,是中国电信成都分公司运用“五位一体”智能云服务体系,将基础设施、平台调度、数据服务、AI模型和应用软件深度融合,不仅确保了会议顺畅进行,也在为整个城市构筑坚实的数字…

2026-01-30

苹果或牵手SpaceX:iPhone 18 Pro系列有望实现星链直连卫星通信
苹果当前通过全球星(Globalstar)卫星网络提供紧急呼救服务,该功能可在用户脱离蜂窝网络与Wi-Fi覆盖时联系紧急救援机构。与全球星的合作还使iPhone用户得以向亲友及救援人员共享位置并收发信息。 …

2026-01-30

从实验室到生产线:机器人“入职”多领域,开启智能生活新图景
“在工业场景落地中,深度替代会经历一个渐进过程,先从辅助性任务如搬运、分拣开始,积累数据和用户信任;然后过渡到半自动化精密操作,如元件插接;最终实现全流程替代,这需要克服技术集成、成本优化和人员培训等挑战。…

2026-01-30

北京智源突破性成果登《自然》正刊:自回归路线统一多模态学习
《自然》编辑点评这项研究时表示,基于“预测下一个词元”,Emu3实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义…

2026-01-30