沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

蚂蚁灵波再发力!LingBot-VA让机器人“脑补”未来,通用机器人迎新突破

2026-01-31来源:快讯编辑:瑞雪

机器人领域迎来重大突破——蚂蚁灵波团队近日开源了全球首个面向通用机器人控制的因果视频-动作世界模型LingBot-VA,这项技术让机器人首次具备"脑补未来"的能力。传统机器人依赖"观察-反应"模式,如同条件反射般执行动作,而LingBot-VA通过自回归视频预测技术,在执行动作前会先在脑海中推演未来数秒的画面,这种"想象力决策"机制为机器人控制开辟了全新路径。

该模型的核心创新在于解耦了传统VLA(视觉-语言-动作)架构中的表征缠绕问题。研究团队采用"先想象世界,再反推动作"的两步策略:首先通过视频世界模型预测未来视觉状态,再利用逆向动力学模型推导所需动作。这种设计使机器人能够完成三类高难度任务:在长时序任务中(如准备早餐),机器人可精准记忆操作步骤;高精度任务中(如擦拭试管),动作精度达到毫米级;面对可变形物体(如折叠衣物),能通过视频推演预判物体形变。真机测试显示,机器人完成拧螺丝任务时,动作流畅度与人类操作几乎无异。

技术实现层面,团队在三个维度取得突破。架构设计上,视频Token与动作Token构成自回归交错序列,配合因果注意力机制确保模型只能使用历史信息。通过KV-cache技术赋予模型长期记忆能力,使其能清晰追溯三步前的操作状态。在模型分工方面,Mixture-of-Transformers架构将视觉推演与动作控制分离:视频流负责复杂视觉分析,动作流专注精准运动控制,两者通过共享注意力机制实现信息互通。工程优化环节,部分去噪技术允许模型从含噪中间状态提取关键信息,异步推理机制使动作计算与执行并行进行,FDM接地技术则通过真实数据持续校正模型想象,防止出现脱离现实的幻觉。

在RoboTwin 2.0双臂协作基准测试中,LingBot-VA展现出显著优势:简单场景成功率达92.93%,复杂场景成功率91.55%,分别超出第二名4.2%和4.6%。随着任务难度增加,其领先幅度扩大至9%以上。在LIBERO基准测试中,该模型更以98.5%的平均成功率刷新纪录。实验数据显示,LingBot-VA具有三大核心能力:长期记忆能力使其在计数任务中精准记录操作次数;少样本适应能力仅需50条演示数据即可掌握新任务;泛化能力允许模型识别并操作不同颜色、形状或摆放位置的同类物体。

此次开源是蚂蚁灵波四天技术发布计划的收官之作。此前三天,团队已陆续开源LingBot-Depth(增强视觉感知)、LingBot-VLA(打通语言视觉动作接口)、LingBot-World(构建可预测世界模型)三个项目。四者构成完整技术链条:从清晰感知到理解世界,从构建想象到指导行动,推动通用机器人进入视频推理时代。这种技术范式已引发行业连锁反应,谷歌Project Genie项目、宇树科技UnifoLM-VLA-0等相继开源,海外媒体评价称:"蚂蚁集团通过完整开源工具包,在全球机器人领域主导权争夺中迈出战略性一步。"

蚂蚁灵波四天连发开源四大模型 谷歌紧随开放体验 世界模型竞争转向开放协同
承接前几日开源发布的 LingBot-World(模拟环境)、LingBot-VLA(智能基座)与LingBot-Depth(空间感知),LingBot-VA 探索出一条“世界模型赋能具身操作”的全新路径。…

2026-01-31

物联网赋能两轮电动自行车充电站:解锁远程监控新路径与未来图景
充电站的建设与管理成为了迫在眉睫的任务,随着物联网技术的快速发展,充电站的远程监控已经成为一个能够有效提高充电效率、管理成本和用户体验的重要手段。在电动自行车充电站中,物联网技术的应用不仅能够实现实时数据监控…

2026-01-31

苹果2026财年首季财报亮眼:营收利润双破纪录,大中华区表现抢眼
1月30日消息,苹果公司公布了截至2025年12月27日的2026财年第一财季财务业绩,多项核心指标创下历史纪录。 财报显示,该季度苹果实现营收1438亿美元,同比增长16%;稀释后每股收益2.84美元,同比…

2026-01-31