在具身智能领域,曾经备受追捧的VLA(视觉-语言-动作模型)技术正经历着前所未有的质疑与反思。曾经,行业对VLA寄予厚望,Covariant的RFM-1亮相时,媒体纷纷将其与“通用机器人奇点”联系起来;谷歌DeepMind的RT-2论文发布后,二级市场分析师们甚至将具身智能的商业化时间表大幅提前。然而,如今却鲜有人再提及“奇点”,大家更关心的是VLA能否在工厂中精准地将螺丝拧进孔里,而不是把螺丝刀误插入电机。
VLA的困境源于其内在的基因缺陷。当前主流的VLA架构,无论是谷歌的RT-2还是国内一些公司的方案,都遵循相似的逻辑:先利用互联网上的海量图文数据,将视觉和语言进行对齐,使模型能够理解图像和人类语言;接着接入机器人的动作数据,进行端到端的微调,让模型能够输出动作指令。这种方法的最大优势在于“省钱”,试图复用大语言模型和视觉-语言模型的基础设施,将机器人学习转化为一个“轻量化”的微调任务,吸引了众多投资人的关注,因为他们无需从零开始收集昂贵的物理世界交互数据。
然而,互联网数据存在严重局限。它只能教会模型“苹果是红色的圆形物体”,却无法让模型理解“苹果被施加10牛顿的力会发生形变并可能滚开”。互联网上的视频经过剪辑,充满了光滑的转场和因果关系的大幅跳跃。例如,一个杯子从桌面边缘掉落,下一个镜头往往是它已经在地板上摔碎或被接住,而决定命运的瞬间,如杯子在指尖打滑、摩擦系数不足、倾斜角度过大等细节却永远缺失。因此,VLA学到的物理知识是一种基于表面关联的“伪物理”,在面对全新的物体组合或需要精细力控的场景时,泛化能力急剧下降。谷歌DeepMind的RT-2论文和Physical Intelligence的论文都证实了这一点,即使扩大模型规模、灌入更多网络图片,对物理交互的预测能力也几乎没有提升,该领域的scaling law在物理交互维度上遭遇了瓶颈。
如今的VLA演示就像一场精心排练的魔术,只能在实验室的有限区域内,使用固定的道具,在严格控制的光照和背景下,让机器人流畅地抓取物品。一旦背景稍有改变,或者放入反光、透明的物体,模型的局限性就会暴露无遗,它只知道答案,却不知道过程。
在这样的背景下,“世界模型”成为了具身智能领域的新希望。虽然“世界模型”这个词热度颇高,但真正理解并有效应用它的人并不多。一些团队的做法简单粗暴,在VLA的输出端套壳一个现成的物理仿真引擎,用来“修正”违背物理常识的动作,但这只是给烂代码打补丁,并非真正的融合。
真正的融合要求世界模型成为VLA的“潜意识”和“直觉模块”,在VLA做出决策之前,就能在内部快速推演接下来几秒的物理变化,并反过来约束和指导动作的生成。就像人类接抛过来的钥匙时,大脑不会先规划好手指的精确轨迹,而是依靠内化的模型,直接驱动肌肉记忆,本能地调整身体姿态。李飞飞团队的RoboAgent工作以及一些新尝试正朝着这个方向努力,他们让模型在学习动作的同时,预测下一帧的深度图、物体分割图甚至接触力的分布,迫使模型从二维像素的关联中抽离出来,建构一个内部的、三维的、有因果的物理表征。当模型能准确预测物体的动力学特性时,抓取动作才会更加精准和自然。
在讨论VLA和世界模型的同时,不能忽视一个最底层、最关键的因素——数据。一位头部人形机器人公司负责数据采集的人员透露,他们目前最头疼的不是算法调参,而是如何让远程遥操作的标注员保持专注。为了采集高质量的操作数据,他们请来退休的老工程师,戴着手套一整天重复拧一个零件,但老人家的手会抖,精细动作的遥操作映射总是出问题,采集一天的数据,经过清洗和对齐后,真正能喂给模型的不到10%。而且,要让VLA + 世界模型学会泡一杯咖啡,需要知道水壶的重量变化、蒸汽的温度分布、水流的冲击力、茶杯的材质等数据,这些数据互联网图文数据库无法提供。
因此,具身智能领域正展开一场前所未有的数据工厂战争。特斯拉的Optimus团队备受关注,除了马斯克的明星光环,更重要的是他们正在将汽车自动驾驶的“影子模式”和数据引擎体系迁移到机器人上。Optimus在工厂里拧螺丝的每一次成功和失败都会被自动标注、回流、迭代训练,形成一个自我造血的数据飞轮。相比之下,国内多数机器人公司仍采用“堆人”的古老模式,租场地、请人做遥操作,数据质量参差不齐,采集成本居高不下。这导致VLA + 世界模型技术路线虽会成为共识,但真正的技术壁垒将迅速从模型架构转移到数据工厂的规模和效率上。
未来的竞争将呈现分层级态势。最高层级是能构建“物理世界基础模型”的公司,如OpenAI、谷歌DeepMind、英伟达等,它们提供能理解基本物理规律的VLA基座;中间层级是拥有高效、海量且多样私有数据工厂的机器人公司,它们利用自己场景里的“私域数据”在基座模型上进行深度微调,形成特定领域的超级专家模型;而没有高效数据工厂的公司,可能会沦为基础模型厂商的分销商,或者只能在技术要求不高的巡检、导引场景中竞争。Physical Intelligence这家由顶尖学术大佬创立的明星公司,今年以来疯狂与各种制造业、物流企业签合作协议,他们看中的正是这些场景里最真实、最复杂的物理交互数据。就像Uber的崛起靠的不是算法,而是私家车带来的数据垄断一样,具身智能领域的数据竞争也将决定未来的格局。
