沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

阿里Qwen-VLA入局具身智能:统一基座破局碎片化,AGI之路再进一步?

2026-06-04来源:快讯编辑:瑞雪

人工智能领域正经历一场深刻变革,从虚拟世界的文本生成迈向物理世界的自主操作。具身智能(Embodied AI)作为这一趋势的核心方向,正吸引全球科技企业的激烈竞争。阿里巴巴旗下通义千问团队推出的Qwen-VLA模型,凭借其独特的"大脑-小脑"架构与四阶段训练法,成为该领域的重要突破。

当前机器人行业面临严重碎片化困境:家用机器人仅能完成叠衣服等单一任务,工业机器人局限于物品分类,不同品牌设备需要定制化算法支持。这种"专机专用"模式导致研发成本居高不下,与通用人工智能(AGI)理念背道而驰。Qwen-VLA试图通过统一数学框架解决这一难题,将机械臂抓取、双臂协同等操作抽象为"视觉观察-语言指令-动作预测"的通用问题,实现软件跨硬件平台的复用。

该模型的技术路线融合了VLA策略模型、扩散动作生成与仿真强化学习。其架构设计借鉴人类神经系统:以Qwen3.5多模态模型作为认知中枢,负责理解环境与语言指令;11.5亿参数的扩散动作解码器则模拟小脑功能,生成平滑连续的关节轨迹。这种设计使模型能直接输出物理参数而非预测画面,在动态场景中展现出显著优势。

训练体系包含四个关键阶段:首先通过文本指令建立动作先验,继而进行多模态对齐训练,然后通过人类操作录像实现模仿学习,最终在虚拟环境中完成强化学习。这种渐进式训练使模型能处理未见过物体的抓取任务——即使测试时出现玩具鸭、墨镜等训练中未涉及的物品,仍能根据指令准确操作。在动态场景测试中,模型甚至能实时调整轨迹拦截移动物体,表现超越多数专用模型。

数据构建是该模型的核心竞争力。其训练集包含74.2%的真实机器人遥操作数据、6%的人类第一视角视频、3.7%的合成仿真数据及8.5%的图文常识数据。阿里通过内部收集超1000小时真实操作轨迹,结合800万条自动生成的物理碰撞数据,构建起覆盖长尾场景的数据体系。这种数据组合既保证了操作真实性,又通过仿真技术降低了成本。

尽管在动态操控评测中表现优异,Qwen-VLA仍面临多重挑战:物理动作数据规模远不及文本数据,多任务优化可能导致视觉性能衰退,缺乏触觉反馈限制复杂操作,长程任务规划能力有待提升。这些瓶颈反映出具身智能从实验室到实际应用的巨大跨越,需要解决传感器融合、持续学习等基础性问题。

阿里此次探索证明,通过统一基座模型收敛物理控制碎片化的路径具有可行性。当算法开始感知重力、摩擦力等物理约束,人工智能才真正踏上改造现实世界的征程。这场变革不仅需要技术创新,更考验企业对工程化难题的破解能力,而Qwen-VLA的推出无疑为行业提供了重要参考。

高质量Token服务研讨会将启,性能监测结果与系列标准齐发布
IT之家 6 月 4 日消息,6 月 16 日,中国信息通信研究院人工智能研究所等将在北京联合召开“高质量 Token 服务研讨会”。据《科创板日报》记者获悉,论坛将成立“高质量 Token 服务特别研究组…

2026-06-04

李飞飞新文解析:视频生成、机器人与NVIDIA的“世界模型”之争与分类新解
比如,最近已有少量但在增长中的工作来自不同的机器人实验室,它们展示了一种至少在概念上成立的可能性:一个预训练的视频渲染器可以作为联合世界预测和动作预测的骨干网络,让单一模型同时想象“会发生什么”和“该做什么…

2026-06-04

齐向东谈AI时代网络安全:攻防失衡,构建“三位一体”防御体系破局
演讲中,齐向东提出AI时代网络安全的“三个攻防失衡”:攻击日益高效化、自动化、平民化;传统防护静态化、人工化、单点化,形同虚设;“AI+”赛道竞速中攻击方天然占优。 他强调,破局的关键在于实施“安全升级”,…

2026-06-04