沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

港大阿里联合打造FineVLA框架:让机器人精准执行人类细粒度语言指令

2026-06-26来源:快讯编辑:瑞雪

在机器人技术领域,尽管现有模型已能根据“把杯子放进篮子”这类简单指令完成基础操作,但如何精准控制执行细节——比如用哪只手操作、从哪个角度抓取、抓取杯身还是杯柄——仍是待解难题。这类关键细节在现有机器人数据集中普遍缺乏标注,导致模型难以理解人类对执行过程的精细化要求。

针对这一痛点,香港大学XLANG Lab与阿里巴巴Qwen团队联合推出开源框架FineVLA,通过构建“数据-模型-评测-策略”完整闭环,首次实现机器人对自然语言中执行细节的精准响应。该框架不仅能让机器人完成任务,更能通过语言指令控制具体操作方式,在仿真与真实场景中均取得显著提升:RoboTwin仿真环境中成功率达86.8%/82.5%(较基线提升15.0/11.1个百分点),真实双臂机器人操作中关键指标提升12.8个百分点,在姿态控制、颜色识别、接近方向等维度均实现量化突破。

传统VLA(视觉-语言-动作)模型面临的核心矛盾在于语言监督粒度与动作控制需求的不匹配。以“拿起勺子”为例,现有数据集通常仅标注“成功拿起”这一目标级指令,却忽略左臂/右臂选择、障碍物规避路径等过程级细节。这种粗粒度标注导致模型虽能完成任务,却无法理解人类对执行方式的隐性要求。研究团队通过分析发现,超过80%的开源机器人数据集缺乏动作序列、接触区域等十项关键维度的标注,成为制约可控性提升的主要瓶颈。

FineVLA的技术突破始于数据层重构。研究团队开发的FineVLA-Tool工具链从10个开源数据集中整合97万条异构轨迹,通过动态时间规整算法去重后保留4.7万条代表性样本,并沿执行体、接触方式、轨迹方向等十维度进行细粒度标注。经人工审核验证,标注后指令的平均词数从9.3增至96.8,覆盖度提升10.4倍。这种结构化标注不仅消除了监督歧义,更为后续模型训练提供了高质量语料。

在模型层,研究团队对Qwen3.5-VL进行全参数微调,开发出专用标注器RoboFine-VLM。该模型能自动生成覆盖十控制维度的步骤级描述,在细粒度视频理解评测中,其VQA轨道准确率达68.2%,较通用基线GPT-5.4提升8个百分点;Caption轨道在hard模式下(无语言提示)仍保持82.2%的覆盖率,证明其具备从视觉信号中自主推断操作过程的能力。为确保评测客观性,团队构建的RoboFine-Bench包含500段测试视频与1.1万个原子事实,通过实体定位、动作理解、状态推理三轴评测,形成机器人视频理解的新标准。

策略层的创新体现在混合训练范式的设计。实验表明,单纯使用细粒度指令(FG-only)虽在特定场景下优于目标级指令(Raw-only),但最佳效果需两者结合。当FG:Raw指令比例为1:2至1:1时,模型在RoboTwin仿真中达到性能峰值,证明目标级指令提供任务框架、细粒度指令指导执行细节的互补机制。真实机器人实验进一步验证这一结论:在CobotMagic双臂平台上,混合训练使颜色识别准确率从22%提升至40%,姿态控制从24%提升至47%,接近方向成功率从60%增至78%,尤其在训练未覆盖的“左手操作右侧目标”等组合任务中,成功率从0提升至10%,显示因子级泛化能力的显著增强。

该框架的开源价值体现在四个可复用方向:提供从异构数据到细粒度标注的完整工具链、开发专用视频标注模型RoboFine-VLM、建立细粒度理解评测基准RoboFine-Bench、验证混合训练有效性的策略配方。研究团队强调,细粒度语言监督并非要替代目标级指令,而是通过补充执行细节信息,构建更符合人类交互习惯的机器人控制系统。这一范式转变或将推动机器人从“完成指令”向“理解意图”的质变发展。

具身智能机器人多楼层配送实测:导航、操作、交互谁能真正突破瓶颈?
但在多楼层自主配送场景中面临两个关键短板:一是无标配机械臂,第三方集成的操作能力在精度和可靠性上难以达到商用级标准;二是电梯对接方案依赖外挂模块,在多样化电梯协议适配方面的成熟度与普渡机器人存在差距。但在多楼…

2026-06-26

从爆仓到智能飞跃:东莞攀爬机器人引领中国物流开启全球提效新征程
我们习以为常的送货速度背后,是中国物流系统一场不动声色的升级与蜕变,在菜鸟东莞跨境仓里,超过100台攀爬机器人正在上演现实版“蜘蛛侠送货”,10秒就能爬上五层楼,拣选效率暴涨了100%。 从当初靠人力硬扛…

2026-06-26

作为科技全球首发人形护理机器人,具身智能破解养老护理“不可能三角”
圆桌论坛环节,以《具身智能落地:从技术突破到养老护理新范式》为主题,河北工业大学二级教授、具身智能联合实验室主任郭士杰,桂林医科大学科研院常务副院长、呼吸疾病实验室主任马礼兵,柳州城市职业学院副校长、康养学…

2026-06-26

中国移动携手伙伴发布OpenAN,为通信行业智能体协同提供开源新方案
在实际网络运营工作中,多个智能体需要协同完成复杂任务,现有开源多智能体框架在适配网络运营场景时存在不足,如互联网暴露风险高、交互效率低,以及无法完全私有化部署等问题,限制了其大规模工程化应用。未来,中国移动将…

2026-06-26

清华团队突破!新型全陶瓷固态电池耐高温,助力微型设备安全升级
该工艺制造出高度可定制、可堆叠的电池,能轻松缩放以适应不同设备,并在很宽的温度范围内保持完全稳定。 研究指出:“它完全不可燃,在持续外部燃烧下仍能保持结构完整性,在空气中具有卓越的热稳定性,其安全性显著优于…

2026-06-26

三星为近10年老机型Galaxy S8、S8+及Note 8推送更新 提升稳定性与流畅度
IT之家 6 月 26 日消息,科技媒体 Android Headline 昨日(6 月 25 日)发布博文,报道称三星陆续向 GalaxyS8、Galaxy S8+ 以及 Galaxy Note 8 三款…

2026-06-26