沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

港大阿里联合推出FineVLA框架:机器人执行指令更精细 一句话掌控操作细节

2026-06-26来源:快讯编辑:瑞雪

在机器人技术领域,如何让机器更精准地理解并执行人类指令一直是研究热点。传统机器人模型虽能完成“将杯子放入篮子”等基础任务,但在执行细节上,如使用哪只手、从哪个方向抓取、抓取杯身还是杯柄等,往往缺乏明确指导。这导致机器人执行任务时灵活性不足,难以适应复杂多变的环境需求。

针对这一难题,香港大学XLANG Lab与阿里巴巴Qwen团队联合提出名为FineVLA的开源框架。该框架通过引入细粒度语言控制,使机器人不仅能完成任务目标,还能按照人类指定的方式执行动作。例如,用户可通过语言指令控制机器人使用左手、从特定角度接近物体、抓取指定部位等。实验数据显示,在RoboTwin仿真环境中,FineVLA的最佳混合策略设置成功率达86.8%/82.5%,较基线模型提升15.0/11.1个百分点;在真实双臂机器人平台上,成功率从49.9%提升至62.7%,在姿态、颜色、接近方向等关键指标上均有显著改善。

现有VLA(视觉-语言-动作)模型虽能根据自然语言完成抓取、放置等操作,但语言监督粒度较粗。例如,不同轨迹可能涉及使用左臂或右臂、绕过障碍物或直线移动等差异,但数据集中往往仅标注“拿起勺子”这类目标级指令。这种标注方式导致模型难以从语言中学习具体的执行约束,如使用哪只手、从哪个方向接近物体等。目前多数机器人数据集缺乏细粒度标注,成为构建可控VLA系统的主要障碍。

FineVLA框架通过构建“数据-模型-评测-策略”的完整闭环,系统性解决三大核心挑战:缺乏细粒度标注基础设施、缺乏评测基准与标注工具、缺乏细粒度语言对策略学习影响的系统性证据。该框架包含四个核心组件:FineVLA-Tool负责将异构数据转化为细粒度标注数据;RoboFine-VLM作为专用视觉语言模型,用于生成机器人动作描述;RoboFine-Bench提供细粒度动作理解评测基准;FineVLA-Policy则验证混合训练策略的有效性。

在数据处理环节,FineVLA-Tool从10个开源数据集中汇总97万条机器人轨迹,通过统一格式、动作规范化、DTW聚类去重等步骤,最终筛选出4.7万条代表性样本。这些样本沿动作序列、执行体、目标物体、接触方式等10个维度进行标注,标注词数从平均9.3个增至96.8个,提升10.4倍。为解决通用视觉语言模型(VLM)难以描述机器人动作细节的问题,研究团队对Qwen3.5-VL模型进行微调,得到能输出步骤级动作描述的RoboFine-VLM,可作为未来数据扩展的可扩展标注器。

评测方面,RoboFine-Bench包含500段视频、32种机器人形态和1.1万个原子事实,设有VQA(视觉问答)和Caption(描述生成)两个轨道。VQA轨道包含1030个问题,覆盖实体定位、动作理解、状态推理三个维度;Caption轨道要求模型生成细粒度动作描述,由大语言模型评判输出与原子事实的对齐程度。实验结果显示,RoboFine-VLM在VQA轨道准确率达68.2%,较通用基线模型提升8个百分点;在Caption硬模式(无语言线索)下得分82.2%,超越GPT-5.4模型。

策略验证环节,研究团队通过控制语言监督类型(仅原始指令/仅细粒度指令/混合指令),系统评估细粒度标注对策略学习的影响。实验表明,细粒度监督不损害任务成功率,且与原始指令形成互补。在RoboTwin仿真中,混合指令策略成功率呈倒U型趋势,最佳比例为细粒度指令与原始指令1:1至1:2,此时成功率达86.8%。真实机器人实验进一步验证,混合指令策略在颜色、姿态、接近方向等指标上提升显著,尤其在训练中未出现的“左手操作右侧目标”等组合任务中,成功率从0提升至10%,显示细粒度监督带来的因子级泛化能力。

我国首台100%国产化智能盾构换刀机器人发布 开启大盾构施工无人换刀新篇章
中国工程院院士钱七虎表示,智能换刀机器人的研发,在安全、效率、成本等方面取得成效,为我国交通工程装备自主化、无人化、智能化发展探索了新路径,也为产业化应用奠定了基础。 目前,智能盾构换刀机器人已在16米…

2026-06-26

2026年度安徽省博士后资助评审结果公示,751人及250个项目拟获资助
经评审,合肥幺正量子科技有限公司博士后站王宇辰等751名同志拟获2026年度安徽省博士后科研人员生活资助,中国科学技术大学博士后站“二氧化碳电还原界面微环境的同步辐射研究”等250个项目拟获2026年度安徽省…

2026-06-26

北京无人机车载MEMS标定:三轴转台选型要点与适配方案解析
坐落于江西九江的智航测控,作为深耕高精度测控与惯导测试领域的技术型企业,其推出的三轴转台采用高刚性结构设计,可适配实验室研发、外场测试、车载标定等多元场景,采用直驱力矩电机+高精度光栅测角的技术路径,低速无爬…

2026-06-26

KJ1126煤矿带式输送机监控系统:智能管控,筑牢煤矿运输安全高效防线
煤矿用带式输送机监控系统搭载高精度传感设备与智能识别模块,可实时采集皮带速度、温度等核心运行数据,同步监测跑偏、打滑、纵撕、断带、堆煤、烟雾等各类常见故障隐患。 煤矿用带式输送机监控系统集就地、集控、远程三…

2026-06-26