沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

上海AI实验室InternVLA-M1:为机器人装上“空间智慧大脑”

2025-11-25来源:快讯编辑:瑞雪

上海人工智能实验室Intern Robotics团队近日宣布,其开发的统一视觉-语言-动作框架InternVLA-M1取得重大突破。这项发表于arXiv平台的研究(编号:2510.13778v1)通过创新的空间引导训练策略,成功解决了机器人理解复杂指令并精准执行动作的难题。实验数据显示,该系统在多个基准测试中超越现有方法,特别是在真实世界杂乱环境中的表现提升超过20%,为通用机器人研发开辟了新路径。

传统机器人系统在执行"将桌上红色苹果放入篮子"这类任务时面临双重挑战:既要理解人类语言的模糊性,又需在三维空间中精准定位物体。研究团队提出的解决方案借鉴人类认知模式,构建了包含41亿参数的双系统架构。该系统由VLM规划器和动作专家组成,前者负责分析任务要求、识别物体位置并制定行动计划,后者则将高层规划转化为精确的机械臂控制信号。这种分工模式使系统在单张RTX 4090显卡上即可实现每秒10帧的推理速度,内存占用控制在12GB以内。

训练策略的创新是该研究的核心突破。团队采用分阶段训练法:首先通过230万个空间推理样本构建基础能力,涵盖物体检测、点定位、轨迹预测等核心任务;随后在仿真环境中生成24.4万个可泛化场景,训练系统将空间理解转化为具体动作。这种"先理解空间再执行动作"的策略,使系统在SimplerEnv测试中成功率提升14.6%,在真实世界杂乱场景中的表现提升达20.6%。特别是在长时程任务中,系统展现出强大的规划能力,能动态调整策略应对物理干扰和任务变更。

为支撑大规模训练需求,研究团队构建了高度逼真的仿真平台。该平台整合14716个物体模型、200余张桌子、80种光照条件和1676种纹理,通过分离物理计算与渲染过程,实现高效数据生成。每个训练样本都经过双重验证:物理引擎确保动作可行性,场景图验证器检查任务完成度。这种严格的质量控制机制,使系统在未见物体和新配置场景中仍能保持稳定性能,显著提升了仿真到现实的迁移能力。

在评估环节,InternVLA-M1展现了全方位优势。在LIBERO基准测试中,系统在空间推理和长时程任务子集上分别达到98.2%和97.5%的成功率,超越最强基线方法1.6个百分点。真实世界测试中,配备Robotiq夹爪的Franka机械臂在23个已见物体和5个已见容器的分类任务中,通过协同训练将未见物体操作成功率提升至20.6%。特别在抽屉操作任务中,系统能实时感知人为干预并调整动作序列,展现出强大的环境适应能力。

技术细节方面,研究团队设计了轻量级查询变换器连接双系统,通过梯度衰减因子平衡多模态知识学习。空间提示策略的引入,使系统在执行任务时自动激活预训练的空间感知能力。双重监督机制则确保VLM规划器与动作专家协同优化,在保持语义推理能力的同时实现高效端到端训练。这些创新使系统在处理绝对/相对位置指令时表现出色,有效解决了数据驱动模型泛化不足的问题。

该研究的公开资源为后续研究奠定基础。团队不仅发布了完整代码和模型参数,还开源了包含300万个多模态样本的训练数据集。详细的评估基准覆盖从简单抓取到复杂推理的200余个任务,为机器人学习领域提供了标准化测试平台。随着技术持续完善,这种空间引导训练范式有望推动通用机器人进入更多实际应用场景,实现更自然的人机协作。

智元“灵心平台”上线:零代码定制机器人“灵魂”,开启个性化智能生活
通过灵心平台,用户无需具备代码基础,即可利用模块化、可视化的操作界面,对机器人的声音、性格、行为与记忆进行深度配置,实现从角色定义到行为编排的全流程“人格化”编辑。在行为与人设编排上,系统支持用户像编辑视频素…

2025-11-25

中国量子计算机算力飞跃:1.6万年任务10分钟搞定,面向全球开放服务
量子科技利用量子叠加、量子纠缠等特性,在计算、测量和通信等领域展现出巨大应用潜力。根据央视财经报道,我国自主研发的量子计算原型机“祖冲之三号”刷新了超导体系全球量子计算优越性新纪录。中国电信安徽公司搭建的融合…

2025-11-25

最强新股上市两日或亏近半!3D打印新材料突破,固态电池应用前景可期
展望未来,该材料可能与其他材料结合,制造具有不同化学成分的3D打印产品,可拓展多种应用。 据Wohlers Report预计,2030年全球3D打印市场规模(包括材料销售、打印设备销售与服务及软件销售)…

2025-11-25