上海AI实验室InternVLA-M1：为机器人装上“空间智慧大脑”-科技-沃资讯

上海人工智能实验室Intern Robotics团队近日宣布，其开发的统一视觉-语言-动作框架InternVLA-M1取得重大突破。这项发表于arXiv平台的研究（编号：2510.13778v1）通过创新的空间引导训练策略，成功解决了机器人理解复杂指令并精准执行动作的难题。实验数据显示，该系统在多个基准测试中超越现有方法，特别是在真实世界杂乱环境中的表现提升超过20%，为通用机器人研发开辟了新路径。

传统机器人系统在执行"将桌上红色苹果放入篮子"这类任务时面临双重挑战：既要理解人类语言的模糊性，又需在三维空间中精准定位物体。研究团队提出的解决方案借鉴人类认知模式，构建了包含41亿参数的双系统架构。该系统由VLM规划器和动作专家组成，前者负责分析任务要求、识别物体位置并制定行动计划，后者则将高层规划转化为精确的机械臂控制信号。这种分工模式使系统在单张RTX 4090显卡上即可实现每秒10帧的推理速度，内存占用控制在12GB以内。

训练策略的创新是该研究的核心突破。团队采用分阶段训练法：首先通过230万个空间推理样本构建基础能力，涵盖物体检测、点定位、轨迹预测等核心任务；随后在仿真环境中生成24.4万个可泛化场景，训练系统将空间理解转化为具体动作。这种"先理解空间再执行动作"的策略，使系统在SimplerEnv测试中成功率提升14.6%，在真实世界杂乱场景中的表现提升达20.6%。特别是在长时程任务中，系统展现出强大的规划能力，能动态调整策略应对物理干扰和任务变更。

为支撑大规模训练需求，研究团队构建了高度逼真的仿真平台。该平台整合14716个物体模型、200余张桌子、80种光照条件和1676种纹理，通过分离物理计算与渲染过程，实现高效数据生成。每个训练样本都经过双重验证：物理引擎确保动作可行性，场景图验证器检查任务完成度。这种严格的质量控制机制，使系统在未见物体和新配置场景中仍能保持稳定性能，显著提升了仿真到现实的迁移能力。

在评估环节，InternVLA-M1展现了全方位优势。在LIBERO基准测试中，系统在空间推理和长时程任务子集上分别达到98.2%和97.5%的成功率，超越最强基线方法1.6个百分点。真实世界测试中，配备Robotiq夹爪的Franka机械臂在23个已见物体和5个已见容器的分类任务中，通过协同训练将未见物体操作成功率提升至20.6%。特别在抽屉操作任务中，系统能实时感知人为干预并调整动作序列，展现出强大的环境适应能力。

技术细节方面，研究团队设计了轻量级查询变换器连接双系统，通过梯度衰减因子平衡多模态知识学习。空间提示策略的引入，使系统在执行任务时自动激活预训练的空间感知能力。双重监督机制则确保VLM规划器与动作专家协同优化，在保持语义推理能力的同时实现高效端到端训练。这些创新使系统在处理绝对/相对位置指令时表现出色，有效解决了数据驱动模型泛化不足的问题。

该研究的公开资源为后续研究奠定基础。团队不仅发布了完整代码和模型参数，还开源了包含300万个多模态样本的训练数据集。详细的评估基准覆盖从简单抓取到复杂推理的200余个任务，为机器人学习领域提供了标准化测试平台。随着技术持续完善，这种空间引导训练范式有望推动通用机器人进入更多实际应用场景，实现更自然的人机协作。

智元“灵心平台”上线：零代码定制机器人“灵魂”，开启个性化智能生活

通过灵心平台，用户无需具备代码基础，即可利用模块化、可视化的操作界面，对机器人的声音、性格、行为与记忆进行深度配置，实现从角色定义到行为编排的全流程“人格化”编辑。在行为与人设编排上，系统支持用户像编辑视频素…

2025-11-25