沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录

2026-02-12来源:快讯编辑:瑞雪

小米近日在具身智能领域迈出重要一步,正式推出并开源首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,在消费级显卡上即可完成毫秒级推理,成功突破传统VLA模型因延迟导致的物理世界交互瓶颈,多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题,研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型(VLM)作为认知中枢,可解析人类模糊指令并精准识别三维空间关系;多层扩散Transformer(DiT)构成的运动控制模块则通过"动作块"生成技术,将复杂动作拆解为高频执行单元,配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令,又能流畅完成抓取、递送等连续动作。

在训练体系构建上,小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系,在冻结VLM参数的同时专项优化DiT模块,确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题,Clean Action Prefix技术保障动作序列的连贯性,Λ-shape注意力掩码则使模型更聚焦实时视觉反馈,环境适应速度提升3倍以上。

目前该项目已实现全面开源,技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划,重点引进多模态学习、运动控制、人机交互等领域的顶尖专家,持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线,更为工业界落地具身智能应用扫清关键技术障碍。

深圳成立领先边端智能开放研究院 加速构建全球边端智能产业高地
预计到2030年,依托研究院及一整套边端智能产业生态,深圳将构建跨领域技术共栈体系,在智能体领域形成自主可控的核心技术能力,推动一批标志性的智能体项目落地,引领科技创新和产业创新深度融合新范式,打造具有全球影…

2026-02-12

北京大学团队突破:全球首个大规模集成光量子芯片通信网络问世
研究团队成功研制出全功能集成的高性能量子密钥发送芯片与光学微腔光频梳光源芯片,并在此基础上构建了全球首个基于集成光量子芯片的大规模量子密钥分发网络——“未名量子芯网”。自2019年起,实验室团队持续投入QK…

2026-02-12

蓝牙手柄进军欧亚市场必看:EAC认证发证公司选择与流程全解析
EAC认证是欧亚经济联盟针对产品安全性和技术合规性的强制性要求,未获得认证的产品无法在当地销售。 1.EAC认证的基本要求EAC认证的核心是确认产品符合欧亚经济联盟的技术法规。 (1)提交申请:向发证公司提…

2026-02-12

西门子携手nVent打造100MW AI数据中心蓝图 赋能超大规模AI建设
西门子(Siemens)与nVent公布了一项联合参考架构,旨在帮助运营商加速超大规模AI数据中心的建设。 西门子与nVent的联合架构旨在支持运营商构建下一波支持AI的数据中心,在这些设施中,性能、可持续性…

2026-02-12

iOS 26.3 正式版更新:数据迁移优化 新功能与漏洞修复齐登场
那么在 iOS 26.3 中,显然也带来了一些与国行用户暂时无缘的功能。 面向欧盟用户,苹果在新系统中新增了一个名为「通知转发」的功能。作为一个大版本更新,苹果在 iOS 26.3 中修复了海量的系统漏洞…

2026-02-12

量子力学三大核心:解锁微观世界新视角 引领科技前沿新突破
从电子的双缝干涉到量子计算机的并行计算,其理论框架不仅解释了原子结构、激光原理等基础现象,更催生了量子通信、量子传感等前沿技术。该原理延伸至能量-时间不确定性关系ΔE·Δt≥ħ/2,解释了虚粒子涨落与量子隧穿…

2026-02-12