通义千问团队发布Qwen-AgentWorld：原生语言世界模型开启智能体交互新篇章-数码-沃资讯

阿里通义千问团队近日宣布推出全球首个原生语言世界模型（Language World Model, LWM）——Qwen-AgentWorld。该模型通过模拟七大领域的智能体交互环境，实现了跨领域知识迁移能力，在AgentWorldBench评测基准中超越了GPT-5.4、Claude Opus 4.8及Gemini 3.1 Pro等国际主流模型。

模型构建覆盖文本类（MCP、Search、Terminal、SWE）与GUI类（Web、OS、Android）七类交互场景。针对图形界面环境，研发团队创新采用可渲染代码替代传统像素帧作为环境观测输入，使纯文本建模即可完整表征视觉信息。这种设计突破了多模态建模的常规路径，为智能体训练提供了更高效的解决方案。

训练体系采用CPT→SFT→RL三阶段架构，形成完整的原生世界建模闭环。在预训练阶段，模型通过分析超千万条真实交互轨迹，引入轮次级信息论损失掩码技术，精准识别承载环境信息的对话轮次。指令微调阶段将状态预测转化为思维链推理模式，强化学习阶段则通过混合奖励信号优化输出质量。这种贯穿全流程的环境建模机制，使模型具备原生世界理解能力，而非简单叠加环境模拟模块。

同步发布的AgentWorldBench评测基准包含七大领域测试集，每条样本均配备真实环境执行的ground-truth观测数据。实验数据显示，3970亿参数版本Qwen-AgentWorld-397B-A17B取得58.71分的综合成绩，在Terminal和SWE领域较GPT-5.4提升显著。350亿参数版本通过三阶段训练提升8.66分，性能超越Claude Sonnet 4.6，验证了小规模模型的高效训练路径。

研发团队提出两种互补的世界建模应用范式：作为独立环境模拟器时，模型可为强化学习提供可控的虚拟训练场，其塑造智能体行为的能力远超纯真实环境训练；作为基础模型时，经LWM预训练的智能体可直接迁移至多轮任务，无需额外微调即可展现优异性能。目前模型与评测基准已在Hugging Face和ModelScope平台开源，为智能体研究提供新的技术路径。