返回精选
AI 精选动态 智能评分 60

Qwen-AgentWorld 发布 35B MoE 模型并推出 7 域基准

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-06-24
收录于: 2026-06-24
AI 推荐理由
该模型首次提供 256K 超长上下文并在新基准上超越 Claude Sonnet,值得关注。
核心解读
Qwen-AgentWorld 在 ModelScope 开源了一个 35B 参数、3B 活跃参数的 MoE 世界模型,支持 256K 上下文,并提供针对 7 类代理环境的 7-domain 基准 AgentWorldBench,包含 2,170 条样本、平均 22.8 轮对话。该模型在 AgentWorldBench 上从 47.73 提升到 56.39 分,略超 Claude Sonnet 4.6 的 56.04 分。训练采用三阶段方式:CPT 注入环境知识、SFT 激活下一状态预测推理、RL 提升仿真保真度。
全文
Qwen-AgentWorld just dropped two releases on ModelScope! An open 35B total / 3B active MoE world model with 256K context, plus a 7-domain benchmark grounded in real environment observations. 🚀 🔗 https://t.co/Cv7pJCiM8s Qwen-AgentWorld-35B-A3B 🌍 One model for 7 agent environments: MCP, Search, Terminal, SWE, Web, OS, and Android 🧪 47.73 → 56.39 on AgentWorldBench, surpassing Claude Sonnet 4.6 at 56.04 🧠 Three-stage training: CPT injects environment knowledge, SFT activates next-state prediction reasoning, and RL sharpens simulation fidelity AgentWorldBench 🛠️ Covers 7 domains with 2,170 samples and 22.8 average turns 🔎 Scores predictions on format, factuality, consistency, realism, and quality ![photo](https://pbs.twimg.com/media/HLjKRgIXEAAYjQl.jpg) ![photo](https://pbs.twimg.com/media/HLjKRWUWoAACnIs.jpg)
#模型发布#基准测试#技术突破