AI 精选动态
智能评分 60
Qwen-AgentWorld 发布 35B MoE 模型并推出 7 域基准
AI 推荐理由
该模型首次提供 256K 超长上下文并在新基准上超越 Claude Sonnet,值得关注。核心解读
Qwen-AgentWorld 在 ModelScope 开源了一个 35B 参数、3B 活跃参数的 MoE 世界模型,支持 256K 上下文,并提供针对 7 类代理环境的 7-domain 基准 AgentWorldBench,包含 2,170 条样本、平均 22.8 轮对话。该模型在 AgentWorldBench 上从 47.73 提升到 56.39 分,略超 Claude Sonnet 4.6 的 56.04 分。训练采用三阶段方式:CPT 注入环境知识、SFT 激活下一状态预测推理、RL 提升仿真保真度。
全文
Qwen-AgentWorld just dropped two releases on ModelScope! An open 35B total / 3B active MoE world model with 256K context, plus a 7-domain benchmark grounded in real environment observations. 🚀
🔗 https://t.co/Cv7pJCiM8s
Qwen-AgentWorld-35B-A3B
🌍 One model for 7 agent environments: MCP, Search, Terminal, SWE, Web, OS, and Android
🧪 47.73 → 56.39 on AgentWorldBench, surpassing Claude Sonnet 4.6 at 56.04
🧠 Three-stage training: CPT injects environment knowledge, SFT activates next-state prediction reasoning, and RL sharpens simulation fidelity
AgentWorldBench
🛠️ Covers 7 domains with 2,170 samples and 22.8 average turns
🔎 Scores predictions on format, factuality, consistency, realism, and quality

