AI 精选动态
智能评分 70
AI 推荐理由
该工作证明了端到端学习指挥大模型的可行性,揭示了未来AI系统的高效协同与自动化设计方向。核心解读
一篇论文展示了一个7B规模的强化学习模型能够指挥GPT‑5、Claude Sonnet 4和Gemini 2.5 Pro等顶级大模型完成自然语言子任务,并在GPQA Diamond、LiveCodeBench、AIME25等基准上超过单一模型,平均每题仅调用三次大模型。