AI 精选动态智能评分 66

How we built our multi-agent research system

来源: Anthropic-engineering

发布于: 2025-06-13

收录于: 2026-05-21

AI 推荐理由

原文给出了 Claude Research 的具体架构、内部评测提升幅度和 token 成本数据，适合直接参考其多智能体编排与评估思路。

核心解读

Anthropic 介绍了其 Claude Research 功能背后的多智能体系统，从原型到生产的过程中总结了系统架构、工具设计和提示词工程的经验。该系统支持 Claude 通过 web、Google Workspace 和各类 integrations 搜索信息来完成复杂任务，采用 orchestrator-worker 架构，由一个 lead agent 规划研究流程并并行调度多个 subagents。Anthropic 内部评测显示，使用 Claude Opus 4 作为主 agent、Claude Sonnet 4 作为 subagents 的多智能体研究系统，在内部 research eval 上比单智能体 Claude Opus 4 高 90.2%；在 BrowseComp 评测分析中，token 用量、tool calls 数量和 model choice 三个因素解释了 95% 的性能差异，其中 token 用量单独解释了 80%。同时，Anthropic 指出多智能体系统的代价也很高：agents 通常比普通聊天多消耗约 4 倍 token，多智能体系统约多消耗 15 倍 token，因此更适合高价值、可并行、超出单一上下文窗口的信息检索任务。

#智能体#模型发布#开发者工具

阅读原始全文