AI 精选动态
智能评分 60
Exa 正式发布「Exa Agent」:托管式 Web Research Agent API
AI 推荐理由
相比通用搜索 Agent,Exa 在 WideSearch 任务上展示了成本-质量 Pareto 前沿优势,值得关注其模型融合策略。核心解读
Exa 发布 Exa Agent,一个托管式 Web Research Agent API,将前沿模型与自研搜索工具链打包为单一接口,面向深度调研、名单构建、实体 enrichment 三类任务。技术路径包括任务分解与并行子 Agent、按任务动态混用模型的 Model Fusion、以及可削减 token 用量最高 94% 的 Highlights 模型。在 WideSearch 基准上以 Row-F1 评分与 Perplexity Agent Pro、Opus 4.8、GPT 5.5 对比,Exa Agent 在 Pareto 前沿上占优,成本低于 GPT 5.5 和 Opus。
全文
Exa 正式发布「Exa Agent」:托管式 Web Research Agent API,把前沿模型与 Exa 自研搜索工具链打包成单一接口,面向「深度调研、名单构建、实体 enrichment」三类任务
https://t.co/Qub4iu2RYL
# 技术路径:三层叠加
1. 任务分解 + 并行子 Agent
面对大规模数据集或宽口径调研,系统会把任务拆成多个子任务,按领域并行派生子 Agent。这是典型的 Map-Reduce 式研究架构,适合 WideSearch 类「多实体 × 多字段」任务。
2. Model Fusion(模型融合)
不固定用单一最强模型,而是 按任务动态混用 frontier 模型与高性价比模型,在质量与成本之间做路由。Blog 未披露具体路由策略,但方向清晰:把算力花在「难的地方」,简单子任务用便宜模型。
3. Token 效率:Highlights 模型
Blog 再次强调 Exa Highlights——据称可将 token 用量 最高削减 94%。对 Agent 工作流而言,这直接决定:同样预算下能读多少网页、做多少轮检索,是成本优势的重要来源之一。
# 评测设计:WideSearch 与 Row-F1
Blog 重点展示了 WideSearch 基准(2025年8月发布),任务形态是:从全网聚合原子信息,输出结构化表格(实体 + 多列 enrichment)。
Exa 采用的评分方式是 Row-F1:
· 一行算成功,必须 实体匹配正确 + 所有必填列均有效
· 他们曾试过 Cell-level F1,但认为过于宽松——单列对了、实体错了也会得分
这个选择本身合理:更贴近 B2B 场景(CRM enrichment、竞品表、融资名单)的真实需求,而不是学术 QA 的「部分正确也给分」。
Blog 图表将 Exa Agent High 与 Perplexity Agent Pro、Parallel Task Ultra、Opus 4.8、GPT 5.5 对比,维度是 Row-F1 vs 单次查询成本,Exa 在 Pareto 前沿上占优。
# 应用场景
1. Finance Agent
实时抓取全网财务/融资/产品动态,聚合为自定义格式
2. GTM / Sales
自带账户列表做 enrichment,或由 Agent 生成数十至数百实体名单
3. Company Research
多维度公司简报(融资、产品、合作、高管、GitHub 等)
4. Literature / Code Review
文献综述、代码相关调研

> **引用原帖 Exa (@ExaAILabs):**
> Introducing Exa Agent: frontier web research at less than half the cost of GPT 5.5 and Opus.
> /agent orchestrates a mixture of cost-effective models to complete any web research task, from simple data enrichments to building gigantic lists. https://t.co/xdnbiUKhSX
> https://x.com/ExaAILabs/status/2066946215250690228