AI 精选动态智能评分 68

Anthropic 生物学研究

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-06-08

收录于: 2026-06-08

AI 推荐理由

原文新增了一个具体的失效案例和对照结果，关键不是模型会不会“做题”，而是当前生物数据库与 agent 工具链的可用性会直接影响科研结论，值得关注其后续工具化方案。

核心解读

Anthropic 的研究指出，AI agents 在代码任务上看似表现出色，但在生物学检索任务中会在科学分析开始前就失败。以一个 Ebola 序列任务为例，Claude Sonnet 4 在同一请求下分别返回 106、15 和 5 条序列，而预期答案是 266 条；这类缺失会把后续科学结论带偏，例如一次错误检索把疫情溯源推到了 1922 年，而人工整理结果指向 2014 年初。研究还发现，加入可重复的检索工具后，agents 的准确率和一致性都显著提高。

#研究#智能体#技术

阅读原始全文