返回精选
AI 精选动态 智能评分 68

Anthropic 生物学研究

来源: twitter关注列表
作者: Rohan Paul (@rohanpaul_ai)
发布于: 2026-06-08
收录于: 2026-06-08
AI 推荐理由
原文新增了一个具体的失效案例和对照结果,关键不是模型会不会“做题”,而是当前生物数据库与 agent 工具链的可用性会直接影响科研结论,值得关注其后续工具化方案。
核心解读
Anthropic 的研究指出,AI agents 在代码任务上看似表现出色,但在生物学检索任务中会在科学分析开始前就失败。以一个 Ebola 序列任务为例,Claude Sonnet 4 在同一请求下分别返回 106、15 和 5 条序列,而预期答案是 266 条;这类缺失会把后续科学结论带偏,例如一次错误检索把疫情溯源推到了 1922 年,而人工整理结果指向 2014 年初。研究还发现,加入可重复的检索工具后,agents 的准确率和一致性都显著提高。
#研究#智能体#技术