AI 精选动态智能评分 75

Claude Opus 4.8 发布：可靠性和执行能力进一步提升，更适合承担复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。

来源: twitter关注列表

作者: meng shao (@shao__meng)

发布于: 2026-05-29

收录于: 2026-05-29

AI 推荐理由

在编码基准上显著提升，并引入 Dynamic Workflows 实现规划‑并行‑验证

核心解读

Anthropic 发布 Claude Opus 4.8，在可靠性和执行能力上提升，适用于复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。基准测试显示 SWE‑Bench Pro 69.2%、GDPval‑AA 1890、Terminal‑Bench 2.1 74.6% 等指标提升。该版本在诚实度上提升 4 倍，减少误判并主动标注不确定性，支持更长时间的自主工作。Agent 协作质量进一步提升，计算机/浏览器 Agent 在 OSWorld‑Verified 83.4%、Online‑Mind2Web 84% 等指标上显著增强，并推出 Claude Code Dynamic Workflows 从单 Agent 演变为规划‑并行‑验证流程。

#模型发布#研究突破#AI产业

阅读原始全文