返回精选
AI 精选动态 智能评分 75

Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。

来源: twitter关注列表
作者: meng shao (@shao__meng)
发布于: 2026-05-29
收录于: 2026-05-29
AI 推荐理由
在编码基准上显著提升,并引入 Dynamic Workflows 实现规划‑并行‑验证
核心解读
Anthropic 发布 Claude Opus 4.8,在可靠性和执行能力上提升,适用于复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。基准测试显示 SWE‑Bench Pro 69.2%、GDPval‑AA 1890、Terminal‑Bench 2.1 74.6% 等指标提升。该版本在诚实度上提升 4 倍,减少误判并主动标注不确定性,支持更长时间的自主工作。Agent 协作质量进一步提升,计算机/浏览器 Agent 在 OSWorld‑Verified 83.4%、Online‑Mind2Web 84% 等指标上显著增强,并推出 Claude Code Dynamic Workflows 从单 Agent 演变为规划‑并行‑验证流程。
#模型发布#研究突破#AI产业