AI 精选动态
智能评分 75
Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。
AI 推荐理由
在编码基准上显著提升,并引入 Dynamic Workflows 实现规划‑并行‑验证核心解读
Anthropic 发布 Claude Opus 4.8,在可靠性和执行能力上提升,适用于复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。基准测试显示 SWE‑Bench Pro 69.2%、GDPval‑AA 1890、Terminal‑Bench 2.1 74.6% 等指标提升。该版本在诚实度上提升 4 倍,减少误判并主动标注不确定性,支持更长时间的自主工作。Agent 协作质量进一步提升,计算机/浏览器 Agent 在 OSWorld‑Verified 83.4%、Online‑Mind2Web 84% 等指标上显著增强,并推出 Claude Code Dynamic Workflows 从单 Agent 演变为规划‑并行‑验证流程。