AI 精选动态
智能评分 65
Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet
AI 推荐理由
建议点开原文查看其在软件工程基准上的具体评测方法、任务设置和相对提升幅度,以判断这类结果是否可迁移到真实代码工作流。核心解读
Anthropic 表示,Claude 3.5 Sonnet 在 SWE-bench Verified 上刷新了该基准的表现,并将用于软件工程任务的能力作为重点展示。原文围绕该模型在代码修复与工程推理场景中的评测结果展开,但未在给定内容中提供具体分数、对比模型或版本之外的更多量化细节。