AI 精选动态智能评分 65

Raising the bar on SWE-bench Verified with Claude 3.5 Sonnet

来源: Anthropic-research

发布于: 2024-10-30

收录于: 2026-05-21

AI 推荐理由

建议点开原文查看其在软件工程基准上的具体评测方法、任务设置和相对提升幅度，以判断这类结果是否可迁移到真实代码工作流。

核心解读

Anthropic 表示，Claude 3.5 Sonnet 在 SWE-bench Verified 上刷新了该基准的表现，并将用于软件工程任务的能力作为重点展示。原文围绕该模型在代码修复与工程推理场景中的评测结果展开，但未在给定内容中提供具体分数、对比模型或版本之外的更多量化细节。

#模型发布#基准测试#大模型