返回精选
AI 精选动态 智能评分 77

A postmortem of three recent issues

来源: Anthropic-engineering
发布于: 2025-09-17
收录于: 2026-05-21
AI 推荐理由
可重点看路由、输出损坏和 TPU 编译器三类故障如何分别放大到不同平台,以及 Anthropic 如何补上跨平台一致性和异常输出检测。
核心解读
Anthropic 发布了对 8 月至 9 月初 3 起 Claude 基础设施故障的复盘,称这些问题间歇性降低了 Claude 的回复质量,且并非因为需求、时段或服务器负载而降级模型。公司说明 Claude 通过自有 API、Amazon Bedrock 和 Google Cloud Vertex AI 向数百万用户提供服务,并部署在 AWS Trainium、NVIDIA GPUs 和 Google TPUs 上。三起问题分别是:8 月 5 日的上下文窗口路由错误,最初影响约 0.8% 的 Sonnet 4 请求,8 月 31 日受影响峰值升至 16%,Claude Code 期间约 30% 用户至少有一条消息被路由到错误服务器;8 月 25 日到 9 月 2 日的输出损坏,影响 Opus 4.1、Opus 4 和 Sonnet 4;以及 8 月 25 日触发的 XLA:TPU 近似 top-k 误编译,已确认影响 Haiku 3.5,且可能影响部分 Sonnet 4 和 Opus 3。Anthropic 分别于 9 月 4 日、9 月 2 日完成修复或回滚,并为路由和异常字符输出增加了检测与验证措施。
#行业动态#基础设施#产品更新