AI 精选动态智能评分 72

CHI-Bench：医疗工作流基准

来源: twitter关注列表

作者: meng shao (@shao__meng)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

该基准首次把美国医疗审批、利用管理和护理管理拆成可复现的长周期任务，并给出了 Claude Code Opus 4.6 与 Codex GPT-5.5 的分项成绩，适合关注 agent 真实工作流能力边界的人直接看原文和 leaderboard。

核心解读

Weiran Yao 发布 CHI-Bench，用于评估 AI agents 是否能仅凭 clinician 与 insurer apps、operations 以及 medical policy library，端到端自动化美国医疗工作流。该基准包含 75 个长周期真实医疗工作流、覆盖 30 个 frontier agents，每个试验运行 60–80 步，任务分布在 provider prior auth、payer utilization management 和 care management 三类流程。结果显示，最佳模型 Anthropic Claude Code Opus 4.6 的 pass@1 为 28%，OpenAI Codex GPT-5.5 为 21%；分领域上，utilization review 为 41%，care management 为 32%，prior-auth paperwork 为 29%。

#基准测试#智能体#行业动态

阅读原始全文