AI 精选动态
智能评分 72
CHI-Bench:医疗工作流基准
AI 推荐理由
该基准首次把美国医疗审批、利用管理和护理管理拆成可复现的长周期任务,并给出了 Claude Code Opus 4.6 与 Codex GPT-5.5 的分项成绩,适合关注 agent 真实工作流能力边界的人直接看原文和 leaderboard。核心解读
Weiran Yao 发布 CHI-Bench,用于评估 AI agents 是否能仅凭 clinician 与 insurer apps、operations 以及 medical policy library,端到端自动化美国医疗工作流。该基准包含 75 个长周期真实医疗工作流、覆盖 30 个 frontier agents,每个试验运行 60–80 步,任务分布在 provider prior auth、payer utilization management 和 care management 三类流程。结果显示,最佳模型 Anthropic Claude Code Opus 4.6 的 pass@1 为 28%,OpenAI Codex GPT-5.5 为 21%;分领域上,utilization review 为 41%,care management 为 32%,prior-auth paperwork 为 29%。