AI 精选动态智能评分 67

Measuring AI agent autonomy in practice

来源: Anthropic-research

发布于: 2026-02-18

收录于: 2026-05-21

AI 推荐理由

这篇文章把“agent 自主性”从概念讨论推进到可量化观测，给出了会话时长、auto-approve 比例和风险领域分布等实测数据，适合关注 agent 评估与部署治理的人直接阅读。

核心解读

Anthropic 通过其隐私保护工具 Clio，分析了 Claude Code 和 public API 上数百万次人机交互，研究现实世界中 AI agents 的自主性、用户经验变化、使用领域和风险行为。结果显示，Claude Code 在最长会话中的自主运行时长在 3 个月内从不足 25 分钟接近翻倍到超过 45 分钟；新用户约 20% 的会话使用 full auto-approve，而随着经验增长这一比例升至超过 40%。在复杂任务上，Claude Code 主动暂停请求澄清的频率超过人类中断它的两倍；其 public API 上约 50% 的 agentic activity 来自软件工程，另有医疗、金融和网络安全等风险领域的早期使用。Anthropic 认为，agent 的有效监督需要新的事后监测基础设施和人机交互范式。

#智能体#研究突破#行业动态

阅读原始全文