AI 精选动态
智能评分 67
Measuring AI agent autonomy in practice
AI 推荐理由
这篇文章把“agent 自主性”从概念讨论推进到可量化观测,给出了会话时长、auto-approve 比例和风险领域分布等实测数据,适合关注 agent 评估与部署治理的人直接阅读。核心解读
Anthropic 通过其隐私保护工具 Clio,分析了 Claude Code 和 public API 上数百万次人机交互,研究现实世界中 AI agents 的自主性、用户经验变化、使用领域和风险行为。结果显示,Claude Code 在最长会话中的自主运行时长在 3 个月内从不足 25 分钟接近翻倍到超过 45 分钟;新用户约 20% 的会话使用 full auto-approve,而随着经验增长这一比例升至超过 40%。在复杂任务上,Claude Code 主动暂停请求澄清的频率超过人类中断它的两倍;其 public API 上约 50% 的 agentic activity 来自软件工程,另有医疗、金融和网络安全等风险领域的早期使用。Anthropic 认为,agent 的有效监督需要新的事后监测基础设施和人机交互范式。