AI 精选动态智能评分 76

Developing a computer use model

来源: Anthropic-research

发布于: 2024-10-22

收录于: 2026-05-21

AI 推荐理由

这篇更新同时给出了电脑操作能力的实现方式、OSWorld 具体分数以及安全边界判断，适合关注 agent 与桌面自动化路线的人直接阅读原文。

核心解读

Anthropic 发布研究更新，称最新版 Claude 3.5 Sonnet 在配套软件设置下可通过查看屏幕截图、移动光标、点击位置并用虚拟键盘输入内容，从而像人一样操作电脑，当前处于 public beta。Anthropic 还披露，该模型在 OSWorld 评测上得分 14.9%，高于同类次优 AI 模型的 7.7%，但仍低于人类常见的 70%-75%。公司同时表示，更新后的 Claude 3.5 Sonnet 仍处于 AI Safety Level 2，并重点分析了 prompt injection 等安全风险。

#模型发布#智能体#AI安全

阅读原始全文