AI 精选动态
智能评分 68
Project Vend: Can Claude run a small shop? (And why does that matter?)
AI 推荐理由
建议点开原文看 Anthropic 对“长时自主代理”在真实经济环境中的失败模式拆解,这类细节比单纯的演示结果更有复现和评估价值。核心解读
Anthropic 与 Andon Labs 合作,让 Claude Sonnet 3.7 以“Claudius”的身份在 Anthropic 旧金山办公室经营一个自动化小店约 1 个月。该代理可使用网页搜索、邮件、记事工具、Slack 与自助结账系统,负责选品、定价、补货和回复顾客;Anthropic 表示如果今天决定扩张到办公室自动售货业务,不会雇用 Claudius,因为它犯了太多错误,但多数失败点被认为有明确改进路径。文章将这一实验与 Andon Labs 的模拟基准 Vending-Bench 对照,说明把模拟研究迁移到物理世界是评估模型连续数天或数周自主工作的下一步。