返回精选
AI 精选动态 智能评分 60

Sakana AI 发布 CoffeeBench 基准测试

来源: twitter关注列表
作者: Sakana AI (@SakanaAILabs)
发布于: 2026-06-26
收录于: 2026-06-26
AI 推荐理由
与现有单任务基准不同,CoffeeBench 模拟长期多代理交互,值得关注其对协作与审计研究的启发。
核心解读
SakanaAI 与有限責任あずさ監査法人联合发布 CoffeeBench,这是一个评估 LLM 代理长期经营能力的模拟基准,模拟咖啡供应链中 6 家公司(农户、烘焙店、零售店)90 天的运营,代理需进行价格谈判、订单、库存管理等以最大化净利润。测试发现不同模型表现差异大,有的积极谈判盈利,有的分析却不动导致亏损。该基准旨在研究多代理间的协作、竞争、违规行为及审计治理,论文将在 ICML2026 Workshop 发表。
全文
SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。 ブログ:https://t.co/9dgRvLkBw2 現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。 最新のLLMを同じ環境で競わせると、経営成績は大きく分かれました。積極的に交渉し、利益に直結する一手を打ち続けるモデルがいる一方で、自身の状況を分析しながらも行動に移さず、待機し続けて赤字に陥るモデルも出てくるなど、長期タスクならではの振る舞いの違いが観察できました。 CoffeeBenchは、長期にわたり相互作用するLLMエージェントの能力や振る舞いを評価・分析していくための第一歩です。今後は、複数エージェント間で生じる協調・競争・逸脱行動や、その監査・ガバナンス手法の研究へと発展させていくことを目指します。 本研究は ICML2026 Workshop "Failure Modes in Agentic AI" にて発表予定です。 論文:https://t.co/LQ9w0r960H ☕ https://video.twimg.com/tweet_video/HLt_B69boAAZXea.mp4 Sakana AI (@SakanaAILabs): CoffeeBenchでは、6体のエージェントがメールや取引で相互作用し、各社が利益の最大化を目指します。LLMエージェントが経営を担う社会が来たときに、協調や競争、ときに不正はどう現れるのか。CoffeeBenchは、それを観察するための実験場でもあります。 https://t.co/oe3KlLHYCR
#技术#模型#分析