AI 精选动态智能评分 60

Sakana AI 发布 CoffeeBench 基准测试

来源: twitter关注列表

作者: Sakana AI (@SakanaAILabs)

发布于: 2026-06-26

收录于: 2026-06-26

AI 推荐理由

与现有单任务基准不同，CoffeeBench 模拟长期多代理交互，值得关注其对协作与审计研究的启发。

核心解读

SakanaAI 与有限責任あずさ監査法人联合发布 CoffeeBench，这是一个评估 LLM 代理长期经营能力的模拟基准，模拟咖啡供应链中 6 家公司（农户、烘焙店、零售店）90 天的运营，代理需进行价格谈判、订单、库存管理等以最大化净利润。测试发现不同模型表现差异大，有的积极谈判盈利，有的分析却不动导致亏损。该基准旨在研究多代理间的协作、竞争、违规行为及审计治理，论文将在 ICML2026 Workshop 发表。

全文

SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。ブログ：https://t.co/9dgRvLkBw2 現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。最新のLLMを同じ環境で競わせると、経営成績は大きく分かれました。積極的に交渉し、利益に直結する一手を打ち続けるモデルがいる一方で、自身の状況を分析しながらも行動に移さず、待機し続けて赤字に陥るモデルも出てくるなど、長期タスクならではの振る舞いの違いが観察できました。 CoffeeBenchは、長期にわたり相互作用するLLMエージェントの能力や振る舞いを評価・分析していくための第一歩です。今後は、複数エージェント間で生じる協調・競争・逸脱行動や、その監査・ガバナンス手法の研究へと発展させていくことを目指します。本研究は ICML2026 Workshop "Failure Modes in Agentic AI" にて発表予定です。論文：https://t.co/LQ9w0r960H ☕ https://video.twimg.com/tweet_video/HLt_B69boAAZXea.mp4 Sakana AI (@SakanaAILabs): CoffeeBenchでは、6体のエージェントがメールや取引で相互作用し、各社が利益の最大化を目指します。LLMエージェントが経営を担う社会が来たときに、協調や競争、ときに不正はどう現れるのか。CoffeeBenchは、それを観察するための実験場でもあります。 https://t.co/oe3KlLHYCR

#技术#模型#分析

阅读原始全文