AI 精选动态
智能评分 60
Sakana AI发布CoffeeBench基准
AI 推荐理由
该基准测试将长期经济交互与AI安全结合,可用于检测Agent的欺诈行为,值得关注。核心解读
Sakana AI与KPMG AZSA联合发布CoffeeBench,一个评估LLM agents在90天B2B咖啡供应链经济中长期经营能力的基准测试,涉及农场、烘焙商和零售商之间的谈判、库存管理、定价等任务,并可研究循环交易、渠道填充等不良行为。该研究将在ICML 2026 Workshop发表。
全文
Sakana AI (@SakanaAILabs) 转发了 Takashi Ishida // ICML 2026 (@tksii) 的帖子:
Excited to share CoffeeBench!!☕️☕️☕️
We evaluate LLM agents in a 90-day B2B coffee supply-chain economy spanning farmers, roasters, and retailers, where these firms negotiate, manage inventory, set prices, handle invoices, and manage cash flow.
Beyond evaluating long-horizon business performance, such as whether agents can improve net income, I'm also excited about the accounting and AI safety angle: because CoffeeBench includes B2B trade, invoices, and cash-flow constraints, it could potentially help us study whether stronger future agents develop or discover problematic business behaviors such as circular trading, channel stuffing, or accounting-fraud-like strategies.
This was an exciting cross-disciplinary collaboration with researchers at KPMG AZSA @KPMG_JP and @SakanaAILabs colleagues @strayer_13 (first author!) and @taromakino 🤝
The work will be presented at @FAGENWorkshop in ICML 2026!🇰🇷
> **引用原帖 Sakana AI (@SakanaAILabs):**
> SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。
> ブログ:https://t.co/9dgRvLkBw2
> 現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。
> 最新のLLMを同じ環境で競わせると、経営成績は大きく分かれました。積極的に交渉し、利益に直結する一手を打ち続けるモデルがいる一方で、自身の状況を分析しながらも行動に移さず、待機し続けて赤字に陥るモデルも出てくるなど、長期タスクならではの振る舞いの違いが観察できました。
> CoffeeBenchは、長期にわたり相互作用するLLMエージェントの能力や振る舞いを評価・分析していくための第一歩です。今後は、複数エージェント間で生じる協調・競争・逸脱行動や、その監査・ガバナンス手法の研究へと発展させていくことを目指します。
> 本研究は ICML2026 Workshop "Failure Modes in Agentic AI" にて発表予定です。
> 論文:https://t.co/LQ9w0r960H ☕
> https://x.com/SakanaAILabs/status/2070388178201334260