AI 精选动态智能评分 60

Sakana AI发布CoffeeBench基准

来源: twitter关注列表

作者: Sakana AI (@SakanaAILabs)

发布于: 2026-06-26

收录于: 2026-06-26

AI 推荐理由

该基准测试将长期经济交互与AI安全结合，可用于检测Agent的欺诈行为，值得关注。

核心解读

Sakana AI与KPMG AZSA联合发布CoffeeBench，一个评估LLM agents在90天B2B咖啡供应链经济中长期经营能力的基准测试，涉及农场、烘焙商和零售商之间的谈判、库存管理、定价等任务，并可研究循环交易、渠道填充等不良行为。该研究将在ICML 2026 Workshop发表。

全文

Sakana AI (@SakanaAILabs) 转发了 Takashi Ishida // ICML 2026 (@tksii) 的帖子： Excited to share CoffeeBench!!☕️☕️☕️ We evaluate LLM agents in a 90-day B2B coffee supply-chain economy spanning farmers, roasters, and retailers, where these firms negotiate, manage inventory, set prices, handle invoices, and manage cash flow. Beyond evaluating long-horizon business performance, such as whether agents can improve net income, I'm also excited about the accounting and AI safety angle: because CoffeeBench includes B2B trade, invoices, and cash-flow constraints, it could potentially help us study whether stronger future agents develop or discover problematic business behaviors such as circular trading, channel stuffing, or accounting-fraud-like strategies. This was an exciting cross-disciplinary collaboration with researchers at KPMG AZSA @KPMG_JP and @SakanaAILabs colleagues @strayer_13 (first author!) and @taromakino 🤝 The work will be presented at @FAGENWorkshop in ICML 2026!🇰🇷 > **引用原帖 Sakana AI (@SakanaAILabs):** > SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。 > ブログ：https://t.co/9dgRvLkBw2 > 現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。 > 最新のLLMを同じ環境で競わせると、経営成績は大きく分かれました。積極的に交渉し、利益に直結する一手を打ち続けるモデルがいる一方で、自身の状況を分析しながらも行動に移さず、待機し続けて赤字に陥るモデルも出てくるなど、長期タスクならではの振る舞いの違いが観察できました。 > CoffeeBenchは、長期にわたり相互作用するLLMエージェントの能力や振る舞いを評価・分析していくための第一歩です。今後は、複数エージェント間で生じる協調・競争・逸脱行動や、その監査・ガバナンス手法の研究へと発展させていくことを目指します。 > 本研究は ICML2026 Workshop "Failure Modes in Agentic AI" にて発表予定です。 > 論文：https://t.co/LQ9w0r960H ☕ > https://x.com/SakanaAILabs/status/2070388178201334260

#研究#AI安全#基准测试

阅读原始全文