AI 精选动态
智能评分 72
AI 推荐理由
这类评测方法直接影响 Agent 产品的选型、上线门槛和安全审计方式,对做模型评测、Agent 平台和企业落地的人很有参考价值。核心解读
Claw-Eval 发布了一个面向自主 Agent 的评测集,包含 300 个经人工验证的任务,覆盖通用服务、多模态和多轮专业对话,并从完成度、安全性、鲁棒性三个维度对 14 个前沿模型进行了评测。结果显示,仅看对话记录会漏掉不少安全与鲁棒性问题,且模型“能做成一次”不代表稳定可靠,说明 Agent 评测需要更接近真实执行链路的全栈观测。