返回精选
AI 精选动态 智能评分 72

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-05-18
收录于: 2026-05-18
AI 推荐理由
这类评测方法直接影响 Agent 产品的选型、上线门槛和安全审计方式,对做模型评测、Agent 平台和企业落地的人很有参考价值。
核心解读
Claw-Eval 发布了一个面向自主 Agent 的评测集,包含 300 个经人工验证的任务,覆盖通用服务、多模态和多轮专业对话,并从完成度、安全性、鲁棒性三个维度对 14 个前沿模型进行了评测。结果显示,仅看对话记录会漏掉不少安全与鲁棒性问题,且模型“能做成一次”不代表稳定可靠,说明 Agent 评测需要更接近真实执行链路的全栈观测。
#智能体#基准测试#AI安全