AI 精选动态智能评分 60

智谱GLM-5.2 Agent能力评测领先

来源: twitter关注列表

作者: karminski-牙医 (@karminski3)

发布于: 2026-06-24

收录于: 2026-06-24

AI 推荐理由

该测试提供了细化的Agent能力对比细节（反思、顺路单、记忆地图），是其他公开评测未覆盖的维度，有助于理解智谱模型的实际Agent能力水平。

核心解读

个人开发者karminski-牙医基于自建silicon-rider-bench测试30个模型，发现GLM-5至GLM-5.2在Agent能力上逐步进化，GLM-5.2能记忆地图并减少tool_call调用。该测试显示GLM-5的Agent能力在kimi-k2.7-code出现前领先所有国产模型，智谱因此被认为在Agent训练上领先2-4个月。

全文

聊聊智谱市值破万亿为什么不是高估事先声明, 个人观点仅供参考. 直接说结论, 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的. 给没看过我这个评测的同学简单介绍下, 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench, 大模型要像人类骑手一样接单, 然后选择合适的订单进行配送. 这个测试我累计测了30个模型, 几乎包含了近半年的全部国产大模型. GLM-5 至 GLM-5.2 从测试上来看能明显感觉到3个阶段的进化: 最开始 GLM-5 是在所有测试模型中第一个能做到反思自己上下文行为, 然后做出改进的. 比如大部分被测试模型发现自己送餐超时被扣钱了, 都会说下次要避免. 但是只有 GLM-5 会真的采取措施, 比如尝试少接单来提升准时率. 轮到 GLM-5.1 则是所有测试模型中, 第一个实现了送顺路单的, 它在接单前就会尝试自己思考合并送餐路线, 然后送顺路单, 直接把路径效率压缩到了比单次送餐的距离理论值还低(因为同时送了n餐). 这次 GLM-5.2 更进一步, 它只在测试开始看了一遍地图, 接下来就直接把地图记住了, 包括哪个地点附近有哪些餐厅, 甚至最猛的是电动车没电了换电的时候, 它直接就能去换电站, 而不是调用 search_nearby_battery_stations() tool_call 来搜索. 节省下来的 tool_call 全都用来实际推进任务了, 而不是用来大量获取信息. 从分数上来看直接断崖式领先了. 不要小看这个「大部分tool_call都能用来推进任务」的能力, 转换到 Agentic Coding, 意味着它理解项目的能力可能是其他模型的数倍, 消耗少量的 token 就能产出高质量的结果. 从结果来看, 这个榜单直到 kimi-k2.7-code 出现之前, 连一个能超越 GLM-5 Agent 能力的模型都没有. 要知道 GLM-5 还是 2 月份发布的. 从这点来看, 智谱的 Agent 能力训练至少领先了其他国产模型2-4个月. 即最大2个代差. 所以智谱市值破万亿从技术层面来看, 完全不是用脚投票. #GLM52 #AIAgent ![photo](https://pbs.twimg.com/media/HLnLr0HakAAS5xK.png) karminski-牙医 (@karminski3): 这个测试的排行榜可以在这里看 https://t.co/B96z9eJXOu https://t.co/UffFoSlHIv

#基准测试#大模型#分析

阅读原始全文