AI 精选动态
智能评分 60
智谱GLM-5.2 Agent能力评测领先
AI 推荐理由
该测试提供了细化的Agent能力对比细节(反思、顺路单、记忆地图),是其他公开评测未覆盖的维度,有助于理解智谱模型的实际Agent能力水平。核心解读
个人开发者karminski-牙医基于自建silicon-rider-bench测试30个模型,发现GLM-5至GLM-5.2在Agent能力上逐步进化,GLM-5.2能记忆地图并减少tool_call调用。该测试显示GLM-5的Agent能力在kimi-k2.7-code出现前领先所有国产模型,智谱因此被认为在Agent训练上领先2-4个月。
全文
聊聊智谱市值破万亿为什么不是高估
事先声明, 个人观点仅供参考.
直接说结论, 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的.
给没看过我这个评测的同学简单介绍下, 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench, 大模型要像人类骑手一样接单, 然后选择合适的订单进行配送.
这个测试我累计测了30个模型, 几乎包含了近半年的全部国产大模型.
GLM-5 至 GLM-5.2 从测试上来看能明显感觉到3个阶段的进化:
最开始 GLM-5 是在所有测试模型中第一个能做到反思自己上下文行为, 然后做出改进的. 比如大部分被测试模型发现自己送餐超时被扣钱了, 都会说下次要避免. 但是只有 GLM-5 会真的采取措施, 比如尝试少接单来提升准时率.
轮到 GLM-5.1 则是所有测试模型中, 第一个实现了送顺路单的, 它在接单前就会尝试自己思考合并送餐路线, 然后送顺路单, 直接把路径效率压缩到了比单次送餐的距离理论值还低(因为同时送了n餐).
这次 GLM-5.2 更进一步, 它只在测试开始看了一遍地图, 接下来就直接把地图记住了, 包括哪个地点附近有哪些餐厅, 甚至最猛的是电动车没电了换电的时候, 它直接就能去换电站, 而不是调用 search_nearby_battery_stations() tool_call 来搜索. 节省下来的 tool_call 全都用来实际推进任务了, 而不是用来大量获取信息. 从分数上来看直接断崖式领先了.
不要小看这个「大部分tool_call都能用来推进任务」的能力, 转换到 Agentic Coding, 意味着它理解项目的能力可能是其他模型的数倍, 消耗少量的 token 就能产出高质量的结果.
从结果来看, 这个榜单直到 kimi-k2.7-code 出现之前, 连一个能超越 GLM-5 Agent 能力的模型都没有. 要知道 GLM-5 还是 2 月份发布的. 从这点来看, 智谱的 Agent 能力训练至少领先了其他国产模型2-4个月. 即最大2个代差.
所以智谱市值破万亿从技术层面来看, 完全不是用脚投票.
#GLM52 #AIAgent

karminski-牙医 (@karminski3): 这个测试的排行榜可以在这里看 https://t.co/B96z9eJXOu https://t.co/UffFoSlHIv