- AI HOT 精选动态

AI 精选动态智能评分 78

来源: twitter关注列表

作者: elvis (@omarsar0)

发布于: 2026-05-18

收录于: 2026-05-18

AI 推荐理由

这对做 agent、代码模型和推理系统的从业者有直接启发，可用于改造推理时架构、降低对更大模型的依赖并优化成本/效果比。

核心解读

一篇论文提出用弱推理模型的多候选结果配合执行/证明信号做筛选，在 SWE-bench Verified 上，GPT-5.4 nano 通过 8 个候选的 critic-comparator 编排达到 76.4%，可匹配单体 Gemini 3 Pro 和 Claude Opus 4.5 Thinking。结论是许多正确补丁早已存在于弱模型的 top-k 候选中，真正瓶颈往往是选择器与验证机制，而不是模型本身能力。对行业意味着推理时编排、验证式搜索和 agent 选择器可能成为提升性价比的重要路径。

#研究突破#智能体#基准测试

阅读原始全文