AI 精选动态智能评分 70

Language Models Need Sleep

来源: twitter关注列表

作者: Berryxia.AI (@berryxia)

发布于: 2026-05-26

收录于: 2026-05-26

AI 推荐理由

建议重点看原文实验设置与“sleep”机制实现方式，因为它提供了一种不增加在线延迟、通过离线巩固提升多跳推理能力的思路。

核心解读

CMU 和 UMD 研究者在论文《Language Models Need Sleep》中提出，模型在处理深度推理任务时不只是受限于内存容量，还需要通过多次 forward pass 将当前 context 巩固成更可用的内部表示。研究使用 Rule 110 这种图灵完备的 toy task 做实验，方法是在清除 KV cache 前让模型对当前 context 进行多次 forward pass，把记忆逐步沉淀进 fast weights；预测阶段仍然只做单次 forward，因此推理延迟没有增加。实验结果显示，这种“sleep”式处理在多跳推理任务上的准确率提升了 52%。

#研究突破#大模型#基础设施

阅读原始全文