返回精选
AI 精选动态 智能评分 70

Language Models Need Sleep

来源: twitter关注列表
作者: Berryxia.AI (@berryxia)
发布于: 2026-05-26
收录于: 2026-05-26
AI 推荐理由
建议重点看原文实验设置与“sleep”机制实现方式,因为它提供了一种不增加在线延迟、通过离线巩固提升多跳推理能力的思路。
核心解读
CMU 和 UMD 研究者在论文《Language Models Need Sleep》中提出,模型在处理深度推理任务时不只是受限于内存容量,还需要通过多次 forward pass 将当前 context 巩固成更可用的内部表示。研究使用 Rule 110 这种图灵完备的 toy task 做实验,方法是在清除 KV cache 前让模型对当前 context 进行多次 forward pass,把记忆逐步沉淀进 fast weights;预测阶段仍然只做单次 forward,因此推理延迟没有增加。实验结果显示,这种“sleep”式处理在多跳推理任务上的准确率提升了 52%。
#研究突破#大模型#基础设施