AI 精选动态
智能评分 67
DiffSynth-Studio 推出 Offload Training
AI 推荐理由
这条更新的关键点在于把训练显存占用压到单层级别,并明确给出了 4GB 到 1.4GB 的实测示例,适合关注低显存训练方案的人直接看文档和实现。核心解读
DiffSynth-Studio 发布了 Offload Training 功能,称可让用户在单张消费级 GPU 上训练 Qwen-Image 或 Wan2.2-14B 等模型。其示例显示,一个 10 层 toy model 的显存占用从 4GB 降到 1.4GB VRAM;实现方式是仅将当前层权重加载到 GPU,计算后立即 offload,通过 PyTorch Module Hooks 将显存占用从 O(N layers) 降为 O(1 layer),且不需要改动模型代码。该功能在单 GPU 训练场景下可通过 `--enable_model_cpu_offload` 开启。