AI 精选动态智能评分 66

HF science team 异步 RL 权重同步优化

来源: twitter关注列表

作者: AK (@_akhaliq)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

值得点开原文查看实现细节，尤其是稀疏权重导出、Bucket 分发和 disaggregated training 的工程路径，适合评估是否可迁移到自有 RL 训练栈。

核心解读

clem 🤗 介绍了 Hugging Face science team 在 TRL 中实现的异步 RL 权重同步优化：每个 RL step 不再同步完整权重，只导出变化的元素为稀疏 safetensors 文件，通过 Hugging Face Bucket 分发给 vLLM。对于 Qwen3-0.6B，单步传输载荷从 1.2 GB 降到 20–35 MB，带宽开销约降低 100 倍。文中还展示了一个完整的 disaggregated training：trainer 跑在一台机器上，vLLM 跑在 Hugging Face Space，Wordle 环境跑在另一 Space，权重通过 Hub bucket 流转，不需要 shared cluster、RDMA、VPN 或跨云 NCCL，只需 HTTPS 和 bucket。

#开源#智能体#基础设施

阅读原始全文