返回精选
AI 精选动态 智能评分 66

HF science team 异步 RL 权重同步优化

来源: twitter关注列表
作者: AK (@_akhaliq)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
值得点开原文查看实现细节,尤其是稀疏权重导出、Bucket 分发和 disaggregated training 的工程路径,适合评估是否可迁移到自有 RL 训练栈。
核心解读
clem 🤗 介绍了 Hugging Face science team 在 TRL 中实现的异步 RL 权重同步优化:每个 RL step 不再同步完整权重,只导出变化的元素为稀疏 safetensors 文件,通过 Hugging Face Bucket 分发给 vLLM。对于 Qwen3-0.6B,单步传输载荷从 1.2 GB 降到 20–35 MB,带宽开销约降低 100 倍。文中还展示了一个完整的 disaggregated training:trainer 跑在一台机器上,vLLM 跑在 Hugging Face Space,Wordle 环境跑在另一 Space,权重通过 Hub bucket 流转,不需要 shared cluster、RDMA、VPN 或跨云 NCCL,只需 HTTPS 和 bucket。
#开源#智能体#基础设施