返回精选
AI 精选动态 智能评分 69

来源: twitter关注列表
作者: AK (@_akhaliq)
发布于: 2026-05-18
收录于: 2026-05-18
AI 推荐理由
对于做训练策略、缩放规律、模型评估和算力预算的团队,这类代理模型能直接作为研究工具,帮助减少大模型实验的试错成本。
核心解读
NVIDIA 在 Hugging Face 上发布了 Nemotron CLIMB Proxy Models,两款仅 62M 和 350M 参数的 decoder-only 小模型,使用 10T tokens 训练,目标是做 scaling law 研究并在无需完整大规模算力的情况下预测更大模型行为。对行业而言,这类 proxy model 有助于降低模型研究与实验成本,提升训练规律分析和架构评估效率。
#模型发布#研究突破#开源