- AI HOT 精选动态

AI 精选动态智能评分 60

来源: twitter关注列表

作者: Nous Research (@NousResearch)

发布于: 2026-05-13

收录于: 2026-05-13

AI 推荐理由

提出高效预训练技术，直接提升大模型训练效率，对AI开发者具有重要技术价值

核心解读

研究团队提出Token-Superposition Training（TST）方法，通过结合多个连续token训练并使用多热交叉熵目标，在不改变模型架构的情况下提升预训练数据吞吐量，验证显示在10B模型级别可实现2.5倍预训练时间缩短。

#模型优化#大模型训练#AI研究