AI 精选动态
智能评分 60
AI 推荐理由
提出高效预训练技术,直接提升大模型训练效率,对AI开发者具有重要技术价值核心解读
研究团队提出Token-Superposition Training(TST)方法,通过结合多个连续token训练并使用多热交叉熵目标,在不改变模型架构的情况下提升预训练数据吞吐量,验证显示在10B模型级别可实现2.5倍预训练时间缩短。