AI 精选动态
智能评分 62
PowLU
AI 推荐理由
原文给出了与 SwiGLU、SwiGLU-Clip 的 FP8 稳定性对比和约 step 77k 的具体失稳位置,适合关注其是否能作为大规模预训练中的稳定替代激活落地。核心解读
Ling Team 提出了一种可直接替换现有激活函数的 PowLU,用于稳定大规模预训练。原文指出,SwiGLU 在大输入下近似表现为 x²,会放大激活值和异常值,使深层网络或低精度(FP8/FP4)训练更容易出现 loss spike;在 FP8 训练稳定性对比中,SwiGLU 和 SwiGLU-Clip 都在约 step 77k 附近出现 loss spike,而 PowLU 的 loss 曲线在整个过程中保持在约 1.32,且激活与梯度范围更紧、异常通道更少。团队同时给出了 PowLU 的性质证明,包括连续性、可微性、在 0<m<10 时的单调性以及有界增长。