AI 精选动态
智能评分 65
Weibo AI 发布 VibeThinker-3B 推理模型
AI 推荐理由
3B 模型在数学推理基准上匹敌千亿参数模型,其高效训练方法值得深入阅读论文。核心解读
Weibo AI 发布 VibeThinker-3B,一个 3B 参数的推理模型,采用 MIT 许可。该模型在 IMO-AnswerBench 上匹敌 DeepSeek V3.2 (671B)、Kimi K2.5 (1T) 和 GLM-5 (744B),在 LeetCode 未知竞赛题上达到 96.1% 的接受率。训练流程包括课程两阶段 SFT、多域强化学习 (MGPO)、离线自蒸馏和指导 RL。
全文
Meet VibeThinker-3B, a 3B reasoning model from Weibo AI focused on math, coding, and STEM reasoning. MIT license. 🚀
At 3B parameters, it matches models like DeepSeek V3.2 (671B), Kimi K2.5 (1T), and GLM-5 (744B) on IMO-AnswerBench. 96.1% acceptance rate on unseen LeetCode contests.
👉 Try it now: https://t.co/7YjpMQ8KHF
📄 Paper: https://t.co/km4zMqmQWE
💻 Training pipeline: curriculum two-stage SFT + multi-domain RL (MGPO) + offline self-distillation + instruct RL.

