返回精选
AI 精选动态 智能评分 65

Weibo AI 发布 VibeThinker-3B 推理模型

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-06-17
收录于: 2026-06-17
AI 推荐理由
3B 模型在数学推理基准上匹敌千亿参数模型,其高效训练方法值得深入阅读论文。
核心解读
Weibo AI 发布 VibeThinker-3B,一个 3B 参数的推理模型,采用 MIT 许可。该模型在 IMO-AnswerBench 上匹敌 DeepSeek V3.2 (671B)、Kimi K2.5 (1T) 和 GLM-5 (744B),在 LeetCode 未知竞赛题上达到 96.1% 的接受率。训练流程包括课程两阶段 SFT、多域强化学习 (MGPO)、离线自蒸馏和指导 RL。
全文
Meet VibeThinker-3B, a 3B reasoning model from Weibo AI focused on math, coding, and STEM reasoning. MIT license. 🚀 At 3B parameters, it matches models like DeepSeek V3.2 (671B), Kimi K2.5 (1T), and GLM-5 (744B) on IMO-AnswerBench. 96.1% acceptance rate on unseen LeetCode contests. 👉 Try it now: https://t.co/7YjpMQ8KHF 📄 Paper: https://t.co/km4zMqmQWE 💻 Training pipeline: curriculum two-stage SFT + multi-domain RL (MGPO) + offline self-distillation + instruct RL. ![photo](https://pbs.twimg.com/media/HLA5wGYXgAALnlH.jpg) ![photo](https://pbs.twimg.com/media/HLA5wDMXkAA1aFT.jpg)
#模型发布#技术突破#AI