AI 精选动态智能评分 65

Weibo AI 发布 VibeThinker-3B 推理模型

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-06-17

收录于: 2026-06-17

AI 推荐理由

3B 模型在数学推理基准上匹敌千亿参数模型，其高效训练方法值得深入阅读论文。

核心解读

Weibo AI 发布 VibeThinker-3B，一个 3B 参数的推理模型，采用 MIT 许可。该模型在 IMO-AnswerBench 上匹敌 DeepSeek V3.2 (671B)、Kimi K2.5 (1T) 和 GLM-5 (744B)，在 LeetCode 未知竞赛题上达到 96.1% 的接受率。训练流程包括课程两阶段 SFT、多域强化学习 (MGPO)、离线自蒸馏和指导 RL。

全文

Meet VibeThinker-3B, a 3B reasoning model from Weibo AI focused on math, coding, and STEM reasoning. MIT license. 🚀 At 3B parameters, it matches models like DeepSeek V3.2 (671B), Kimi K2.5 (1T), and GLM-5 (744B) on IMO-AnswerBench. 96.1% acceptance rate on unseen LeetCode contests. 👉 Try it now: https://t.co/7YjpMQ8KHF 📄 Paper: https://t.co/km4zMqmQWE 💻 Training pipeline: curriculum two-stage SFT + multi-domain RL (MGPO) + offline self-distillation + instruct RL. ![photo](https://pbs.twimg.com/media/HLA5wGYXgAALnlH.jpg) ![photo](https://pbs.twimg.com/media/HLA5wDMXkAA1aFT.jpg)

#模型发布#技术突破#AI

阅读原始全文