返回精选
AI 精选动态 智能评分 60

MOSS-Transcribe-preview-2B

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-06-29
收录于: 2026-06-29
AI 推荐理由
该模型在 LibriSpeech 上取得较低的 WER,值得在多语音场景中进一步评估其适用性。
核心解读
MOSS 发布了 2.4B 参数的英语自动语音识别模型 MOSS-Transcribe-preview-2B,模型文件为单个 4.84GB 片段。模型在 Open ASR Leaderboard 上平均 WER 为 4.87;在 LibriSpeech test.clean 上 WER 为 1.21,test.other 为 2.84。其架构基于 Qwen3-1.7B 语言骨干和 Qwen3-Omni-MoE 音频编码器,使用 Gated-MLP 适配器将音频特征映射到语言模型嵌入空间,且采用 Apache-2.0 许可证。
全文
Here is MOSS-Transcribe-preview-2B! 🔗 https://t.co/iisUgaCEsV A 2.4B English ASR model, packed into one 4.84GB shard. 🎧 Worth noting: 📊 4.87 average WER on Open ASR Leaderboard eval🎙️ 1.21 WER on LibriSpeech test.clean, 2.84 on test.other 🧠 Qwen3-1.7B language backbone + Qwen3-Omni-MoE audio encoder 🔧 Gated-MLP adapter maps audio features into the LM embedding space 📄 Apache-2.0 license
#模型发布#技术更新#多模态