返回精选
AI 精选动态 智能评分 73

Together AI 开源 OSCAR

来源: twitter关注列表
作者: ModelScope (@ModelScope2022)
发布于: 2026-05-25
收录于: 2026-05-25
AI 推荐理由
同时给出了量化位宽、基准差距、100K context 下的速度/吞吐提升和可直接复用的旋转矩阵,适合关注长上下文推理压缩与 serving 落地的团队直接评估。
核心解读
Together AI 开源了 OSCAR,这是一套面向长上下文服务的 attention-aware 近 2-bit KV Cache 量化系统。OSCAR 使用 query covariance 旋转 keys、使用 score-weighted value covariance 旋转 values,以把量化噪声尽量投向注意力不敏感的方向。官方给出的结果显示,在 2.28 bits 下,OSCAR 在 Qwen3-4B-Thinking 上与 BF16 相差 3.78 分,而 TurboQuant 在 3 bits 时低 40 多分;在 100K context 下,解码速度最高提升 3 倍,在固定 VRAM 预算下 job-level 吞吐最高提升 7 倍,KV 内存相对 BF16 历史存储约减少 8 倍。RotationZoo 已提供 Qwen3-4B/8B/32B、GLM-4.7-FP8、MiniMax-M2.7 的即插即用旋转矩阵,且已集成到 SGLang。
#开源#基础设施#开发者工具