AI 精选动态
智能评分 64
Cohere 发布 Command A+
AI 推荐理由
值得点开原文看量化方案和部署要求,尤其是 W4A4 在仅 1 x B200 或 2 x H100 条件下的落地方式,以及其对推理质量影响的说明。核心解读
Cohere 在 Apache 2.0 许可下开源 Command A+,并称希望让开发者从实验到生产直接使用其 enterprise-grade 的 agentic 能力。该模型支持文本和图像输入,采用 decoder-only Sparse Mixture-of-Experts Transformer 架构,具有 25B active parameters、218B total parameters、128 个 experts、每 token 激活 8 个 experts,context length 为 128K。Hugging Face Model Card 显示提供 BF16、FP8、W4A4 三种量化,其中 W4A4 推荐用于多数场景;其最低 GPU 需求分别为 4 x B200 / 8 x H100、2 x B200 / 4 x H100、1 x B200 / 2 x H100。Cohere 还说明 W4A4 仅量化 MoE experts,attention path、KV cache 和 attention compute 保持全精度,并使用 Quantization-Aware Distillation 缩小量化损失。