AI 精选动态智能评分 75

Qwen3.5 580 tps

来源: twitter关注列表

作者: Qwen (@Alibaba_Qwen)

发布于: 2026-05-27

收录于: 2026-05-27

AI 推荐理由

可重点查看完整博客中的设计与实现细节，尤其是 FA4 与推理框架协同优化的方法，便于评估是否能迁移到其他开源 LLM 推理场景。

核心解读

Alibaba_Qwen 推出的 Qwen3.5 在 TokenSpeed inference engine 上针对 agentic workloads 达到 580 tokens per second（tps）的记录速度，运行于 NVIDIA GPUs。该优化由 Alibaba_Qwen inference team、lightseekorg Foundation TokenSpeed team、NVIDIAAI、Mooncake team 以及 tri_dao 共同完成，并特别引入了 FlashAttention-4（FA4）优化。PyTorch Foundation 的最新社区博客还披露了 Qwen3.5 模型在 TokenSpeed inference framework 中的完整设计、实现与优化细节。

#开源#基础设施#技术突破

阅读原始全文