返回精选
AI 精选动态 智能评分 75

Qwen3.5 580 tps

来源: twitter关注列表
作者: Qwen (@Alibaba_Qwen)
发布于: 2026-05-27
收录于: 2026-05-27
AI 推荐理由
可重点查看完整博客中的设计与实现细节,尤其是 FA4 与推理框架协同优化的方法,便于评估是否能迁移到其他开源 LLM 推理场景。
核心解读
Alibaba_Qwen 推出的 Qwen3.5 在 TokenSpeed inference engine 上针对 agentic workloads 达到 580 tokens per second(tps)的记录速度,运行于 NVIDIA GPUs。该优化由 Alibaba_Qwen inference team、lightseekorg Foundation TokenSpeed team、NVIDIAAI、Mooncake team 以及 tri_dao 共同完成,并特别引入了 FlashAttention-4(FA4)优化。PyTorch Foundation 的最新社区博客还披露了 Qwen3.5 模型在 TokenSpeed inference framework 中的完整设计、实现与优化细节。
#开源#基础设施#技术突破