返回精选
AI 精选动态 智能评分 75

Introducing LongCat-2.0 🐱

来源: twitter关注列表
作者: meng shao (@shao__meng)
发布于: 2026-06-30
收录于: 2026-06-30
AI 推荐理由
全流程国产算力和自研高阶算子技术凸显其MoE模型的闭环能力,多项SWE基准超越GPT‑5.5,建议深入阅读技术博客。
核心解读
Meituan发布LongCat-2.0,1.6万亿参数MoE架构,约480亿激活参数,上下文窗口扩展至1M,训练使用5-6万块国产加速卡,实现训练及推理全流程不依赖英伟达;采用N-gram Embedding、稀疏注意力+跨层索引、自研底层算子(确定性FAG、Scatter重写)等技术;基准性能方面,Terminal‑Bench 2.1得70.8,SWE‑bench Pro 59.5(优于GPT‑5.5的58.6)、SWE‑bench Multilingual 77.3等,并强调与DeepSeek V4参数规模接近但路径不同,LongCat更聚焦国产化全链路。
全文
美团发布 LongCat-2.0 了,1.6T 参数 MoE 架构,激活参数 48B,上下文窗口 1M(最大输出 128K),采用 5-6 万张中国国产加速卡训练,训练推理全程零英伟达依赖。 三项关键技术 1. N-gram Embedding:参数前移 embedding 层,减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引:支撑 1M 上下文,控制计算成本 3. 底层算子自研:确定性 FAG、Scatter 重写等,弥补国产芯片生态短板 能力定位 Agent + Coding 优先,非通用对话。Preview 在 OpenRouter 开发者调用量居前,Claude Code / Hermes 生态采用度高。 与 DeepSeek V4 的差异 参数量级相近(1.6T / ~48B / 1M),路径不同:DeepSeek 开源 + 双栈适配;LongCat 强调训推全链路国产化。 ![photo](https://pbs.twimg.com/media/HMCLKDAXAAAz9WG.jpg) > **引用原帖 Meituan LongCat (@Meituan_LongCat):** > Introducing LongCat-2.0 🐱 > 1.6T parameters · MoE with ~48B active · 1M context > The full model behind Owl Alpha on @OpenRouter — now available. > Built for agentic coding from the ground up: > ◆ LongCat Sparse Attention (LSA) — scales efficiently for 1M-context tokens > ◆ Zero-Compute Experts — dynamic activation 33B–56B per token, zero wasted compute > ◆ MOPD — three specialized expert groups (Agent / Reasoning / Interaction), gate-routed per task > How it stacks up: > → Terminal-Bench 2.1: 70.8 > → SWE-bench Pro: 59.5 (GPT-5.5: 58.6) > → SWE-bench Multilingual: 77.3 > → FORTE: 73.2 · RWSearch: 78.8 · BrowseComp: 79.9 > 📖 Tech Blog: https://t.co/4KrjyKiDBn > Try it across different scenarios 🧵👇 > https://x.com/Meituan_LongCat/status/2071783587205308721
#技术突破#开源#产品发布