AI HOT 日报 (evening)
模型发布
美团 LongCat-2.0 发布:1.6T MoE模型国产化全链路
美团正式发布 LongCat-2.0 模型,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),支持 1M 上下文。该模型基于 5-6 万块国产加速卡训练,实现训练推理不依赖 NVIDIA,并采用 LSA、Zero-Compute Experts 及 MOPD 等技术。其在 SWE-bench Pro 达到 59.5 (优于 GPT-5.5 的 58.6)、Terminal-Bench 2.1 达 70.8、SWE-bench Multilingual 77.3。定价为每百万tokens输入/缓存/输出 0.015/0.75/2.95 美元,已于 SiliconFlow 上线。
基础设施
腾讯开源 ARGUS:GPU集群管理方案
腾讯团队开源 ARGUS 方案,专为超 10,000 块 GPU 集群管理设计。通过实时数据采集与关联分析,能快速定位并解决 70% 由网络通信导致的训练中断问题,大幅提高效率,响应时间由小时级降至毫秒级。
SGLang 实测 DSpark:推理加速显著
SGLang 对 DeepSeek 开源的 DSpark 投机解码框架进行实测,在 1K 长度 Prompt 下,8 卡 B200 GPU 达到 297 token/s,较未使用 DSpark 的 164 token/s 提升 1.81 倍。单并发加速效果最佳,超过 8 并发时提升降至 1.2-1.3 倍,TPOT 延迟仅 2.9-5.2 ms。
产品更新
X 官宣 MCP 服务:代理可实时调用 API
X Developer 官宣 MCP(Managed Compute Platform)支持功能上线,允许 Grok、Cursor、Claude 等代理无需设置即可实时接入 X API,获取搜索、时间线、书签等数据。该服务采用按量计费模式,读取和发布均有单价,写入限流严格,建议设置消费上限进行小流量测试。
商业与人事
中国 AI 模型处理费用降至 $0.18/百万 token
CitiBank Research 报告指出,中国 AI 模型处理费用已降至 18 美分/百万 token,远低于开发者平台平均 4 美元。OpenRouter 平台开源模型占比从 1 月的 34% 升至 6 月的 65%,Gartner 预测 2028 年 AI 编码成本将超越普通开发者薪资,显示价格压力正重塑企业模型采购决策。
政策与安全
Anthropic 封杀浙江杭州 IP,疑因数据窃取
Anthropic 封杀了浙江和杭州地区的 IP 地址。此前 Anthropic 曾指控某方通过超过 25000 个账号,在 4 月 22 日至 6 月 5 日期间进行了逾 2880 万次交互,意图蒸馏 Claude 数据,且封杀邮件中包含追踪器。