AI HOT 日报 (morning)
商业与人事
OpenRouter 完成 1.13 亿美元融资
OpenRouter 宣布完成由 CapitalGVC 领投的 1.13 亿美元 Series B 融资。其周度 token 处理量在过去 6 个月从 5T 增至 25T,年处理量已达 1.5 quadrillion tokens/yr;官方还称自今年 2 月融资后收入已翻倍。
中国要求 AI 顶尖人才出境审批
中国政府要求阿里巴巴、DeepSeek 等私营 AI 机构的顶级研究人员在出境前获得国家批准,将其视为敏感国家技术持有者。该措施属于明确的监管与合规动态,影响对象直指顶尖 AI 人才流动。
OpenAI 巴西内容合作扩展
OpenAI 与 Grupo Folha、Grupo UOL 的内容合作继续扩展到 ChatGPT 资讯流,提供带署名、透明度说明和原始链接的新闻摘要。OpenAI 同时披露 ChatGPT 覆盖 9 亿周活用户,巴西有超过 5000 万月活用户,日均交换约 1.4 亿条消息。
OpenAI 为媒体开放产品接口
OpenAI 表示,这次与 Grupo Folha、Grupo UOL 的合作还会向媒体方开放 Codex、ChatGPT Enterprise 和 API,用于新闻产品、读者功能和内部工作流。该合作是其在巴西的首个媒体合作,也说明 OpenAI 正把内容分发与企业工具打包输出。
模型发布
NVIDIA GTC 发布新芯片
NVIDIA 在 GTC 会议上发布新一代 AI 芯片,官方称参数量达到 1000 亿、性能提升 20%,并直接对比了 AMD 和 Intel 的竞品。此次发布延续了硬件性能与能效比并进的路线。
Qwen3.7-Max 成为编程模型第 2
Alibaba Cloud 称 Qwen3.7-Max 在 Code Arena 上获得 1541 分,被列为全球第 2 的 AI 编程模型,仅次于 Claude。官方还强调它面向生产场景,可持续运行 35 小时、支持 1000+ 次工具调用。
MiniMax 预告 M3 Sparse Attention
MiniMax 预告用于 M3 的 Sparse Attention 架构,并给出在 100 万 tokens 场景下的结果:prefilling 速度较 M2 提升 9.7 倍,decoding 速度提升 15.6 倍。方案采用两阶段设计,先做 block 选择,再对相关 KV blocks 做 sparse attention。
Bonsai Image 4B 推出低比特版本
PrismML 发布 Bonsai Image 4B 的 1-bit 和 Ternary 版本,面向本地高质量扩散图像生成。1-bit 版体积 0.93GB,比全精度小 8.3 倍;Ternary 版 1.21GB,官方称在 Mac M4 Pro 上速度最高可快 5.6 倍,并同步上线 iPhone 端离线生成 App。
子曰4 全模态模型开源
NetEase Youdao 发布并开源子曰4全模态模型和 TTS 引擎,模型参数规模 27B。官方称其在视觉数理方向达到同规模 SOTA,纯文本数理难题准确率 81.4%,TTS 支持 3 秒克隆原声、14 种语言,克隆准确度超过 97%。
GPT-5.5 提升 Databricks 文档解析
OpenAI Devs 展示 GPT-5.5 通过 Codex 提升了 Databricks 处理复杂客户文档的解析可靠性。当前公开信息未给出完整参数,但明确把这次升级指向文档理解与业务处理稳定性提升。
Helio 开启公共预览
Helio 开启公共预览,主打团队协作效率提升。当前披露信息较少,仍属于正式可用性变化,而非单纯概念预告。
产品更新
MiMo-V2.5 API 大幅降价
Xiaomi MiMo 宣布 MiMo-V2.5 Series API pricing 永久下调,较此前最高降价 99%,并改为所有 context lengths 统一定价。MiMo Token Plans 也升级为同价可获得 5–8 倍更多可用 tokens,生效时间为 5 月 26 日 6:00 PM PDT。
Google 推出 Universal Cart
Google 推出 Universal Cart,把 Search、Gemini App、YouTube、Gmail 中的购物车统一起来。该功能把多入口购物行为收敛到单一购物车,说明 Google 正在强化跨产品的交易闭环。
Cloudflare Flagship 进入公测
Cloudflare 将内置 feature flag 服务 Flagship 推出 public beta,可直接接入 Cloudflare Workers 应用,或在应用前部署 Worker 做 feature flipping。服务提供少于 10 个方法的 binding API,支持 OpenFeature、百分比灰度和按条件投放。
Cloudflare 公测 feature flag 服务
Cloudflare 进一步说明 flagship 可在不改应用代码的情况下改写请求到不同 host,实现 originless 行为。它支持 `env.FLAGS.getBooleanValue`、`env.FLAGS.getObjectValue` 等接口,并在 dashboard 中提供创建 flag、查看绑定位置和 analytics。
Playad 发布多智能体营销团队
Playad 发布基于多智能体系统的 AI 营销团队,面向完整付费营销周期提供服务。公司称已融资 540 万美元,目标用户为每月花费 3000 至 40000 美元的投放团队,并宣称可将广告制作成本降低最高 90%。
NeuralNet 2.0 上线
PixVerse 相关账号披露 NeuralNet 2.0 已正式推出,当前公开信息把重点放在准确率提升上。虽然缺少更完整的模型规模与基准,但这仍是一次明确的版本更新。
开发者工具
ECC 开源 Claude Code 工作流
Anthropic x Forum Ventures 黑客松冠军团队将其 Claude Code 工作流整理并开源为 ECC(Everything Claude Code)。仓库包含 61 个 Agent、246 个 Skills、76 个预设命令,以及规则、Hook、安全扫描、MCP 配置和持续学习机制,支持 Claude Code、Cursor、Codex、OpenCode 等平台。
Grok Build 开启测试
xAI 的 CLI 工具 Grok Build 开启测试,定位对标 Claude Code 和 Codex,并支持 macOS、Linux、Windows。它提供 TUI 与 Headless 两种模式,包含 Plan、Always-approve、子 Agent 并行、MCP、Skills/Plugins/Hooks 等能力。
Grok Build 同步开放 API
xAI 同步开放 grok-build-0.1 API 入口,为 Grok Build 提供独立调用通道。公开信息显示,这套工具链强调跨平台、订阅可用性和多 Agent 编排,意图切入 coding agent 前端。
飞书桥接 Claude Code
Zara Zhang 开源 feishu-claude-code-bridge,可在飞书中直接向 Claude Code 发指令、编辑文档并同步处理过程。工具支持绑定工作区并利用 CLAUDE.md、Skills 和 Hooks,通过 `npx` 启动。
llmfit 按硬件推荐模型
Sumanth 发布开源 CLI 工具 llmfit,可自动检测 CPU、RAM、GPU 和 VRAM,并从 206 个模型中按实际可运行性排序。工具默认从 Q8_0 匹配,必要时逐级降精度,支持 TUI、CLI 表格、JSON 和 REST API 输出。
Zero to Claude Code 免费课程
IShmool 推出免费课程《Zero to Claude Code》,覆盖文件、终端、Git、Node.js、API、MCP、Subagents 等 14 级 147 课。课程已吸引 17,000+ 学员,覆盖 30+ 国家,平台日请求量达到 6.4M。
智能体平台
高德地图多 Agent 自主增长
阿里云开发者团队披露,高德地图 PC 站在 SEO 增长场景下构建了多 Agent 自主增长系统,覆盖机会发现、方案设计、PRD、架构、代码、测试到发布全链路。三轮优化后评审均分从 64.5 提升到 83.4,精确匹配率从 25% 升至 78%,并实现 0 人为介入发布。
高德增长系统拆分多 Agent
同一实践的另一篇转述强调,该系统借鉴 Harness Engineering 和 OPC 思路,将 Planner 拆成 product、design、arch 三个 Agent,将 Builder 拆成 testcase 和 builder 两个 Agent。系统连续运行 4 小时,主流程无 P0 Bug。
Onyx 开源深度研究员
Onyx 发布并开源深度研究员系统,采用两层架构:上层 orchestrator 负责拆解问题和评估中间报告,下层 3 个 research agent 每个最多运行 8 轮“搜索-阅读-思考”循环。系统可接入 100+ 企业数据源,并在 DeepResearch Bench 上排名第 1。
AutoResearchClaw 强化研究闭环
Meta、Stanford 等实验室提出 AutoResearchClaw,让自动化研究在出错、恢复和请求人类介入时更稳健。论文称其在 ARC-Bench 上较 AI Scientist v2 提升 54.7%,其中人类协作结果里 CoPilot 接受率 87.5%,全自动 25%,逐步监督 50%。
Self-Play SWE-RL 训练软件代理
Meta、CMU 等实验室发表 Self-Play SWE-RL,允许编码代理通过在真实项目中制造和修复 bug 来自我训练。相比依赖人类编写问题描述与测试工件,该方法在 SWE-bench Verified 上提升 10.4 分,在 SWE-Bench Pro 上提升 7.8 分。
SkillOpt 让 skill 可迭代优化
Microsoft 联合上海交通大学等机构提出 SkillOpt,用 harness 闭环让大模型先写 skill,再在独立验证集上跑分,只有提升分数的编辑才会保留。实验显示,GPT-5.5 的直接对话准确率提升 23.5 分,且每一步设置 4 到 8 个编辑操作时效果最好。
研究突破
语言模型需要“睡眠”
CMU 和 UMD 研究者在论文《Language Models Need Sleep》中提出,模型在深度推理任务中需要多次 forward pass 把当前 context 巩固成更可用的内部表示。实验在 Rule 110 等任务上显示,这种“sleep”式处理可让多跳推理准确率提升 52%,且不增加预测阶段延迟。
长上下文模型需要“sleep”
DAIR.AI 转引的论文进一步讨论了长时间运行 agents 的“睡眠”机制:模型周期性对最近上下文做 N 次离线递归前向,再把结果写入 persistent fast weights 并清空 KV cache。作者称这为长时 agent 提供了替代不断扩大 KV cache 的路线。
KPop 提升 MoE RL 稳定性
团队提出 KPop,用自适应 binary-KL 区域替代固定比例 mask,以匹配每个 token 的噪声强度,提升大型 MoE 模型的 RL 训练稳定性和长时程 agentic RL 更新稳定性。作者称其在 Ring-2.6-1T 纯 RL 训练下可在 SWE-bench Verified 上达到 76+。
PowLU 稳定大规模预训练
Ling Team 提出 PowLU,作为可直接替换现有激活函数的方案,用于稳定大规模预训练。论文称在 FP8 训练中,SwiGLU 和 SwiGLU-Clip 均在约 step 77k 附近出现 loss spike,而 PowLU 的 loss 曲线保持在约 1.32,异常通道更少。
CUSP 评估科学预测能力
Oxford University、Stanford University 和 Allen Institute for AI 等研究者提出 CUSP 基准,用 4,760 件科学事件评估 AI 对未来科学成果的预测能力。结果显示,当前最先进模型能识别有前景方向,但难以预测是否实现以及何时实现。
误导信息在长上下文中非线性放大
Muhan Gao 团队在 ICML 2026 发表论文,发现长上下文 LLM 中误导信息的损害呈非线性分布。以 128K-token 的 Qwen2.5 为例,前 10% 的 hard distractors 解释了约 58% 的总性能损失,10% 的 hard distractors 可解释约 97% 的干扰压力。
MIT CSAIL 发现 Apple M1 风险
MIT CSAIL 利用操作系统内核 Fractal 更清晰地观察芯片内部运作,发现 Apple M1 可能易受一种名为 Phantom 的投机攻击。该结果属于安全研究,而非产品故障披露。
JEPA-WM v2 被 TMLR 接收
Yann LeCun 转发宣布 Basile Terver 的 JEPA-WM v2 论文被 TMLR 接受,并获得 reproducibility certification。论文补充了新的数据扩展实验、多步回滚训练的 Lipschitz 分析及扩展讨论。
Claude Mythos 解决 Erdős #90
一位数学家测试 Claude Mythos 是否能解决长期未解的 Erdős problem #90,结果它成功给出解答。原帖还对比称,GPT-5.5 今年早些时候解决了多个 Erdős 问题,DeepMind 的 Nexus 解决了 9 个。
基础设施
Together AI 开源 OSCAR
Together AI 开源 OSCAR,这是一套面向长上下文服务的 attention-aware 近 2-bit KV Cache 量化系统。官方称在 2.28 bits 下,Qwen3-4B-Thinking 与 BF16 相差 3.78 分;在 100K context 下解码速度最高提升 3 倍,KV 内存约减少 8 倍。
华为 LogicFolding 提出新芯片指标
华为发布 LogicFolding 芯片设计思路,把芯片进步指标从“晶体管更小”转向“全机时延更少”,并提出 τ scaling。原文称该思路已按方案量产 381 颗芯片,目标指向 2031 年达到 14Å、即 1.4nm 级密度。
华为继续推进 Tau Scaling
华为进一步阐释 Tau Scaling / τ Scaling 如何在制程受限环境下,通过缩短信号传输距离来提升芯片性能。方案覆盖晶体管、版图、架构、软件调度和系统互连等层面,与 TSMC、Intel 预计 2029 年左右推进的物理节点形成对照。
SemiAnalysis 指出燃气发电成默认供电
SemiAnalysis 指出,美国下一波 AI 训练集群的燃气发电已从临时方案变成多个园区的实际架构。供应链数据包括 GE Vernova 约 24 GW/年目标、Siemens Energy 到本世纪末约 30 GW/年、Wärtsilä 单一项目 800 MW,以及 Bloom 计划 2026 年底达到 2 GW/年燃料电池产能。
OpenRouter 周处理量扩张
OpenRouter 披露其周 token 处理量已从 5T 增至 25T,过去 6 个月增长 5 倍。该数据与其 1.13 亿美元融资一起,说明推理分发与模型聚合层的需求仍在快速上升。
SynthID 验证覆盖扩展
Google DeepMind 表示 SynthID 已为超过 1000 亿份内容加水印,Gemini 中的 SynthID verification 已被使用 5000 万+ 次。团队还把内容认证能力扩展到 Search、Google Chrome 和 Pixel 视频,并与 OpenAI、ElevenLabs、Kakao 合作接入模型。