返回日报列表
AI 日报 收录 40 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月26日 00:00 ~ 2026年05月27日 00:00
生成于: 2026年05月27日 00:00
本期导读
OpenAI、xAI、Google、Cloudflare 等集中释放了内容分发、代码代理和搜索购物入口的新动作,其中 OpenRouter 融资与 token 规模继续放大基础设施侧的商业化信号。与此同时,NVIDIA GTC、新一轮模型发布,以及 Anthropic 的安全与记忆产品更新,显示“模型能力 + 工具链 + 生产化”仍在同一周期内快速推进。

商业与人事

OpenRouter 完成 1.13 亿美元融资

OpenRouterCapitalGVC

OpenRouter 宣布完成由 CapitalGVC 领投的 1.13 亿美元 Series B 融资。其周度 token 处理量在过去 6 个月从 5T 增至 25T,年处理量已达 1.5 quadrillion tokens/yr;官方还称自今年 2 月融资后收入已翻倍。

中国要求 AI 顶尖人才出境审批

中国政府rohanpaul_ai

中国政府要求阿里巴巴、DeepSeek 等私营 AI 机构的顶级研究人员在出境前获得国家批准,将其视为敏感国家技术持有者。该措施属于明确的监管与合规动态,影响对象直指顶尖 AI 人才流动。

OpenAI 巴西内容合作扩展

OpenAI

OpenAI 与 Grupo Folha、Grupo UOL 的内容合作继续扩展到 ChatGPT 资讯流,提供带署名、透明度说明和原始链接的新闻摘要。OpenAI 同时披露 ChatGPT 覆盖 9 亿周活用户,巴西有超过 5000 万月活用户,日均交换约 1.4 亿条消息。

OpenAI 为媒体开放产品接口

OpenAI

OpenAI 表示,这次与 Grupo Folha、Grupo UOL 的合作还会向媒体方开放 Codex、ChatGPT Enterprise 和 API,用于新闻产品、读者功能和内部工作流。该合作是其在巴西的首个媒体合作,也说明 OpenAI 正把内容分发与企业工具打包输出。

模型发布

NVIDIA GTC 发布新芯片

NVIDIA

NVIDIA 在 GTC 会议上发布新一代 AI 芯片,官方称参数量达到 1000 亿、性能提升 20%,并直接对比了 AMD 和 Intel 的竞品。此次发布延续了硬件性能与能效比并进的路线。

Qwen3.7-Max 成为编程模型第 2

Alibaba Cloud

Alibaba Cloud 称 Qwen3.7-Max 在 Code Arena 上获得 1541 分,被列为全球第 2 的 AI 编程模型,仅次于 Claude。官方还强调它面向生产场景,可持续运行 35 小时、支持 1000+ 次工具调用。

MiniMax 预告 M3 Sparse Attention

MiniMax

MiniMax 预告用于 M3 的 Sparse Attention 架构,并给出在 100 万 tokens 场景下的结果:prefilling 速度较 M2 提升 9.7 倍,decoding 速度提升 15.6 倍。方案采用两阶段设计,先做 block 选择,再对相关 KV blocks 做 sparse attention。

Bonsai Image 4B 推出低比特版本

PrismML

PrismML 发布 Bonsai Image 4B 的 1-bit 和 Ternary 版本,面向本地高质量扩散图像生成。1-bit 版体积 0.93GB,比全精度小 8.3 倍;Ternary 版 1.21GB,官方称在 Mac M4 Pro 上速度最高可快 5.6 倍,并同步上线 iPhone 端离线生成 App。

子曰4 全模态模型开源

NetEase Youdao

NetEase Youdao 发布并开源子曰4全模态模型和 TTS 引擎,模型参数规模 27B。官方称其在视觉数理方向达到同规模 SOTA,纯文本数理难题准确率 81.4%,TTS 支持 3 秒克隆原声、14 种语言,克隆准确度超过 97%。

GPT-5.5 提升 Databricks 文档解析

OpenAI Devs

OpenAI Devs 展示 GPT-5.5 通过 Codex 提升了 Databricks 处理复杂客户文档的解析可靠性。当前公开信息未给出完整参数,但明确把这次升级指向文档理解与业务处理稳定性提升。

Helio 开启公共预览

Helio

Helio 开启公共预览,主打团队协作效率提升。当前披露信息较少,仍属于正式可用性变化,而非单纯概念预告。

产品更新

MiMo-V2.5 API 大幅降价

Xiaomi MiMo

Xiaomi MiMo 宣布 MiMo-V2.5 Series API pricing 永久下调,较此前最高降价 99%,并改为所有 context lengths 统一定价。MiMo Token Plans 也升级为同价可获得 5–8 倍更多可用 tokens,生效时间为 5 月 26 日 6:00 PM PDT。

Google 推出 Universal Cart

Google

Google 推出 Universal Cart,把 Search、Gemini App、YouTube、Gmail 中的购物车统一起来。该功能把多入口购物行为收敛到单一购物车,说明 Google 正在强化跨产品的交易闭环。

Cloudflare Flagship 进入公测

Cloudflare

Cloudflare 将内置 feature flag 服务 Flagship 推出 public beta,可直接接入 Cloudflare Workers 应用,或在应用前部署 Worker 做 feature flipping。服务提供少于 10 个方法的 binding API,支持 OpenFeature、百分比灰度和按条件投放。

Cloudflare 公测 feature flag 服务

Cloudflare

Cloudflare 进一步说明 flagship 可在不改应用代码的情况下改写请求到不同 host,实现 originless 行为。它支持 `env.FLAGS.getBooleanValue`、`env.FLAGS.getObjectValue` 等接口,并在 dashboard 中提供创建 flag、查看绑定位置和 analytics。

Playad 发布多智能体营销团队

Playad

Playad 发布基于多智能体系统的 AI 营销团队,面向完整付费营销周期提供服务。公司称已融资 540 万美元,目标用户为每月花费 3000 至 40000 美元的投放团队,并宣称可将广告制作成本降低最高 90%。

NeuralNet 2.0 上线

PixVerse

PixVerse 相关账号披露 NeuralNet 2.0 已正式推出,当前公开信息把重点放在准确率提升上。虽然缺少更完整的模型规模与基准,但这仍是一次明确的版本更新。

开发者工具

ECC 开源 Claude Code 工作流

Affaan MustafaAnthropic

Anthropic x Forum Ventures 黑客松冠军团队将其 Claude Code 工作流整理并开源为 ECC(Everything Claude Code)。仓库包含 61 个 Agent、246 个 Skills、76 个预设命令,以及规则、Hook、安全扫描、MCP 配置和持续学习机制,支持 Claude Code、Cursor、Codex、OpenCode 等平台。

Grok Build 开启测试

xAI

xAI 的 CLI 工具 Grok Build 开启测试,定位对标 Claude Code 和 Codex,并支持 macOS、Linux、Windows。它提供 TUI 与 Headless 两种模式,包含 Plan、Always-approve、子 Agent 并行、MCP、Skills/Plugins/Hooks 等能力。

Grok Build 同步开放 API

xAI

xAI 同步开放 grok-build-0.1 API 入口,为 Grok Build 提供独立调用通道。公开信息显示,这套工具链强调跨平台、订阅可用性和多 Agent 编排,意图切入 coding agent 前端。

飞书桥接 Claude Code

Zara Zhang

Zara Zhang 开源 feishu-claude-code-bridge,可在飞书中直接向 Claude Code 发指令、编辑文档并同步处理过程。工具支持绑定工作区并利用 CLAUDE.md、Skills 和 Hooks,通过 `npx` 启动。

llmfit 按硬件推荐模型

Sumanth_077

Sumanth 发布开源 CLI 工具 llmfit,可自动检测 CPU、RAM、GPU 和 VRAM,并从 206 个模型中按实际可运行性排序。工具默认从 Q8_0 匹配,必要时逐级降精度,支持 TUI、CLI 表格、JSON 和 REST API 输出。

Zero to Claude Code 免费课程

IShmool

IShmool 推出免费课程《Zero to Claude Code》,覆盖文件、终端、Git、Node.js、API、MCP、Subagents 等 14 级 147 课。课程已吸引 17,000+ 学员,覆盖 30+ 国家,平台日请求量达到 6.4M。

智能体平台

高德地图多 Agent 自主增长

高德地图阿里云

阿里云开发者团队披露,高德地图 PC 站在 SEO 增长场景下构建了多 Agent 自主增长系统,覆盖机会发现、方案设计、PRD、架构、代码、测试到发布全链路。三轮优化后评审均分从 64.5 提升到 83.4,精确匹配率从 25% 升至 78%,并实现 0 人为介入发布。

高德增长系统拆分多 Agent

高德地图阿里云

同一实践的另一篇转述强调,该系统借鉴 Harness Engineering 和 OPC 思路,将 Planner 拆成 product、design、arch 三个 Agent,将 Builder 拆成 testcase 和 builder 两个 Agent。系统连续运行 4 小时,主流程无 P0 Bug。

Onyx 开源深度研究员

Onyx

Onyx 发布并开源深度研究员系统,采用两层架构:上层 orchestrator 负责拆解问题和评估中间报告,下层 3 个 research agent 每个最多运行 8 轮“搜索-阅读-思考”循环。系统可接入 100+ 企业数据源,并在 DeepResearch Bench 上排名第 1。

AutoResearchClaw 强化研究闭环

MetaStanford

Meta、Stanford 等实验室提出 AutoResearchClaw,让自动化研究在出错、恢复和请求人类介入时更稳健。论文称其在 ARC-Bench 上较 AI Scientist v2 提升 54.7%,其中人类协作结果里 CoPilot 接受率 87.5%,全自动 25%,逐步监督 50%。

Self-Play SWE-RL 训练软件代理

MetaCMU

Meta、CMU 等实验室发表 Self-Play SWE-RL,允许编码代理通过在真实项目中制造和修复 bug 来自我训练。相比依赖人类编写问题描述与测试工件,该方法在 SWE-bench Verified 上提升 10.4 分,在 SWE-Bench Pro 上提升 7.8 分。

SkillOpt 让 skill 可迭代优化

Microsoft上海交通大学

Microsoft 联合上海交通大学等机构提出 SkillOpt,用 harness 闭环让大模型先写 skill,再在独立验证集上跑分,只有提升分数的编辑才会保留。实验显示,GPT-5.5 的直接对话准确率提升 23.5 分,且每一步设置 4 到 8 个编辑操作时效果最好。

研究突破

语言模型需要“睡眠”

CMUUMD

CMU 和 UMD 研究者在论文《Language Models Need Sleep》中提出,模型在深度推理任务中需要多次 forward pass 把当前 context 巩固成更可用的内部表示。实验在 Rule 110 等任务上显示,这种“sleep”式处理可让多跳推理准确率提升 52%,且不增加预测阶段延迟。

长上下文模型需要“sleep”

DAIR.AI

DAIR.AI 转引的论文进一步讨论了长时间运行 agents 的“睡眠”机制:模型周期性对最近上下文做 N 次离线递归前向,再把结果写入 persistent fast weights 并清空 KV cache。作者称这为长时 agent 提供了替代不断扩大 KV cache 的路线。

KPop 提升 MoE RL 稳定性

AntLingAGI

团队提出 KPop,用自适应 binary-KL 区域替代固定比例 mask,以匹配每个 token 的噪声强度,提升大型 MoE 模型的 RL 训练稳定性和长时程 agentic RL 更新稳定性。作者称其在 Ring-2.6-1T 纯 RL 训练下可在 SWE-bench Verified 上达到 76+。

PowLU 稳定大规模预训练

AntLingAGI

Ling Team 提出 PowLU,作为可直接替换现有激活函数的方案,用于稳定大规模预训练。论文称在 FP8 训练中,SwiGLU 和 SwiGLU-Clip 均在约 step 77k 附近出现 loss spike,而 PowLU 的 loss 曲线保持在约 1.32,异常通道更少。

CUSP 评估科学预测能力

hardmaruOxford University

Oxford University、Stanford University 和 Allen Institute for AI 等研究者提出 CUSP 基准,用 4,760 件科学事件评估 AI 对未来科学成果的预测能力。结果显示,当前最先进模型能识别有前景方向,但难以预测是否实现以及何时实现。

误导信息在长上下文中非线性放大

Muhan Gao

Muhan Gao 团队在 ICML 2026 发表论文,发现长上下文 LLM 中误导信息的损害呈非线性分布。以 128K-token 的 Qwen2.5 为例,前 10% 的 hard distractors 解释了约 58% 的总性能损失,10% 的 hard distractors 可解释约 97% 的干扰压力。

MIT CSAIL 发现 Apple M1 风险

MIT CSAIL

MIT CSAIL 利用操作系统内核 Fractal 更清晰地观察芯片内部运作,发现 Apple M1 可能易受一种名为 Phantom 的投机攻击。该结果属于安全研究,而非产品故障披露。

JEPA-WM v2 被 TMLR 接收

Yann LeCunBasile Terver

Yann LeCun 转发宣布 Basile Terver 的 JEPA-WM v2 论文被 TMLR 接受,并获得 reproducibility certification。论文补充了新的数据扩展实验、多步回滚训练的 Lipschitz 分析及扩展讨论。

Claude Mythos 解决 Erdős #90

kimmonismus

一位数学家测试 Claude Mythos 是否能解决长期未解的 Erdős problem #90,结果它成功给出解答。原帖还对比称,GPT-5.5 今年早些时候解决了多个 Erdős 问题,DeepMind 的 Nexus 解决了 9 个。

基础设施

Together AI 开源 OSCAR

Together AI

Together AI 开源 OSCAR,这是一套面向长上下文服务的 attention-aware 近 2-bit KV Cache 量化系统。官方称在 2.28 bits 下,Qwen3-4B-Thinking 与 BF16 相差 3.78 分;在 100K context 下解码速度最高提升 3 倍,KV 内存约减少 8 倍。

华为 LogicFolding 提出新芯片指标

华为

华为发布 LogicFolding 芯片设计思路,把芯片进步指标从“晶体管更小”转向“全机时延更少”,并提出 τ scaling。原文称该思路已按方案量产 381 颗芯片,目标指向 2031 年达到 14Å、即 1.4nm 级密度。

华为继续推进 Tau Scaling

华为

华为进一步阐释 Tau Scaling / τ Scaling 如何在制程受限环境下,通过缩短信号传输距离来提升芯片性能。方案覆盖晶体管、版图、架构、软件调度和系统互连等层面,与 TSMC、Intel 预计 2029 年左右推进的物理节点形成对照。

SemiAnalysis 指出燃气发电成默认供电

SemiAnalysis

SemiAnalysis 指出,美国下一波 AI 训练集群的燃气发电已从临时方案变成多个园区的实际架构。供应链数据包括 GE Vernova 约 24 GW/年目标、Siemens Energy 到本世纪末约 30 GW/年、Wärtsilä 单一项目 800 MW,以及 Bloom 计划 2026 年底达到 2 GW/年燃料电池产能。

OpenRouter 周处理量扩张

OpenRouter

OpenRouter 披露其周 token 处理量已从 5T 增至 25T,过去 6 个月增长 5 倍。该数据与其 1.13 亿美元融资一起,说明推理分发与模型聚合层的需求仍在快速上升。

SynthID 验证覆盖扩展

Google DeepMind

Google DeepMind 表示 SynthID 已为超过 1000 亿份内容加水印,Gemini 中的 SynthID verification 已被使用 5000 万+ 次。团队还把内容认证能力扩展到 Search、Google Chrome 和 Pixel 视频,并与 OpenAI、ElevenLabs、Kakao 合作接入模型。