AI HOT 日报 (morning)

OpenAI 研究与产品

OpenAI 证明 Erdős 猜想

OpenAI

OpenAI 公开表示，其内部通用推理模型在平面单位距离问题上推翻了 Paul Erdős 1946 年提出的猜想，并找到一族带来多项式级改进的新构造。该证明已由外部数学家核验，官方还发布了证明正文、companion paper 和思维链节选，被视为 AI 首次自主解决数学公开难题。

OpenAI for Singapore

OpenAI

OpenAI 在新加坡宣布“OpenAI for Singapore”合作，与 MDDI 推进国家 AI 战略，并获得超过 S$300 million 承诺资金。OpenAI 还将在新加坡设立美国以外首个 Applied AI Lab，称未来几年将创造 200 多个本地技术岗位，并联动公共服务、金融、医疗和教育项目。

OpenAI 更新“Education for Countries”项目，称 ChatGPT 每周用户超过 9 亿、Codex 用户超过 400 万，并将 Estonia、Greece、Italy、Slovakia、Trinidad & Tobago、Kazakhstan、the UAE、Jordan 和 Singapore 纳入合作范围。项目披露的量化进展包括：Estonia 覆盖 20,000+ 学生和 4,600 名教师，Jordan 触达 100 万+ 学生和 10 万+ 教师，Kazakhstan 20 个地区有 84,000+ 教育者完成训练。

ChatGPT 个人理财预览

OpenAI

OpenAI 向美国 Pro 用户推出 ChatGPT 个人理财体验预览，可在 web 和 iOS 连接金融账户，查看资金流向仪表盘并基于财务上下文提问。该功能已支持 12,000+ 家金融机构，后续将扩展到 Plus 和所有用户，OpenAI 同时称每月有超过 2 亿人使用 ChatGPT 处理预算、投资比较和财务规划。

AdventHealth 接入 ChatGPT for Healthcare

OpenAI

AdventHealth 正在跨 9 个州、服务数百万患者的医疗系统中部署 ChatGPT for Healthcare，用于生成结构化病历摘要、提取临床信息并起草初始论证。院方此前使用 ChatGPT Enterprise，后升级到 Healthcare 版本，以获得受监管环境所需的数据保护、合规支持和治理控制，并以每个工作日每用户消息数监控采用情况。

Codex 新增 Appshots 和 Goal 模式

OpenAI

OpenAI 为 Codex 推出 Appshots、Goal 模式和浏览器高级标注能力。Mac 用户可用双 Command 把当前窗口截图与文本发给 Codex，桌面版 Goal 模式可让任务持续运行数小时甚至数天；Business 用户还可共享自定义插件，Analytics 面板同步增加活跃用户、Token 消耗、代码生成行数等指标。

Codex Appshots 再更新

OpenAI

OpenAI Developers 再次更新 Codex 的 Appshots 功能，Mac 用户可通过连续按两次 Command 将当前应用窗口附加到对话线程。Codex 会同时读取截图、窗口文字以及屏幕未直接显示的内容，覆盖所有付费计划，企业版稍后推出。

Qwen3.7-Max

Qwen3.7-Max 正式发布

Alibaba Qwen

Alibaba Qwen 正式发布 Qwen3.7-Max，并通过 Alibaba Model Studio API 和 Qwen Studio 提供服务。该模型面向 agent 场景，支持编程智能体、办公自动化、多智能体协作和长周期自主执行；在一次持续 35 小时、完成 1,000+ 次工具调用的内核优化实验中，累计 432 次内核评估、1,158 次工具调用，最终对 Triton reference 实现 10.0x 几何平均提速。

Qwen3.7-Max 基准成绩

Artificial AnalysisAlibaba Qwen

Artificial Analysis 给出 Qwen3.7-Max 评测结果：Artificial Analysis Intelligence Index 为 56.6，较 Qwen3.6-Max Preview 的 51.8 提升 4.8 分。细分上，CritPt 从 3.7% 升至 13.4%，HLE 从 28.9% 升至 38.1%，TerminalBench Hard 从 43.9% 升至 50.8%，GDPval-AA 从 1504 升至 1546；评测共消耗 96.7M output tokens，较前代的 73.9M 增加约 31%。

Qwen3.7-Max 价格与上下文

Alibaba Cloud

Alibaba Cloud 在 Model Studio 页面给出 Qwen3.7-Max 的 API 信息：输入价格 $2.5 / 1M tokens，输出价格 $7.5 / 1M tokens，Launch time 为 2026-05-21。该版本上下文窗口提升到 1M tokens，仍为 proprietary closed weights，并支持 Claude Code、OpenClaw、Qwen Code 等不同栈。

Anthropic 动作

Anthropic 收购 Stainless

Anthropic

Anthropic 宣布收购 Stainless，以增强 Claude 平台的开发者体验和 agent 连接能力。Stainless 自 2022 年成立以来一直为 Anthropic 生成官方 SDK，且被数百家公司用于生成 SDK、CLI 和 MCP servers，支持 TypeScript、Python、Go、Java 等语言。

Anthropic 复盘 Claude Code 问题

Anthropic

Anthropic 说明过去一个月部分用户感知 Claude 质量下降，问题来自 3 处不同改动，分别影响 Claude Code、Claude Agent SDK 和 Claude Cowork，API 与推理层未受影响。相关问题已在 v2.1.116 修复；Anthropic 还表示截至 4 月 23 日将为所有订阅用户重置 usage limits。

KPMG 接入 Claude

AnthropicKPMG

KPMG 与 Anthropic 建立全球战略合作，将 Claude 接入其核心业务并覆盖全球 276,000+ 员工。双方将在税务、法律、网络安全和 PE 业务上共建方案，文中称借助 Claude Cowork 和 Managed Agents，税务合规 AI 代理开发可从“数周”缩短到“几分钟”。

开发者工具

Cursor Composer 2.5

Cursor

Cursor 发布 Composer 2.5，在 Artificial Analysis Coding Agent Index 上得分 62，较 Composer 2 提升 14 分，排名第三。其在 SWE-Bench-Pro-Hard-AA 提升到 47%，Terminal-Bench v2 提升到 66%，SWE-Atlas-QnA 提升到 72%；定价方面 standard 为 $0.50 / $2.50 每百万输入/输出 token，Fast 为 $3.00 / $15.00。

OpenAI Codex Appshots

OpenAI

OpenAI Developers 为 Codex 上线 Appshots，Mac 用户按双 Command 即可把应用窗口上下文带入对话线程。功能不仅传输截图，还会读取窗口文本和屏幕外内容，目前覆盖所有付费计划，企业版即将推出。

Chrome DevTools for Agents 1.0

Google

Google 正式发布 Chrome DevTools for Agents 1.0，将其从演示版升级为稳定版，面向编码智能体提供真实浏览器调试能力。新版本支持 MCP server、CLI 和 agent skills 三种接入方式，并开放 Lighthouse 审计、窗口/网络/CPU 节流模拟、扩展调试、堆快照泄漏检测和 Auto-connect 会话接管等能力。

EvalScope 支持 Agent 评测

ModelScope Community

ModelScope Community 的 EvalScope 新增 Agent Evaluation Mode，可把 GSM8K、AIME、IFEval、SWE-Bench 等标准基准一行配置转成多轮 agentic 任务。新模式引入 AgentLoop，支持 Function-Calling、ReAct 和 SWE-Bench 协议切换，并能在 Web-Dashboard 回放每一步工具调用。

Pipecat 开源语音框架

Pipecat

Pipecat 团队发布开源 Python 框架，用于构建实时语音 AI agents，内置 WebRTC、WebSocket、STT、TTS 和对话流水线。该框架已集成 Deepgram、AssemblyAI、OpenAI Whisper、Anthropic、Gemini、Groq 等服务，GitHub stars 超过 10.3k。

Helio 工作区预览

Helio

Helio 发布 AI-native team workspace 预览版，支持 macOS 和 Windows，并可接入自有订阅 API。产品把 AI colleague 放进统一频道、任务列表和编码会话中，展示的 Live 功能包括 Unified channels、Tasks、Coding sessions 和 AI teammates，另有 Email 预览和 Meetings 计划中。

基础设施

SpaceX 公布 S-1

SpaceX

SpaceX 于 2026-05-20 提交 S-1，披露最快将于 2026-06 IPO，并说明 xAI Merger 已于 2026-02-02 生效，xAI 普通股按 1 股换 0.1433 股 SpaceX 普通股（pre-split）计算，且公司在 2026-05-04 完成 5:1 forward split。文件还披露 SpaceX 2025 年收入 187 亿美元、AI 业务收入 32 亿美元、AI segment operating loss 63.6 亿美元，以及 2026 年 Q1 净亏损 42.8 亿美元。

Anthropic 与 SpaceX 算力合同细节

AnthropicSpaceX

Axios 披露，Anthropic 向 SpaceX 支付每月 1.25 billion 美元算力费，合同持续到 2029-05，年化约 15 billion 美元，总价值约 450 亿美元。SpaceX 文件显示该协议存在 2026 年 5-6 月 ramp-up 折扣，双方均可提前 90 天终止，Anthropic 还将从 Colossus 1 扩展到 Colossus 2，并继续增加 Nvidia GB200 容量。

Anthropic 商谈 Microsoft 芯片

AnthropicMicrosoft

The Information 报道称，Anthropic 正与 Microsoft 进行早期谈判，计划租用并部署 Microsoft 定制 AI 芯片用于推理工作负载。Microsoft 正推动 Maia 200 作为更便宜的推理方案，报道同时提到 Anthropic 已承诺向 Azure 投入 300 亿美元，Microsoft 可能向其投资最高 50 亿美元。

Modal 完成 C 轮融资

ModalGeneral CatalystRedpoint

Modal 联合创始人 Erik Bernhardsson 宣布完成 3.55 亿美元 Series C 融资，估值达到 46.5 亿美元，由 General Catalyst 和 Redpoint 领投。公司被 Anthropic、Meta、Suno、Doordash、Applied Compute、Cognition 等用于训练、推理与 sandbox 等 AI 基础设施工作负载。

HBM 成为 AI 芯片最大成本

Epoch AI

Epoch AI 指出，HBM 已成为前沿 AI 芯片中最大且增长最快的组件成本。其数据显示，HBM 在 AI 芯片组件总支出中的占比从 2024 年 Q1 的 52% 升至 2025 年 Q4 的 63%，按 Nvidia、AMD、Google 和 Amazon 设计芯片统计，HBM 支出从约 120 亿美元增至约 320 亿美元。

Browser Use 新 runtime 预告

Browser Use

Browser Use 预告将推出新的 browser runtime 基础设施，重点从 stealth 转向浏览器运行性能与成本。方案包含 Chromium fork、Firecracker fork 和 custom kernel，目标是更快的 headless 运行和更好的 price/performance。

模型发布

SenseNova U1 开源

SenseTime

SenseTime 发布原生多模态模型系列 SenseNova U1，采用 NEO-unify 架构，将图像和文本在同一系统中联合处理。官方同时开源 SenseNova-U1-A3B-MoT 权重、Lite 8B dense 与 A3B MoE 版本，并给出 8-step distilled LoRA，可将 H100 推理时间从 23 秒降到 2 秒。

Cohere Command A+

Cohere

Cohere 发布 Command A+，称其为目前最强的 LLM，并以 Apache 2.0 许可开源，已在 Hugging Face 和 vLLM 提供。官方表示该模型可在最少 2 张 H100 上运行，输出速度较上一代提升超过 2 倍，延迟降低 30%，并支持 48 种语言。

Tencent HY 开源 Hy-MT2

Tencent HY

Tencent HY 开源 Hy-MT2 多语言翻译模型系列，覆盖 33 种语言和 5 种中文方言，包含 1.8B、7B 和 30B-A3B 版本。官方称 1.8B 模型经 1.25-bit 量化后仅 440MB，在 Apple A15 上推理速度比传统 4-bit 快 1.5 倍，7B 与 30B-A3B 在开源翻译模型中达到 SOTA。

Google Gemini 3.5 Flash

Google

Google 的 Gemini 3.5 Flash 在 APEX-Agents-AA 和相关复现榜单中排名第 1，超过 GPT-5.5 和 Gemini 3 Flash。Google 同时将 Antigravity 中所有付费层的 rate limits 提高 3 倍，并重置本周 Gemini quota，以便用户更充分测试该模型；官方称其速度可达同类 frontier 模型的 4 倍，成本通常低于一半。

SAM 3 开源仓库

Meta Superintelligence Labs

Meta Superintelligence Labs 开源 SAM 3 仓库，用于图像和视频中的 promptable segmentation，支持文本、点、框和 mask 等视觉提示。项目新增 SA-CO 基准，包含 27 万个独特概念，宣称达到人类表现的 75%–80%，并公布自动标注超过 400 万个独特概念的数据引擎。

GRAM 递归推理模型

GRAM 团队

GRAM 团队提出 Generative Recursive Reasoning，一种通过在每个 refinement step 注入随机性来并行探索多条 reasoning path 的递归推理模型。该模型仅 10 million 参数，在 hard Sudoku 上准确率达到 97%，优于此前最佳递归模型的 87.4%。

Crys-JEPA 材料生成方法

Xavier BressonYann LeCun

Xavier Bresson 介绍与 liun_online、Kostya Novoselov、Yann LeCun 团队合作提出的 Crys-JEPA，用于材料设计的生成式技术。该方法通过 JEPA 构建高质量、感知能量的潜在空间，在 MP20 上取得 47.9% 的 VSUN，并已公开 arXiv 论文 2605.14759。

人事与融资

Modal 完成 3.55 亿美元融资

ModalGeneral CatalystRedpoint

Modal 联合创始人 Erik Bernhardsson 公布完成 3.55 亿美元 Series C，投后估值 46.5 亿美元，由 General Catalyst 和 Redpoint 领投。公司被 Anthropic、Meta、Suno、Doordash、Applied Compute、Cognition 等用于训练、推理和 sandbox 工作负载。

Kin Health 融资 900 万美元

Kin HealthMaveron

Kin Health 完成 900 万美元种子轮融资，由 Maveron 领投。公司提供面向患者的 AI 记事工具，可录制就诊过程、转写问诊内容、解析医疗建议并生成行动摘要，同时默认私密保存并加密。

AI HOT 日报 (morning)

OpenAI 研究与产品

Qwen3.7-Max

Anthropic 动作

开发者工具

基础设施

模型发布

人事与融资

其他动态