AI HOT 日报 (morning)
OpenAI 研究与产品
OpenAI 证明 Erdős 猜想
OpenAI 公开表示,其内部通用推理模型在平面单位距离问题上推翻了 Paul Erdős 1946 年提出的猜想,并找到一族带来多项式级改进的新构造。该证明已由外部数学家核验,官方还发布了证明正文、companion paper 和思维链节选,被视为 AI 首次自主解决数学公开难题。
OpenAI for Singapore
OpenAI 在新加坡宣布“OpenAI for Singapore”合作,与 MDDI 推进国家 AI 战略,并获得超过 S$300 million 承诺资金。OpenAI 还将在新加坡设立美国以外首个 Applied AI Lab,称未来几年将创造 200 多个本地技术岗位,并联动公共服务、金融、医疗和教育项目。
ChatGPT 教育计划扩展
OpenAI 更新“Education for Countries”项目,称 ChatGPT 每周用户超过 9 亿、Codex 用户超过 400 万,并将 Estonia、Greece、Italy、Slovakia、Trinidad & Tobago、Kazakhstan、the UAE、Jordan 和 Singapore 纳入合作范围。项目披露的量化进展包括:Estonia 覆盖 20,000+ 学生和 4,600 名教师,Jordan 触达 100 万+ 学生和 10 万+ 教师,Kazakhstan 20 个地区有 84,000+ 教育者完成训练。
ChatGPT 个人理财预览
OpenAI 向美国 Pro 用户推出 ChatGPT 个人理财体验预览,可在 web 和 iOS 连接金融账户,查看资金流向仪表盘并基于财务上下文提问。该功能已支持 12,000+ 家金融机构,后续将扩展到 Plus 和所有用户,OpenAI 同时称每月有超过 2 亿人使用 ChatGPT 处理预算、投资比较和财务规划。
AdventHealth 接入 ChatGPT for Healthcare
AdventHealth 正在跨 9 个州、服务数百万患者的医疗系统中部署 ChatGPT for Healthcare,用于生成结构化病历摘要、提取临床信息并起草初始论证。院方此前使用 ChatGPT Enterprise,后升级到 Healthcare 版本,以获得受监管环境所需的数据保护、合规支持和治理控制,并以每个工作日每用户消息数监控采用情况。
Codex 新增 Appshots 和 Goal 模式
OpenAI 为 Codex 推出 Appshots、Goal 模式和浏览器高级标注能力。Mac 用户可用双 Command 把当前窗口截图与文本发给 Codex,桌面版 Goal 模式可让任务持续运行数小时甚至数天;Business 用户还可共享自定义插件,Analytics 面板同步增加活跃用户、Token 消耗、代码生成行数等指标。
Codex Appshots 再更新
OpenAI Developers 再次更新 Codex 的 Appshots 功能,Mac 用户可通过连续按两次 Command 将当前应用窗口附加到对话线程。Codex 会同时读取截图、窗口文字以及屏幕未直接显示的内容,覆盖所有付费计划,企业版稍后推出。
Qwen3.7-Max
Qwen3.7-Max 正式发布
Alibaba Qwen 正式发布 Qwen3.7-Max,并通过 Alibaba Model Studio API 和 Qwen Studio 提供服务。该模型面向 agent 场景,支持编程智能体、办公自动化、多智能体协作和长周期自主执行;在一次持续 35 小时、完成 1,000+ 次工具调用的内核优化实验中,累计 432 次内核评估、1,158 次工具调用,最终对 Triton reference 实现 10.0x 几何平均提速。
Qwen3.7-Max 基准成绩
Artificial Analysis 给出 Qwen3.7-Max 评测结果:Artificial Analysis Intelligence Index 为 56.6,较 Qwen3.6-Max Preview 的 51.8 提升 4.8 分。细分上,CritPt 从 3.7% 升至 13.4%,HLE 从 28.9% 升至 38.1%,TerminalBench Hard 从 43.9% 升至 50.8%,GDPval-AA 从 1504 升至 1546;评测共消耗 96.7M output tokens,较前代的 73.9M 增加约 31%。
Qwen3.7-Max 价格与上下文
Alibaba Cloud 在 Model Studio 页面给出 Qwen3.7-Max 的 API 信息:输入价格 $2.5 / 1M tokens,输出价格 $7.5 / 1M tokens,Launch time 为 2026-05-21。该版本上下文窗口提升到 1M tokens,仍为 proprietary closed weights,并支持 Claude Code、OpenClaw、Qwen Code 等不同栈。
Anthropic 动作
Anthropic 收购 Stainless
Anthropic 宣布收购 Stainless,以增强 Claude 平台的开发者体验和 agent 连接能力。Stainless 自 2022 年成立以来一直为 Anthropic 生成官方 SDK,且被数百家公司用于生成 SDK、CLI 和 MCP servers,支持 TypeScript、Python、Go、Java 等语言。
Anthropic 复盘 Claude Code 问题
Anthropic 说明过去一个月部分用户感知 Claude 质量下降,问题来自 3 处不同改动,分别影响 Claude Code、Claude Agent SDK 和 Claude Cowork,API 与推理层未受影响。相关问题已在 v2.1.116 修复;Anthropic 还表示截至 4 月 23 日将为所有订阅用户重置 usage limits。
KPMG 接入 Claude
KPMG 与 Anthropic 建立全球战略合作,将 Claude 接入其核心业务并覆盖全球 276,000+ 员工。双方将在税务、法律、网络安全和 PE 业务上共建方案,文中称借助 Claude Cowork 和 Managed Agents,税务合规 AI 代理开发可从“数周”缩短到“几分钟”。
开发者工具
Cursor Composer 2.5
Cursor 发布 Composer 2.5,在 Artificial Analysis Coding Agent Index 上得分 62,较 Composer 2 提升 14 分,排名第三。其在 SWE-Bench-Pro-Hard-AA 提升到 47%,Terminal-Bench v2 提升到 66%,SWE-Atlas-QnA 提升到 72%;定价方面 standard 为 $0.50 / $2.50 每百万输入/输出 token,Fast 为 $3.00 / $15.00。
OpenAI Codex Appshots
OpenAI Developers 为 Codex 上线 Appshots,Mac 用户按双 Command 即可把应用窗口上下文带入对话线程。功能不仅传输截图,还会读取窗口文本和屏幕外内容,目前覆盖所有付费计划,企业版即将推出。
Chrome DevTools for Agents 1.0
Google 正式发布 Chrome DevTools for Agents 1.0,将其从演示版升级为稳定版,面向编码智能体提供真实浏览器调试能力。新版本支持 MCP server、CLI 和 agent skills 三种接入方式,并开放 Lighthouse 审计、窗口/网络/CPU 节流模拟、扩展调试、堆快照泄漏检测和 Auto-connect 会话接管等能力。
EvalScope 支持 Agent 评测
ModelScope Community 的 EvalScope 新增 Agent Evaluation Mode,可把 GSM8K、AIME、IFEval、SWE-Bench 等标准基准一行配置转成多轮 agentic 任务。新模式引入 AgentLoop,支持 Function-Calling、ReAct 和 SWE-Bench 协议切换,并能在 Web-Dashboard 回放每一步工具调用。
Pipecat 开源语音框架
Pipecat 团队发布开源 Python 框架,用于构建实时语音 AI agents,内置 WebRTC、WebSocket、STT、TTS 和对话流水线。该框架已集成 Deepgram、AssemblyAI、OpenAI Whisper、Anthropic、Gemini、Groq 等服务,GitHub stars 超过 10.3k。
Helio 工作区预览
Helio 发布 AI-native team workspace 预览版,支持 macOS 和 Windows,并可接入自有订阅 API。产品把 AI colleague 放进统一频道、任务列表和编码会话中,展示的 Live 功能包括 Unified channels、Tasks、Coding sessions 和 AI teammates,另有 Email 预览和 Meetings 计划中。
基础设施
SpaceX 公布 S-1
SpaceX 于 2026-05-20 提交 S-1,披露最快将于 2026-06 IPO,并说明 xAI Merger 已于 2026-02-02 生效,xAI 普通股按 1 股换 0.1433 股 SpaceX 普通股(pre-split)计算,且公司在 2026-05-04 完成 5:1 forward split。文件还披露 SpaceX 2025 年收入 187 亿美元、AI 业务收入 32 亿美元、AI segment operating loss 63.6 亿美元,以及 2026 年 Q1 净亏损 42.8 亿美元。
Anthropic 与 SpaceX 算力合同细节
Axios 披露,Anthropic 向 SpaceX 支付每月 1.25 billion 美元算力费,合同持续到 2029-05,年化约 15 billion 美元,总价值约 450 亿美元。SpaceX 文件显示该协议存在 2026 年 5-6 月 ramp-up 折扣,双方均可提前 90 天终止,Anthropic 还将从 Colossus 1 扩展到 Colossus 2,并继续增加 Nvidia GB200 容量。
Anthropic 商谈 Microsoft 芯片
The Information 报道称,Anthropic 正与 Microsoft 进行早期谈判,计划租用并部署 Microsoft 定制 AI 芯片用于推理工作负载。Microsoft 正推动 Maia 200 作为更便宜的推理方案,报道同时提到 Anthropic 已承诺向 Azure 投入 300 亿美元,Microsoft 可能向其投资最高 50 亿美元。
Modal 完成 C 轮融资
Modal 联合创始人 Erik Bernhardsson 宣布完成 3.55 亿美元 Series C 融资,估值达到 46.5 亿美元,由 General Catalyst 和 Redpoint 领投。公司被 Anthropic、Meta、Suno、Doordash、Applied Compute、Cognition 等用于训练、推理与 sandbox 等 AI 基础设施工作负载。
HBM 成为 AI 芯片最大成本
Epoch AI 指出,HBM 已成为前沿 AI 芯片中最大且增长最快的组件成本。其数据显示,HBM 在 AI 芯片组件总支出中的占比从 2024 年 Q1 的 52% 升至 2025 年 Q4 的 63%,按 Nvidia、AMD、Google 和 Amazon 设计芯片统计,HBM 支出从约 120 亿美元增至约 320 亿美元。
Browser Use 新 runtime 预告
Browser Use 预告将推出新的 browser runtime 基础设施,重点从 stealth 转向浏览器运行性能与成本。方案包含 Chromium fork、Firecracker fork 和 custom kernel,目标是更快的 headless 运行和更好的 price/performance。
模型发布
SenseNova U1 开源
SenseTime 发布原生多模态模型系列 SenseNova U1,采用 NEO-unify 架构,将图像和文本在同一系统中联合处理。官方同时开源 SenseNova-U1-A3B-MoT 权重、Lite 8B dense 与 A3B MoE 版本,并给出 8-step distilled LoRA,可将 H100 推理时间从 23 秒降到 2 秒。
Cohere Command A+
Cohere 发布 Command A+,称其为目前最强的 LLM,并以 Apache 2.0 许可开源,已在 Hugging Face 和 vLLM 提供。官方表示该模型可在最少 2 张 H100 上运行,输出速度较上一代提升超过 2 倍,延迟降低 30%,并支持 48 种语言。
Tencent HY 开源 Hy-MT2
Tencent HY 开源 Hy-MT2 多语言翻译模型系列,覆盖 33 种语言和 5 种中文方言,包含 1.8B、7B 和 30B-A3B 版本。官方称 1.8B 模型经 1.25-bit 量化后仅 440MB,在 Apple A15 上推理速度比传统 4-bit 快 1.5 倍,7B 与 30B-A3B 在开源翻译模型中达到 SOTA。
Google Gemini 3.5 Flash
Google 的 Gemini 3.5 Flash 在 APEX-Agents-AA 和相关复现榜单中排名第 1,超过 GPT-5.5 和 Gemini 3 Flash。Google 同时将 Antigravity 中所有付费层的 rate limits 提高 3 倍,并重置本周 Gemini quota,以便用户更充分测试该模型;官方称其速度可达同类 frontier 模型的 4 倍,成本通常低于一半。
SAM 3 开源仓库
Meta Superintelligence Labs 开源 SAM 3 仓库,用于图像和视频中的 promptable segmentation,支持文本、点、框和 mask 等视觉提示。项目新增 SA-CO 基准,包含 27 万个独特概念,宣称达到人类表现的 75%–80%,并公布自动标注超过 400 万个独特概念的数据引擎。
GRAM 递归推理模型
GRAM 团队提出 Generative Recursive Reasoning,一种通过在每个 refinement step 注入随机性来并行探索多条 reasoning path 的递归推理模型。该模型仅 10 million 参数,在 hard Sudoku 上准确率达到 97%,优于此前最佳递归模型的 87.4%。
Crys-JEPA 材料生成方法
Xavier Bresson 介绍与 liun_online、Kostya Novoselov、Yann LeCun 团队合作提出的 Crys-JEPA,用于材料设计的生成式技术。该方法通过 JEPA 构建高质量、感知能量的潜在空间,在 MP20 上取得 47.9% 的 VSUN,并已公开 arXiv 论文 2605.14759。
人事与融资
Modal 完成 3.55 亿美元融资
Modal 联合创始人 Erik Bernhardsson 公布完成 3.55 亿美元 Series C,投后估值 46.5 亿美元,由 General Catalyst 和 Redpoint 领投。公司被 Anthropic、Meta、Suno、Doordash、Applied Compute、Cognition 等用于训练、推理和 sandbox 工作负载。
Kin Health 融资 900 万美元
Kin Health 完成 900 万美元种子轮融资,由 Maveron 领投。公司提供面向患者的 AI 记事工具,可录制就诊过程、转写问诊内容、解析医疗建议并生成行动摘要,同时默认私密保存并加密。
其他动态
LeRobot Humanoid 平台
Hugging Face 旗下 LeRobot 团队发布 LeRobot Humanoid,一个面向机器人学习的开源低成本人形机器人平台。当前双足原型零件成本约 2,500 美元,项目提供硬件清单、装配文档、运行时工具、系统辨识工具和训练环境,覆盖从仿真到真实世界控制的全流程。
Osiris 开源全球情报平台
Reddit 上的 Osiris 被描述为“Open Source Palantir”替代品,提供实时 3D 地球仪和 10,000+ 架飞机、2,000+ 颗卫星、1,400+ 路 CCTV 画面等可视化数据。项目还集成 Nmap、DNS、WHOIS、SSL/TLS、BGP、威胁情报和 IP 信誉查询等 OSINT 工具,GitHub 当前有 1.1k star。
Atomic Chat MTP 加速
Atomic Chat 展示 Multi-Token Prediction 对本地 LLM 推理的加速效果:在 2x RTX 5090 上,dense Qwen3.6 27B 速度从 51 tokens/s 提升到 117 tokens/s,Qwen3.6 35B-A3B MoE 从 218 tokens/s 提升到 267 tokens/s。测试中约 80% draft token 被接受,额外显存开销约 1GB。
MemOS 2.0 更新
MemOS Local Plugin 2.0 更新了本地优先记忆系统,GitHub Star 达到 9.3K。该版本主打“执行即学习”,将 Agent 任务执行过程拆成可学习单元,通过双重反馈把经验提炼为原始轨迹、通用套路、长期世界模型和可调用 Skill。
姚金刚开源 GEO Skills
姚金刚一次性开源 17 套 GEO Skill,将过去一年对 GEO 的研究、实践与思考整理成仓库供下载使用。仓库当前公开信息显示为 yaojingang/yao-geo-skills,包含 26 次提交、Fork 39、Star 196,并提供校验脚本。