AI HOT 日报 (evening)
模型与研究
OpenAI 证明 Erdős 猜想
OpenAI 公开表示,其内部通用推理模型在平面 unit distance problem 上推翻了 Paul Erdős 1946 年提出的猜想,找到一族新构造,使单位距离点对数量获得多项式级改进。该证明已由外部数学家核验,OpenAI 还发布了证明正文、伴随论文和 chain of thought 节选,称这是 AI 首次自主解决数学公开难题之一。
Qwen3.7 Max 评测曝光
Artificial Analysis 评测 Alibaba 的 Qwen3.7 Max,称其在 Artificial Analysis Intelligence Index 上得分 56.6,较 Qwen3.6 Max Preview 的 51.8 提升 4.8 分,但仍落后于 OpenAI、Anthropic 和 Google。该版本上下文从 256K 提升到 1M tokens;reasoning 细分里,CritPt 提升 9.7 个百分点、HLE 提升 9.2 个百分点、TerminalBench Hard 提升 6.9 个百分点,GDPval-AA 提升 42 Elo。
Tencent HY 开源 Hy-MT2
Tencent HY 开源 Hy-MT2 多语言翻译模型系列,包含 Dense 和 MoE 变体,覆盖 33 种语言和 5 种中文方言。1.8B 版本经 AngelSlim 1.25-bit 量化后仅 440MB,在 Apple A15 上推理速度比传统 4-bit 快 1.5 倍;7B 与 30B-A3B 版本在开源翻译模型中被称为 SOTA,并公布了 IFMTBench。
SAM 3 开源仓库
Meta Superintelligence Labs 开源 SAM 3 仓库,支持图像和视频中的 promptable segmentation,可用文本、点、框和 mask 做检测、分割与跟踪。新 SA-CO 基准包含 27 万个独特概念,宣称达到人类表现的 75%–80%;项目还公布了覆盖 400 万个独特概念的数据引擎,以及 SAM 3.1 Object Multiplex 更新。
Gemini 3.5 Flash 登顶基准
Mercor 转发的 Artificial Analysis 复现榜显示,Google 的 Gemini 3.5 Flash 在 APEX-Agents-AA leaderboard 上以 47.1% 排名第一,领先 GPT-5.5 的 37.7% 9.4 个百分点。Google 同时称其是最强 agentic 和 coding 模型之一,速度达到同类 frontier 模型的 4 倍、成本通常低于一半,并已当天 GA。
GRAM 递归推理模型
某团队提出 GRAM(Generative Recursive Reasoning),通过在每个 refinement step 注入学习到的随机性,让模型并行探索多条 reasoning paths。该模型参数量 10 million,在 hard Sudoku 上准确率达到 97%,优于先前最佳递归模型的 87.4%;仅用 20 个并行 samples 就超过所有确定性基线。
平台与产品
OpenAI for Singapore
OpenAI 在新加坡 ATx Summit 上宣布与 MDDI 启动 “OpenAI for Singapore” 合作,获得超过 S$300 million 承诺资金,并将在新加坡设立美国以外首个 Applied AI Lab。项目计划创造 200 多个本地技术岗位,覆盖公共服务、金融、医疗和数字基础设施,并与 Ministry of Education、GovTech 和 OpenAI Academy 等项目联动。
OpenAI 教育项目新阶段
OpenAI 发布 “Education for Countries” 新阶段,称 ChatGPT 每周用户超过 9 亿、Codex 用户超过 400 万。首批参与方包括 Estonia、Greece、Italy’s CRUI、Slovakia、Trinidad & Tobago、Kazakhstan、the UAE、Jordan 和 Singapore;其中 Estonia 覆盖超过 20,000 名学生、4,600 名教师,Jordan 的 Siraj 已触达超过 100 万学生。
ChatGPT 个人理财预览
OpenAI 向美国 Pro 用户推出 ChatGPT 个人理财体验预览,用户可在 web 和 iOS 上连接金融账户,查看资金流向仪表盘并基于财务上下文提问。该功能支持超过 12,000 家金融机构,先向小范围用户开放,之后扩展到 Plus 和所有用户;OpenAI 还提到每月有超过 2 亿人用 ChatGPT 做预算、投资比较和财务规划。
Claude Code 质量回溯
Anthropic 复盘 Claude Code、Claude Agent SDK 和 Claude Cowork 近一个月质量下降原因,确认是 3 处改动叠加导致,API 与推理层未受影响。相关问题已在 4 月 20 日随 v2.1.116 修复,Anthropic 还表示截至 4 月 23 日将为所有订阅用户重置 usage limits。
开发者生态
Anthropic 收购 Stainless
Anthropic 宣布收购 Stainless,以增强 Claude 平台的开发者体验和 agent 连接能力。Stainless 成立于 2022 年,曾为 Anthropic 生成每一个官方 SDK,并被数百家公司用于生成 SDK、CLI 和 MCP servers,覆盖 TypeScript、Python、Go、Java 等语言。
KPMG 接入 Claude
KPMG 与 Anthropic 建立全球战略合作,把 Claude 接入其基于 Microsoft Azure 的 Digital Gateway 平台,并向全球 276,000+ 名员工开放。双方还将围绕税务、法律、网络安全和私募股权开发新产品,文中称借助 Claude Cowork 和 Managed Agents,税务合规 AI 代理开发可从“数周”缩短到“几分钟”。
Atomic Chat MTP 加速
Atomic Chat 展示 Multi-Token Prediction 对本地 LLM 推理的加速效果,在 2x RTX 5090 上,dense Qwen3.6 27B 从 51 tokens/s 提升到 117 tokens/s,Qwen3.6 35B-A3B MoE 从 218 tokens/s 提升到 267 tokens/s。原帖称约 80% 的 draft token 被接受,额外显存开销约 1GB,仓库已开源。
Browser Use 基础设施预告
Reformedot 预告 Browser Use 将推出新的 browser runtime 基础设施,重点从 stealth 转向浏览器运行性能和成本。方案包含 Chromium fork、Firecracker fork 和 custom kernel,强调 headless、更快以及更好的 price/performance,但原文未给出具体数值。
姚金刚开源 GEO Skills
姚金刚一次性开源 17 套 GEO Skill,并将过去一年的 GEO 研究、学习、实践与思考整合进仓库供下载使用。仓库公开信息显示包含 26 次提交、Fork 39、Star 196,提供 `python3 scripts/validate_repository.py` 作为校验方式。
商业与基础设施
Anthropic 向 SpaceX 付算力费
Axios 披露 Anthropic 正向 SpaceX 支付每月 1.25 billion 美元算力费,合同持续到 2029 年 5 月,折算年化约 15 billion 美元。SpaceX 文件称该金额接近其约 18 billion 美元年收入,双方均可提前 90 天通知退出协议,且 SpaceX 还预计签订更多类似服务合同。
Kin Health 融资 900 万美元
Kin Health 完成 900 万美元种子轮融资,由 Maveron 领投。该公司做面向患者的 AI 记事工具,可录制就诊过程、转写问诊内容、解析医疗建议并生成下一步行动摘要;同条信息还提到 OpenEvidence 已可在 Epic 内运行,Cedars-Sinai 则发布了 patient-aware clinical intelligence。