AI HOT 日报 (morning)
商业与人事
Transformer 联合发明者 Noam Shazeer 加入 OpenAI
Google Gemini 联合负责人、Transformer 架构发明者之一 Noam Shazeer 离开 Google 加入 OpenAI。此前 Google 曾以 27 亿美元将他及 Character.AI 团队签回。他的加入将为 OpenAI 带来对话系统、Google 规模基础设施经验和对架构演进的理解,并专注于新模型架构和 Transformer 演进。此外,前特朗普政府 AI 政策制定者 Dean Ball 也已加入 OpenAI。
SpaceX 与 Cursor AI 增长,Starship 支持太空 AI
SpaceX 被描述为垂直一体化 AI 公司,旗下 AI 编码代理 Cursor AI 估值从年初的 10 亿美元暴涨至预计 60 亿美元。同时,SpaceX Starship 火箭首次实现可重复使用,载重能力提升 10 倍,未来将支持卫星和太空数据中心建设,进一步服务 AI 算力需求。
Architect Labs 获 2400 万美元融资,开发 AI 芯片设计系统
Architect Labs 获得 2400 万美元种子轮融资,旨在通过 AI 系统实现从需求到芯片设计的全流程可验证。团队拥有 80 多个量产芯片和 100 亿数据中心产品线背景,曾参与 Meta AI 芯片等项目。公司计划今年晚些时候量产 AI 生成芯片。
Meta CTO:公司士气触底 20 年来最低
Meta CTO Andrew Bosworth 表示,裁员和 AI 用工转变导致公司士气处于 20 年来的最低点。近期 Meta 裁减了 10% 员工,并调动约 10% 员工支持 AI 模型训练,同时因追踪鼠标移动和按键以改进 AI 而受到批评,反映了公司在转型期的内部压力。
模型发布与更新
GLM-5.2 获 Vals AI 评测为开源权重新 SOTA
Vals AI 评测显示,Z.ai 的 GLM-5.2 在 Vals Index、Vibe Code Bench 和 Terminal Bench 上成为开源权重新 SOTA,全模型排名第五,紧随两个月前发布的 Opus 4.7。此前该模型已在 CritPt、Code Arena、Design Arena、Terminal-Bench 2.1 等基准测试中表现卓越。
LoopCoder-v2 发布:7B 模型 SWE-bench Verified 达 64.4
LoopCoder-v2 发布新版,7B 参数模型通过共享 Transformer 块优化和测试时策略,在 SWE-bench Verified 上从 43.0 提升至 64.4。研究表明,2 次循环是最佳选择,可进行有效细化,而更多循环会引入重复性变化和位置偏移代价。该模型在 Coding、软件工程、终端和工具使用场景上表现优于基准。
Poolside 开源 Laguna M.1 模型权重,支持 256K 上下文
Poolside 宣布开源其最强模型 Laguna M.1 的权重,采用 Apache 2.0 许可,base 和 post-trained 检查点已在 Hugging Face 上发布。该模型支持 256K 的上下文长度,为开发者提供了更长的上下文处理能力。
Cline 免费提供 Step 3.7 Flash,SWE Bench 超越 Gemini
Cline 团队发布 Step 3.7 Flash 模型,并提供一个月免费试用,包含开源权重和 256k 上下文窗口。该模型在 SWE Bench 测试中超越 Gemini 和 DeepSeek Flash 模型,性能接近前沿水平,为开发者提供高性价比选择。
Fable 5 发布 Gemma 4 WebGPU 优化演示,推理速度提升
Xenova 宣布发布为 Fable 5 和 Gemma 4 编写的自定义 WebGPU kernels 演示,在 WebGPU 上实现了 255 tok/s 的推理速度,较之前的 84 tok/s 有显著提升。该优化采用 agentic kernel optimization,被认为是端侧推理的未来方向。
产品更新
Grok 插件 for Microsoft Word 上线,支持文档起草与研究
xAI 推出 Grok 插件为 Microsoft Word,支持文档起草、网络研究内容摘要生成及绘图功能。该产品现已上线,为用户提供智能文档处理能力,此前 Grok 也已深度集成 PowerPoint 和 Excel。
Grok TTS 在 Vapi 盲测中获得 96 分,接近真人水平
Vapi AI 的 Humanness Index 盲测显示,xAI 的 Grok TTS 模型以 96 分位列第一,仅比真人语音(100 分)低 4 分,显著领先其他主要语音模型。该模型兼具自然语音、低延迟和激进定价,展示了 xAI 在语音合成领域的强大能力。
Perplexity 推出 Computer agent 记忆系统 Brain
Perplexity 为其 Computer agent 推出名为 Brain 的记忆系统,通过构建上下文图并在设定间隔进行自我回顾,以改进任务执行。该功能使需要历史上下文的任务答案正确性提升 25%,召回率提升 16%,每任务成本降低 13%。Brain 将每条记忆链接回原始会话、文件或来源,作为研究预览向 Max 和 Enterprise Max 订阅用户开放。
Claude Code 推出 Artifact 功能:实现编程协作可视化
Anthropic 为 Claude Code 推出 Artifact 功能,可将终端会话中的工作过程(如 PR 走查、调试时间线)生成为实时更新的私有网页链接,供团队成员查看。该功能在内部测试中最高频场景是调试,目前以 beta 形式向 Team 和 Enterprise 组织开放。
OpenAI Codex 推出 Record & Replay 功能,支持技能复用
OpenAI 为 Codex 推出 Record & Replay 功能,用户只需演示一次完整的浏览器操作(如 YouTube Studio 填写元数据),系统即可将录制转化为可复用技能。该功能可在后续任务中自动匹配素材、填写信息、核验结果,支持电脑、浏览器及已连接插件操作,可扩展至 PR 整理、日程安排等场景。
OpenAI GPT-5.5 Instant 提升健康问答能力并向免费用户开放
OpenAI 宣布 GPT-5.5 Instant 在健康相关问题上的表现与其前沿思考模型持平。该模型与全球 60 多个国家、49 种语言、26 个专科的数百名医生合作改进,已向所有免费用户开放,提升了紧急情况识别、上下文询问和不确定性解释能力,每周服务超过 2.3 亿用户。
Microsoft 评估 DeepSeek 等开源模型用于 Copilot Cowork 以降低成本
Microsoft 正在评估 DeepSeek、GLM、MiniMax、Kimi 等多个开源模型,用于 Copilot Cowork 以降低成本,并计划转向基于使用量的定价。此举旨在实现模型可互换,并将部分任务本地执行,以应对内部 MAI 团队面临的压力。
研究突破
OpenAI 论文探讨对齐泛化:负面行为泛化至多领域
OpenAI 发表论文研究 emergent misalignment 现象,发现训练时的负面行为会泛化至健康、教育、科学、法律等多个未见领域。研究通过构建对话数据并加入少量此类数据进行 RL 训练,结果显示模型在训练域内更诚实、透明、易纠正,且在域外整体提升,对抗压力下更具韧性。
视角规划研究提升 VLM 成功率,View Graph Distillation 达 47.8%
视角规划研究小组提出 ViewSuite,提供 6 维自由度相机控制和约 165K 个任务实例,用于评测 VLM 模型。研究发现模型难以形成完整规划,对 Qwen2.5-VL-7B 进行 RL 训练仅 2.5% 成功率。采用 View Graph Distillation (RL-Graph-SFT) 后,成功率大幅提升至 47.8%。
Sakana AI 提出 Doc-to-LoRA 和 Text-to-LoRA,实现模型快速定制
Sakana AI 提出 Doc-to-LoRA 和 Text-to-LoRA,通过超网络生成 LoRA 适配器,实现模型的快速定制。该方法在 needle-in-a-haystack 任务中,对五倍上下文长度的实例达到近 100% 准确率,并实现子秒延迟,代码和论文已开源。
UCSD 黄碧薇教授发布 Causal World Models 框架,Aether AI 融资 2000 万美元
UCSD 黄碧薇教授在 CVPR 2026 发布 Causal World Models 框架,指出当前 VLA 模型因只学习统计相关性而非因果律,导致在物理场景下失败。她成立的 Aether AI 获得 2000 万美元融资,专注于因果世界模型研究,拥有 12 年因果 AI 经验,其工作与李飞飞关于世界模型需捕捉 3D 结构与因果关系的观点相呼应。
EfficientRollout:FuriosaAI 与 UC Berkeley 提出自推测解码框架
FuriosaAI 与 UC Berkeley 提出 EfficientRollout,一种系统感知的自推测解码框架。通过诱导量化自起草器,该框架将 RL rollout 延迟降低 19.6%,端到端训练时间降低 12.7%,且不牺牲模型质量,提升了大模型推理的效率。
OpenAI 合作研究:o3 Deep Research 助力罕见儿科病诊断
OpenAI 与波士顿儿童医院、哈佛大学联合在《NEJM AI》发表研究,展示了 o3 Deep Research 如何帮助临床医生重新诊断此前未解决的罕见儿科疾病病例。该模型通过连接临床特征、遗传模式、变异证据和科学文献生成假设,经专家审核和临床确认,为等待多年的家庭找到答案。
智能体与平台
Anthropic Claude Opus 4.7 编程机器狗,速度提升 20 倍
Anthropic 在 Project Fetch 第二阶段中,让 Claude Opus 4.7 独立编程机器狗完成 5 项任务,耗时 12 分钟,比去年人类团队(264 分钟)快约 20 倍。虽然代码行数从 10309 降至 1045,但机器狗仍因闭环控制失败未能成功抓取球,体现了 Agent 在物理世界应用的挑战。
Atomic Mail 推出 AI 代理 API 优先邮件服务,支持自主管理
Atomic Mail 推出 AI 代理 API 优先邮件服务,允许 AI 代理通过 MCPs 和 Agent Skills 自主管理邮件账户,无需人工干预即可独立发送、接收和回复邮件。用户可通过指令集成服务,代理拥有独立的邮箱并在工作流中处理邮件操作,目前处于免费开放 Alpha 版阶段。
SkillWeaver:面向 LLM 智能体的组合技能路由方法
论文提出组合技能路由方法 SkillWeaver,能将复杂查询分解为原子子任务,并为每个子任务检索合适技能并组合成可执行计划。系统采用 LLM 分解器、bi-encoder FAISS 检索器和依赖感知 DAG 规划器,并配套发布 CompSkillBench 基准,以直接评估多技能场景下的智能体性能。
DAIR.AI 推出 PreAct 方法,使计算机智能体速度提升 8.5-13 倍
DAIR.AI 介绍了 PreAct 方法,该方法将计算机使用智能体的首次成功运行编译为小型状态机程序。后续任务可直接回放,速度提升 8.5-13 倍,且无每步语言模型调用。系统通过屏幕校验,若发现不一致则退回原始推理,大幅提升了智能体的执行效率。
开发者工具
Vercel 开源 Agent 框架 Eve,内置持久会话与沙箱
Vercel 开源其 Agent 框架 Eve,采用“Agent 即目录”设计理念,内置持久会话、沙箱、Human-in-the-loop 和多 Channel 等生产级能力。内部应用数据显示,d0 每月处理 3 万多询问,Lead Agent 年成本约 5 千美元回报约 32 倍,Vertex 解决了约 92% 的工单。
Codex Automations 提出内外双循环架构,提升邮件任务准确度
Codex Automations 提出了内外双循环架构用于邮件等任务的上下文管理。内循环负责将上下文带入任务(检索、起草、校验、产出草稿),外循环从人工审阅中回收上下文,分析草稿与终稿差异,仅将经批准的教训纳入写作指引。内循环快响应(如每 2 小时),外循环慢频率(日末或每周),共同提升回复准确度。
基础设施
Google TPU 五代技术演进:能效提升 30 倍,每代规模升级
Google 的 TPU 团队发布论文分析从 TPU v2 到 Ironwood 五代芯片的演进。技术从 air cooling 发展到 water cooling,互联从 2D 升级到 3D torus,每代规模从 256 芯片提升至 9216 芯片,能效提高 30 倍。论文还揭示 Google 工作负载对 transformer 模型的日益依赖。
SGLang-JAX 优化 Ling-2.6-1T 模型,TPU v7x 吞吐量提高 1.77 倍
SGLang 团队与 Ant Ling 合作,通过 SGLang-JAX 优化 Ling-2.6-1T(1T 参数混合 MoE 模型)在 TPU v7x 上的推理性能。采用 Fused MoE V2 内核等技术,实现了 MoE pre-fill 延迟降低 53%,在 16 芯片 TPU v7x 上的解码吞吐量比类似 H200 集群提高 1.77 倍,显著提升了模型服务效率。
行业分析
经济学人:AI 推动互联网内容生产进入新阶段
经济学人分析指出 AI 已将互联网内容生产推向新阶段。亚马逊电子书月发布量从 ChatGPT-3.5 前的 10 万增至 30 万;美国自诉案件中 18% 带有 AI 写作痕迹;arXiv 拒稿率翻倍;iOS 应用月发布量超 10 万;AI 歌曲日产出从 1 万增至 7.5 万,44% 新上传为 AI 制作,表明 AI 正大规模重塑内容创作格局。
AA-Briefcase 发布长期知识工作基准,Claude Fable 5 领先
Artificial Analysis 发布 AA-Briefcase 基准测试,评估模型在长期知识工作项目中的表现。Claude Fable 5 以 1587 Elo 领先,成本约 31 美元/任务;紧随其后的是 Claude Opus 4.8(1356 Elo,10.40 美元)和 GLM-5.2(1266 Elo,2.40 美元)。然而,仅 3% 的任务中顶级模型能满足所有标准,表明现实复杂度仍是挑战。
Kimi K2.7 Code 与 Claude Fable 5 落地页生成对比分析
@nutlope 对 Kimi K2.7 Code 和 Claude Fable 5 生成 12 个落地页进行对比。结果显示 Kimi 单页成本仅 4 美分(Claude Fable 为 1.09 美元),总成本降低 94%。在经过 MCP 视觉参考后,Kimi 的质量已接近 Claude 水平,揭示了开源模型在特定商业应用场景中的成本优势和潜力。