AI HOT 日报 (morning)

商业与人事

Anthropic 完成 650 亿美元 Series H 融资

AnthropicAltimeter CapitalSemiAnalysis

Anthropic 宣布完成 650 亿美元 Series H 融资，投后估值达 9650 亿美元，由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投。公司披露年化经常性收入已超过 470 亿美元，并已与 Amazon (5GW)、Google/Broadcom (5GW TPU)、SpaceX (Colossus 1/2 GPU) 签署算力协议，成为首个同时上线 AWS、Google Cloud 和 Microsoft Azure 的前沿模型。

Cognition AI 融资超 10 亿美元

Cognition AIrohanpaul_ai

Cognition AI 宣布完成超 10 亿美元融资，投前估值达 260 亿美元。公司年化经常性收入从 3700 万美元增至 4.92 亿至 5 亿美元，约 1 年内增长超 10 倍，客户包括 Goldman Sachs 和 Mercedes-Benz。其核心产品 Devin 定位为自主初级工程师，结合自研模型与 OpenAI、Anthropic 模型。

超大规模云厂商资本开支预测

Epoch AI Research

Epoch AI 报告，超大规模云厂商 2026 年 Q1 资本开支达 1561 亿美元，与预测基本一致。自 GPT-4 发布以来，Alphabet、Amazon、Meta、Microsoft 和 Oracle 的资本开支年增 70%，预计 2026 年总额将达 7700 亿美元，2027 年超过 1 万亿美元。

Nvidia 加入中国企业网络

Nvidiarohanpaul_ai

Nvidia 宣布加入中国企业网络，此举可能对其在华业务布局和市场策略产生影响。

AI 公司估值存在跨行业不一致

GavinSBakerrohanpaul_ai

Atreides CIO GavinSBaker 分析指出，AI 相关公司估值存在跨行业差异，内存制造商以 3-5 倍 PE 估值高于 NVIDIA 的低 PE，反映市场对不同 AI 供应链部分（如电力、冷却系统与计算资源）的不同预期。

模型发布

Claude Opus 4.8 发布

Anthropicbchernydotey

Anthropic 发布 Claude Opus 4.8，称其为目前最强的编码模型，SWE-bench Pro 得分从 64.3% 提升至 69.2%，并更诚实地承认不确定性。价格与 4.7 相同，新增 Fast Mode (速度 2.5 倍，价格便宜 3 倍) 和 Dynamic Workflows (研究预览，可并行启动数百个子智能体)。

Meta 开源 Llama 4

Metahongming731

Meta 开源 Llama 4，参数量达 700B，在 MMLU 基准上得分 85，标志着其在大型语言模型领域的最新进展。

Kog 推出 2B 编码模型 Tech Preview

Kogrohanpaul_ai

Kog 开放 2B 编码模型 Tech Preview，在 8× AMD MI300X 上可达 3,000+ output tokens/s，在 8× NVIDIA H200 上达 2,100 tokens/s (FP16，未使用 speculative decoding)，远超典型 100-300 tokens/s 的解码速度，通过协同优化 runtime、GPU code 和 model design 实现。

xAI 发布 grok-imagine-image-quality

xAIArtificial Analysis

xAI 发布最新图像模型 grok-imagine-image-quality，在 Artificial Analysis 的 Text to Image 和 Image Editing 榜单均排名第 5。支持 2K 输出（70 美元/1000 张）和 1K 输出（50 美元/1000 张），价格低于竞品，可通过 xAI 原生 API、Grok 聊天应用和第三方 API 使用。

NVIDIA 发布 LocateAnything-3B

NVIDIAModelScope2022

NVIDIA 发布 LocateAnything-3B，一款用于快速、精确 visual grounding 的视觉语言模型。该模型在现有方法上实现最高 2.5 倍吞吐提升，训练数据包含 1200 万张图像和 7.85 亿个 bounding boxes，已集成到 NVIDIA Nemotron Nano Omni，仅限非商业研究用途。

Paris 2.0 发布：去中心化视频生成模型

bidhan

bidhan ✈️ CVPR 发布 Paris 2.0，称其是首个采用去中心化训练的视频生成模型。与相同数据和计算预算下训练的单体模型相比，Paris 2.0 在 FVD 基准上约提升 2 倍。

智能体与平台

WallStreetPrep 财务建模 AI 代理评测

WallStreetPreprohanpaul_ai

WallStreetPrep 评测 AI 财务建模代理，Primer 表现领先，能生成可审计的 Excel 财务报表。其方法是将工作簿表示为结构化记录，可直接查询和验证财务逻辑，评测标准转向产物是否能通过审计。

Anthropic 调研社会科学领域编码代理使用情况

Anthropic

Anthropic 对 1260 名定量社会科学家调研显示，81% 曾用 genAI 辅助研究，20% 经常使用 CLI 编码助手 (86% Claude Code, 31% Codex)。男性研究者使用比例是女性两倍，顶尖大学研究者使用率高 40%，使用编码代理的研究者更常提交工作论文和资助申请。

HexoAI 开源 SIA 自我改进框架

HexoAIrohanpaul_aiSumanth

HexoAI 发布开源自我改进框架 SIA (Self Improving AI framework)，通过任务反馈训练，模型可更新自身权重。该方法在 LawBench 上提升 56.6%，GPU kernels 运行时减少 91.9%，单细胞 RNA 去噪任务上相对基线提升 502%，并在 OpenAI 的 MLE-Bench 上排名首位。

Agent 可靠性研究提出 AgingBench 基准

rohanpaul_ai

德克萨斯大学团队论文指出，AI agents 部署后即使底层模型不变，也会因多轮会话、记忆压缩、事实更新等逐步失去可靠性。论文提出 AgingBench 基准，分析摘要遗漏、相似记忆混淆、更新事实过期、维护操作破坏记忆等 4 类老化问题。

护栏复杂度悖论：更强模型不需更轻量 harness

DAIR.AI

一项研究发现，更强的模型不一定需要更轻量的结构化控制框架 (harness)。实验显示，对于前沿聊天模型，增加 harness 冗长度会使成功率下降 29-38 个百分点，揭示了“harness-complexity paradox”。

AGI ALERT：并行子代理使用率观察

SemiAnalysis

文章报告当前 AI 系统中并行子代理使用率统计，指出多数场景仅依赖单一代理，少数场景使用 5 个以上并行代理，强调并行策略可提升任务完成效率。

Tencent AI 发布 Miora 创意代理工作室

Tencent AIberryxia

Tencent AI 发布 Miora，一款国际版公测中的 AI 创意代理工作室。该产品将图像、视频、UI/UX、3D 生成整合在同一画布中，支持代理自动理解设计上下文、调用工具、进行编辑，并内置品牌、storyboard 等专业代理及技能商店。

Anthropic 工程团队介绍 AI 智能体约束方法

Anthropic Engineeringhongming731

Anthropic 工程团队介绍了在 claude.ai、Claude Code 和 Claude Cowork 三个产品中约束 AI 智能体的工程方法，涵盖用户滥用、模型行为不当和外部攻击者三类风险，并对应临时容器、人工参与沙箱和本地虚拟机三种隔离模式。

基准测试

Qwen3.7-Max 登上 ITBench-AA 第3

Artificial AnalysisIBM ResearchAlibaba_Qwen

Artificial Analysis 与 IBM Research 推出 ITBench-AA，用于评估模型在企业 IT 代理式任务 (SRE 场景) 上的表现。Claude Opus 4.7 (47%) 领先，GPT-5.5 (46%) 次之，Qwen3.7 Max (42%) 排名第三，所有前沿模型得分均低于 50%。

Qwen 团队发布 T2I 评估工具 Q-Judger 和 Qwen-Image-Bench

QwenModelScope2022berryxia

Qwen 团队发布自动化 T2I 评估工具 Q-Judger 和 Qwen-Image-Bench。Q-Judger 基于 Qwen3.6-27B，生成结构化评分，与人工评分 Spearman ρ=0.92。评估 18 个前沿模型，GPT Image 2 以 64.7 分领先，发现 4 个系统性瓶颈得分均低于 44。

Artificial Analysis 发布 Coding Agent 基准

Artificial Analysis

Artificial Analysis 发布 Coding Agent benchmarks，比较不同编码代理在性能、成本、token 使用量和速度上的差异。Claude Code 的 Opus 4.7 表现领先，Composer 2.5 在 Coding Agent Index / Cost Pareto frontier 上位置突出。

AA-WER Streaming 基准发布

Artificial Analysis

Artificial Analysis 发布 AA-WER Streaming 基准，衡量 streaming Speech to Text 模型在语音代理场景下的准确率与延迟。Final 口径下 Cartesia Ink-2 (WER 3.59%, 延迟 0.21s) 准确率最高，ElevenLabs Scribe v2 Realtime (WER 3.64%, 延迟 0.14s) 次之，DeepgramAI Flux 最快 (0.020s)。

SWE-rebench 更新：GPT-5.5 xhigh 排名第 1

ibragim_bad

Ibragim 更新 live benchmark SWE-rebench 的 3 月到 5 月版本，新增更多 GitHub issue+PR 任务。最新结果中，GPT-5.5 xhigh 以 62.7% resolved 和 70.0% pass@5 排名第 1；Cursor 搭配 Composer 2.5 比 Claude Code 和 Codex 便宜约 8 倍。

TERMS-Bench 发布：评估 LLM 代理经济谈判能力

Ericagooglegemma

Erica 团队发布 TERMS-Bench，一个用于评测 LLM 代理在真实经济谈判场景中的三层基准。结果显示，AnthropicAI 的 Claude Opus 4.6 排名第 1，Zai_org 的 GLM 5.1 排名第 2；开源模型中 GoogleDeepMind 的 Gemma 4 31B 表现最好。

WBench 上线 ModelScope：评测交互式视频世界模型

Meituan_LongCatModelScope2022

Meituan_LongCat 开发的 WBench 已在 ModelScope 上线，用于评测 Interactive Video World Models 的多轮交互能力。该基准覆盖 289 个案例、1058 轮交互，评估 20 个顶级模型。导航子项中，Kling 3.0 以 79.2 居首，LingBot-World 以 78.8 位列第二。

产品更新

OpenAI 推出 Private MCP Tunnels

OpenAIberryxia

OpenAI 推出 Private MCP Tunnels，允许企业将 MCP 服务器保留在内网，通过单向 HTTPS outbound 连接 ChatGPT、Codex 和 Responses API，无需开放入站端口或永久 API Key。同时发布 Workload Identity Federation 和增强 Admin API，将 AI 平台升级为企业级基础设施。

Apple 将重大改革 Siri 并推出新应用

AppleBloombergtestingcatalog

Bloomberg 报道，Apple 准备在 9 月初宣布 Siri 的重大改革，并推出专门的 Siri 应用，作为 iOS 27 的一部分。此次更新将包含完全重新设计的 Siri、新的 AI 功能、增强的照片编辑功能以及面向专业人士的可定制相机应用。

Perplexity Computer 集成 Microsoft Office 套件

Perplexityperplexity_ai

Perplexity Computer 现已集成 Microsoft Excel、Word、PowerPoint 和 Outlook，可在应用程序侧边栏中直接操作文档、建模、制作演示文稿和处理邮件。该产品基于 Perplexity 的企业级安全架构，支持 SAML SSO、审计日志和细粒度管理控制。

Kling AI 在 Lot's Community Day 展示原创短片

Kling_ai

Kling AI 在 Lot's Community Day 上展示了其原创短片，旨在推动 AI 电影制作领域的进步。

Google AI 助力物理材料生成电影

GoogleAI

Google AI 宣布其技术已成功助力物理材料生成电影，展示了 AI 在创意内容生成领域的新应用。

基础设施

SpaceX 自研 AI 训练栈 V1.0

SpaceXElon Musk

Elon Musk 透露 SpaceX 几乎已完成一套用 C 编写的内部 AI 训练栈 V1.0，该系统可精确映射到 22 万块配备 800G NIC 的 GB300，并大量使用 pipeline parallelism，潜在速度提升相较 JAX 可达到一个数量级以上。

HF science team 异步 RL 权重同步优化

Hugging FaceClementDelangue

Hugging Face science team 在 TRL 中实现异步 RL 权重同步优化，每个 RL step 只导出变化的稀疏 safetensors 文件，通过 Hugging Face Bucket 分发给 vLLM。Qwen3-0.6B 单步传输载荷从 1.2 GB 降至 20–35 MB，带宽开销约降低 100 倍。

Reactor 推出实时世界模型基础设施

Reactorrohanpaul_ai

Reactor 推出实时世界模型基础设施层，获得 Lightspeed 等投资者 5900 万美元融资。该平台通过 SDK 仅需数行代码即可在产品中实时流式渲染世界模型生成的像素，适用于游戏、创意工具、仿真等场景，已有数百名开发者使用。

Firecrawl 上线 /monitor 功能

Firecrawlberryxia

Firecrawl 上线 /monitor 功能，支持用户输入 URL 并用自然语言描述跟踪目标，系统按设定频率监测页面变化并通过 webhook 推送给 AI agent。该方案只摄取真正变动部分，最多可减少 90% 的 LLM tokens，支持 API、CLI、MCP 或 dashboard 初始化。

研究突破

Meta AI 团队发布 ATLAS 自动形式化项目

Meta AICharles ArnalYann LeCun

Meta AI 团队发布 ATLAS，一项自动形式化项目，收录了来自 25+ 本数学教材的 Lean 4 形式化内容，总计 50 万行代码。同时开源了一个可扩展的形式化 harness 和配套论文，由 AI at Meta、NYU Data Science 和 Ecole des Ponts 团队共同推进。

Diffusion Transformers 层间信息路由新思路

rohanpaul_ai

研究者指出 Image diffusion Transformers 训练缓慢因层间信息传递方式过时，标准 residual stack 存在前向信号过大、反向梯度衰减等问题。提出 Diffusion-Adaptive Routing，让每层根据 denoising timestep 选择更早层输出，相同图像质量下训练迭代次数减少 8.75 倍。

PhysX-Omni：统一物理模拟就绪 3D 生成

_akhaliq

AK 团队发布 PhysX-Omni 论文，提出一种统一的物理模拟就绪 3D 生成方法，支持刚体、变形体和关节对象。该方法通过统一框架实现多类型物体的物理生成，视频演示了其在模拟就绪性方面的效果。

开发者工具

Alibaba Cloud 推出 ANOLISA OS

Alibaba Cloud

Alibaba Cloud 推出 ANOLISA 操作系统，首款专为 AI 代理设计的操作系统。该系统包含内置技能模块（节省最多 30% 的 token 开销）、双模式 Shell（人机控制）和 AgentSecCore（操作级沙箱隔离风险），旨在解决传统操作系统成为 AI 代理瓶颈的问题。