返回日报列表
AI 日报 收录 77 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月28日 00:00 ~ 2026年05月29日 00:00
生成于: 2026年05月29日 00:01
本期导读
本时段,Anthropic 完成 650 亿美元 Series H 融资,估值达 9650 亿美元,并披露年化收入超 470 亿美元,同时发布 Claude Opus 4.8,在编码和智能体能力上显著提升。Cognition AI 也完成超 10 亿美元融资,估值达 260 亿美元。这表明头部 AI 公司正加速商业化进程,并通过模型迭代和基础设施优化,推动智能体应用向更复杂、更高效的生产场景落地。

商业与人事

Anthropic 完成 650 亿美元 Series H 融资

AnthropicAltimeter CapitalSemiAnalysis

Anthropic 宣布完成 650 亿美元 Series H 融资,投后估值达 9650 亿美元,由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投。公司披露年化经常性收入已超过 470 亿美元,并已与 Amazon (5GW)、Google/Broadcom (5GW TPU)、SpaceX (Colossus 1/2 GPU) 签署算力协议,成为首个同时上线 AWS、Google Cloud 和 Microsoft Azure 的前沿模型。

Cognition AI 融资超 10 亿美元

Cognition AIrohanpaul_ai

Cognition AI 宣布完成超 10 亿美元融资,投前估值达 260 亿美元。公司年化经常性收入从 3700 万美元增至 4.92 亿至 5 亿美元,约 1 年内增长超 10 倍,客户包括 Goldman Sachs 和 Mercedes-Benz。其核心产品 Devin 定位为自主初级工程师,结合自研模型与 OpenAI、Anthropic 模型。

超大规模云厂商资本开支预测

Epoch AI Research

Epoch AI 报告,超大规模云厂商 2026 年 Q1 资本开支达 1561 亿美元,与预测基本一致。自 GPT-4 发布以来,Alphabet、Amazon、Meta、Microsoft 和 Oracle 的资本开支年增 70%,预计 2026 年总额将达 7700 亿美元,2027 年超过 1 万亿美元。

Nvidia 加入中国企业网络

Nvidiarohanpaul_ai

Nvidia 宣布加入中国企业网络,此举可能对其在华业务布局和市场策略产生影响。

AI 公司估值存在跨行业不一致

GavinSBakerrohanpaul_ai

Atreides CIO GavinSBaker 分析指出,AI 相关公司估值存在跨行业差异,内存制造商以 3-5 倍 PE 估值高于 NVIDIA 的低 PE,反映市场对不同 AI 供应链部分(如电力、冷却系统与计算资源)的不同预期。

模型发布

Claude Opus 4.8 发布

Anthropicbchernydotey

Anthropic 发布 Claude Opus 4.8,称其为目前最强的编码模型,SWE-bench Pro 得分从 64.3% 提升至 69.2%,并更诚实地承认不确定性。价格与 4.7 相同,新增 Fast Mode (速度 2.5 倍,价格便宜 3 倍) 和 Dynamic Workflows (研究预览,可并行启动数百个子智能体)。

Meta 开源 Llama 4

Metahongming731

Meta 开源 Llama 4,参数量达 700B,在 MMLU 基准上得分 85,标志着其在大型语言模型领域的最新进展。

Kog 推出 2B 编码模型 Tech Preview

Kogrohanpaul_ai

Kog 开放 2B 编码模型 Tech Preview,在 8× AMD MI300X 上可达 3,000+ output tokens/s,在 8× NVIDIA H200 上达 2,100 tokens/s (FP16,未使用 speculative decoding),远超典型 100-300 tokens/s 的解码速度,通过协同优化 runtime、GPU code 和 model design 实现。

xAI 发布 grok-imagine-image-quality

xAIArtificial Analysis

xAI 发布最新图像模型 grok-imagine-image-quality,在 Artificial Analysis 的 Text to Image 和 Image Editing 榜单均排名第 5。支持 2K 输出(70 美元/1000 张)和 1K 输出(50 美元/1000 张),价格低于竞品,可通过 xAI 原生 API、Grok 聊天应用和第三方 API 使用。

NVIDIA 发布 LocateAnything-3B

NVIDIAModelScope2022

NVIDIA 发布 LocateAnything-3B,一款用于快速、精确 visual grounding 的视觉语言模型。该模型在现有方法上实现最高 2.5 倍吞吐提升,训练数据包含 1200 万张图像和 7.85 亿个 bounding boxes,已集成到 NVIDIA Nemotron Nano Omni,仅限非商业研究用途。

Paris 2.0 发布:去中心化视频生成模型

bidhan

bidhan ✈️ CVPR 发布 Paris 2.0,称其是首个采用去中心化训练的视频生成模型。与相同数据和计算预算下训练的单体模型相比,Paris 2.0 在 FVD 基准上约提升 2 倍。

智能体与平台

WallStreetPrep 财务建模 AI 代理评测

WallStreetPreprohanpaul_ai

WallStreetPrep 评测 AI 财务建模代理,Primer 表现领先,能生成可审计的 Excel 财务报表。其方法是将工作簿表示为结构化记录,可直接查询和验证财务逻辑,评测标准转向产物是否能通过审计。

Anthropic 调研社会科学领域编码代理使用情况

Anthropic

Anthropic 对 1260 名定量社会科学家调研显示,81% 曾用 genAI 辅助研究,20% 经常使用 CLI 编码助手 (86% Claude Code, 31% Codex)。男性研究者使用比例是女性两倍,顶尖大学研究者使用率高 40%,使用编码代理的研究者更常提交工作论文和资助申请。

HexoAI 开源 SIA 自我改进框架

HexoAIrohanpaul_aiSumanth

HexoAI 发布开源自我改进框架 SIA (Self Improving AI framework),通过任务反馈训练,模型可更新自身权重。该方法在 LawBench 上提升 56.6%,GPU kernels 运行时减少 91.9%,单细胞 RNA 去噪任务上相对基线提升 502%,并在 OpenAI 的 MLE-Bench 上排名首位。

Agent 可靠性研究提出 AgingBench 基准

rohanpaul_ai

德克萨斯大学团队论文指出,AI agents 部署后即使底层模型不变,也会因多轮会话、记忆压缩、事实更新等逐步失去可靠性。论文提出 AgingBench 基准,分析摘要遗漏、相似记忆混淆、更新事实过期、维护操作破坏记忆等 4 类老化问题。

护栏复杂度悖论:更强模型不需更轻量 harness

DAIR.AI

一项研究发现,更强的模型不一定需要更轻量的结构化控制框架 (harness)。实验显示,对于前沿聊天模型,增加 harness 冗长度会使成功率下降 29-38 个百分点,揭示了“harness-complexity paradox”。

AGI ALERT:并行子代理使用率观察

SemiAnalysis

文章报告当前 AI 系统中并行子代理使用率统计,指出多数场景仅依赖单一代理,少数场景使用 5 个以上并行代理,强调并行策略可提升任务完成效率。

Tencent AI 发布 Miora 创意代理工作室

Tencent AIberryxia

Tencent AI 发布 Miora,一款国际版公测中的 AI 创意代理工作室。该产品将图像、视频、UI/UX、3D 生成整合在同一画布中,支持代理自动理解设计上下文、调用工具、进行编辑,并内置品牌、storyboard 等专业代理及技能商店。

Anthropic 工程团队介绍 AI 智能体约束方法

Anthropic Engineeringhongming731

Anthropic 工程团队介绍了在 claude.ai、Claude Code 和 Claude Cowork 三个产品中约束 AI 智能体的工程方法,涵盖用户滥用、模型行为不当和外部攻击者三类风险,并对应临时容器、人工参与沙箱和本地虚拟机三种隔离模式。

基准测试

Qwen3.7-Max 登上 ITBench-AA 第3

Artificial AnalysisIBM ResearchAlibaba_Qwen

Artificial Analysis 与 IBM Research 推出 ITBench-AA,用于评估模型在企业 IT 代理式任务 (SRE 场景) 上的表现。Claude Opus 4.7 (47%) 领先,GPT-5.5 (46%) 次之,Qwen3.7 Max (42%) 排名第三,所有前沿模型得分均低于 50%。

Qwen 团队发布 T2I 评估工具 Q-Judger 和 Qwen-Image-Bench

QwenModelScope2022berryxia

Qwen 团队发布自动化 T2I 评估工具 Q-Judger 和 Qwen-Image-Bench。Q-Judger 基于 Qwen3.6-27B,生成结构化评分,与人工评分 Spearman ρ=0.92。评估 18 个前沿模型,GPT Image 2 以 64.7 分领先,发现 4 个系统性瓶颈得分均低于 44。

Artificial Analysis 发布 Coding Agent 基准

Artificial Analysis

Artificial Analysis 发布 Coding Agent benchmarks,比较不同编码代理在性能、成本、token 使用量和速度上的差异。Claude Code 的 Opus 4.7 表现领先,Composer 2.5 在 Coding Agent Index / Cost Pareto frontier 上位置突出。

AA-WER Streaming 基准发布

Artificial Analysis

Artificial Analysis 发布 AA-WER Streaming 基准,衡量 streaming Speech to Text 模型在语音代理场景下的准确率与延迟。Final 口径下 Cartesia Ink-2 (WER 3.59%, 延迟 0.21s) 准确率最高,ElevenLabs Scribe v2 Realtime (WER 3.64%, 延迟 0.14s) 次之,DeepgramAI Flux 最快 (0.020s)。

SWE-rebench 更新:GPT-5.5 xhigh 排名第 1

ibragim_bad

Ibragim 更新 live benchmark SWE-rebench 的 3 月到 5 月版本,新增更多 GitHub issue+PR 任务。最新结果中,GPT-5.5 xhigh 以 62.7% resolved 和 70.0% pass@5 排名第 1;Cursor 搭配 Composer 2.5 比 Claude Code 和 Codex 便宜约 8 倍。

TERMS-Bench 发布:评估 LLM 代理经济谈判能力

Ericagooglegemma

Erica 团队发布 TERMS-Bench,一个用于评测 LLM 代理在真实经济谈判场景中的三层基准。结果显示,AnthropicAI 的 Claude Opus 4.6 排名第 1,Zai_org 的 GLM 5.1 排名第 2;开源模型中 GoogleDeepMind 的 Gemma 4 31B 表现最好。

WBench 上线 ModelScope:评测交互式视频世界模型

Meituan_LongCatModelScope2022

Meituan_LongCat 开发的 WBench 已在 ModelScope 上线,用于评测 Interactive Video World Models 的多轮交互能力。该基准覆盖 289 个案例、1058 轮交互,评估 20 个顶级模型。导航子项中,Kling 3.0 以 79.2 居首,LingBot-World 以 78.8 位列第二。

产品更新

OpenAI 推出 Private MCP Tunnels

OpenAIberryxia

OpenAI 推出 Private MCP Tunnels,允许企业将 MCP 服务器保留在内网,通过单向 HTTPS outbound 连接 ChatGPT、Codex 和 Responses API,无需开放入站端口或永久 API Key。同时发布 Workload Identity Federation 和增强 Admin API,将 AI 平台升级为企业级基础设施。

Apple 将重大改革 Siri 并推出新应用

AppleBloombergtestingcatalog

Bloomberg 报道,Apple 准备在 9 月初宣布 Siri 的重大改革,并推出专门的 Siri 应用,作为 iOS 27 的一部分。此次更新将包含完全重新设计的 Siri、新的 AI 功能、增强的照片编辑功能以及面向专业人士的可定制相机应用。

Perplexity Computer 集成 Microsoft Office 套件

Perplexityperplexity_ai

Perplexity Computer 现已集成 Microsoft Excel、Word、PowerPoint 和 Outlook,可在应用程序侧边栏中直接操作文档、建模、制作演示文稿和处理邮件。该产品基于 Perplexity 的企业级安全架构,支持 SAML SSO、审计日志和细粒度管理控制。

Kling AI 在 Lot's Community Day 展示原创短片

Kling_ai

Kling AI 在 Lot's Community Day 上展示了其原创短片,旨在推动 AI 电影制作领域的进步。

Google AI 助力物理材料生成电影

GoogleAI

Google AI 宣布其技术已成功助力物理材料生成电影,展示了 AI 在创意内容生成领域的新应用。

基础设施

SpaceX 自研 AI 训练栈 V1.0

SpaceXElon Musk

Elon Musk 透露 SpaceX 几乎已完成一套用 C 编写的内部 AI 训练栈 V1.0,该系统可精确映射到 22 万块配备 800G NIC 的 GB300,并大量使用 pipeline parallelism,潜在速度提升相较 JAX 可达到一个数量级以上。

HF science team 异步 RL 权重同步优化

Hugging FaceClementDelangue

Hugging Face science team 在 TRL 中实现异步 RL 权重同步优化,每个 RL step 只导出变化的稀疏 safetensors 文件,通过 Hugging Face Bucket 分发给 vLLM。Qwen3-0.6B 单步传输载荷从 1.2 GB 降至 20–35 MB,带宽开销约降低 100 倍。

Reactor 推出实时世界模型基础设施

Reactorrohanpaul_ai

Reactor 推出实时世界模型基础设施层,获得 Lightspeed 等投资者 5900 万美元融资。该平台通过 SDK 仅需数行代码即可在产品中实时流式渲染世界模型生成的像素,适用于游戏、创意工具、仿真等场景,已有数百名开发者使用。

Firecrawl 上线 /monitor 功能

Firecrawlberryxia

Firecrawl 上线 /monitor 功能,支持用户输入 URL 并用自然语言描述跟踪目标,系统按设定频率监测页面变化并通过 webhook 推送给 AI agent。该方案只摄取真正变动部分,最多可减少 90% 的 LLM tokens,支持 API、CLI、MCP 或 dashboard 初始化。

研究突破

Meta AI 团队发布 ATLAS 自动形式化项目

Meta AICharles ArnalYann LeCun

Meta AI 团队发布 ATLAS,一项自动形式化项目,收录了来自 25+ 本数学教材的 Lean 4 形式化内容,总计 50 万行代码。同时开源了一个可扩展的形式化 harness 和配套论文,由 AI at Meta、NYU Data Science 和 Ecole des Ponts 团队共同推进。

Diffusion Transformers 层间信息路由新思路

rohanpaul_ai

研究者指出 Image diffusion Transformers 训练缓慢因层间信息传递方式过时,标准 residual stack 存在前向信号过大、反向梯度衰减等问题。提出 Diffusion-Adaptive Routing,让每层根据 denoising timestep 选择更早层输出,相同图像质量下训练迭代次数减少 8.75 倍。

PhysX-Omni:统一物理模拟就绪 3D 生成

_akhaliq

AK 团队发布 PhysX-Omni 论文,提出一种统一的物理模拟就绪 3D 生成方法,支持刚体、变形体和关节对象。该方法通过统一框架实现多类型物体的物理生成,视频演示了其在模拟就绪性方面的效果。

开发者工具

Alibaba Cloud 推出 ANOLISA OS

Alibaba Cloud

Alibaba Cloud 推出 ANOLISA 操作系统,首款专为 AI 代理设计的操作系统。该系统包含内置技能模块(节省最多 30% 的 token 开销)、双模式 Shell(人机控制)和 AgentSecCore(操作级沙箱隔离风险),旨在解决传统操作系统成为 AI 代理瓶颈的问题。