AI HOT 日报 (morning)
商业与人事
Cognition AI 融资超 10 亿美元
Cognition AI 宣布完成超 10 亿美元融资,投后估值达 260 亿美元,由 Lux Capital、General Catalyst 和 8VC 领投。其企业使用量自年初增长超 10 倍,年化运行收入达 4.92 亿美元,客户包括 Goldman Sachs 和 Mercedes-Benz。核心产品 Devin 定位为自主初级工程师,可在安全环境中完成规划、测试和部署代码的多步骤工作流,并结合自身模型与 OpenAI、Anthropic 的模型。
OpenRouter 完成 1.13 亿美元 B 轮融资
OpenRouter 宣布完成 1.13 亿美元 Series B 融资,由 CapitalG 领投,a16z、Menlo Ventures、NVIDIA 的 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等机构跟投。其周度 token 处理量在过去 6 个月从 5T 增至 25T,年处理量已达 1.5 quadrillion tokens/yr;官方还称自今年 2 月融资后收入已翻倍。其统一 API 支持切换 500 多个模型,其中包括 50 多个免费模型。
Micron 市值突破 1 万亿美元
Micron 的市值因 AI 时代对存储的需求上升而突破 1 万亿美元,过去 12 个月其估值从 700 亿美元升至 1 万亿美元。文章指出,AI 计算的下一阶段瓶颈是 HBM 等内存;UBS 研究将 Micron 目标价从 535 美元上调至 1,625 美元,理由是长期供应协议和部分固定定价可能让内存盈利相比以往更不周期化。
Trajectory 获 1500 万美元融资
Trajectory 由前 DeepMind、OpenAI、Meta Superintelligence 研究员发起,宣布推出持续学习平台,目标是利用产品使用信号持续训练大规模 agentic 模型。公司近期完成 1500 万美元融资,投资方包括 Conviction、Bessemer Venture Partners、Radical Venture Fund 等,并已与 Clay RunHQ、Harvey、DecagonAI、MercorAI、RogoAI 等 AI 原生公司合作。
蚂蚁集团 CEO 提出 Agent 经济新思考
蚂蚁集团 CEO 韩歆毅认为互联网核心逻辑正从网络效应和流量转向 Agent 生态,信任机制将从直觉判断转向基于结果交付的 credit 系统,Token 将成为 Agent 经济时代价值新载体,AI 支付是未来重要基础设施,支付宝正在大力布局 AI 支付团队。
OpenAI Foundation 承诺 2.5 亿美元
OpenAI Foundation 宣布初始投入 2.5 亿美元,支持 AI 时代的测量、转型支持以及更广泛共享繁荣的新方案。其目标是让 AI 显著提升全球人们的生活质量和个人自由。
智能体与平台
微软发布 Web Agent 框架 Webwright
微软发布终端原生 Web Agent 框架 Webwright,让 LLM 直接生成可运行的 Playwright 脚本,将网页操作改为代码驱动。该框架在 Online-Mind2Web 300 个任务上达到 86.7% (GPT-5.4),在 Odysseys 200 个长程任务上达到 60.1% (GPT-5.4),比此前 SOTA 高 15.6 个百分点;Claude Opus 4.7 在该框架上达到 84.7%。
OpenAI 与 Thrive 打造税务智能体 Tax AI
OpenAI 与 Thrive Holdings 联合为 Crete 的 30 多家会计事务所共建 Tax AI,在过去 6 个月中处理了 7,000 份税务申报,覆盖 1040 和 1041 表单。该系统可为从业者节省约三分之一时间、准确率最高达 97%、吞吐提升约 50%。上线时 25% 的返回能达到 75% 正确字段完成度,6 周内升至 86%。
Datacurve 发布 DeepSWE 软件工程基准
Datacurve 发布 DeepSWE,一个更难的长周期软件工程基准,用于区分领先模型在真实代理式编码任务中的能力差异。结果显示,GPT-5.5 得分 70%,GPT-5.4 得分 56%,Claude Opus 4.7 得分 54%。DeepSWE 相比旧编码基准采用原创任务,解题通常需要 5.5 倍更多代码和约 2 倍输出 token。
Claude Code 新插件 security-guidance
Claude Code 发布了插件 security-guidance,用两个 Claude 实例配合完成代码审查:一个实例负责写代码,另一个使用全新上下文和独立 prompt 审查刚修改的内容。插件采用三层机制,从浅到深分别是 per-edit 正则匹配、turn 结束后的 diff review,以及 commit/push 时读取调用链的 agentic review。
Alook 开源协作编排层
Alook 发布了一个面向本地 CLI agent 的协作编排层,把 Claude Code、Codex、OpenCode 等 agent 组织成可管理的“AI 团队”,提供角色、邮箱、任务板、日历和可追溯执行记录。它采用本地优先、云端协作的架构,支持自托管,并通过共享记忆与邮件线程来承载人机和机机异步沟通,且 100% 开源。
Warp 开源终端客户端并获 OpenAI 支持
Warp 推出 Open Agentic Development,并开源其终端客户端,OpenAI 作为该仓库的 founding sponsor。Warp 称其内部工程团队中,agents 现在会共同生成公司约 90% 的 pull requests;GPT-5.5 在 agentic coding 任务上比 GPT-5.4 平均少用 30% 的 tokens。
Grok Build 支持 Worktree 优化
xAI 的 CLI 工具 Grok Build 针对 agent swarms 和大型代码仓库优化了 worktree 流程,解决了同时运行“10s of agents”时 Git 默认行为带来的创建慢、仓库复制、分支无法重复 checkout 等问题。优化后的 worktree 速度更快、共享内容、减少磁盘占用,并支持 macOS、Linux、Windows。
模型发布
Meta AI 开源 ESMFold2 蛋白结构预测模型
Meta AI 团队开源 ESMFold2,这是 esm 系列的下一代模型,用于蛋白生物学预测、设计与发现。该模型在蛋白相互作用上达到 SOTA,尤其擅长抗体-抗原复合物预测,并在 5 个与癌症和免疫学相关的治疗靶点上设计并验证了 miniprotein binders 和 single chain antibodies,报告了很高的成功率。团队同步发布了包含 68 亿个蛋白和 11 亿个预测结构的 atlas。
Qwen3.5 在 TokenSpeed 达 580 tps
Alibaba_Qwen 推出的 Qwen3.5 在 TokenSpeed inference engine 上针对 agentic workloads 达到 580 tokens per second (tps) 的记录速度,运行于 NVIDIA GPUs。该优化由 Alibaba_Qwen、TokenSpeed、NVIDIAAI 等团队共同完成,并特别引入了 FlashAttention-4 (FA4) 优化。PyTorch Foundation 的社区博客披露了 Qwen3.5 模型在 TokenSpeed 推理框架中的完整设计、实现与优化细节。
Qwen3.7-Max 编程能力更新
Alibaba Cloud 称 Qwen3.7-Max 在 Code Arena 上获得 1541 分,被列为全球第 2 的 AI 编程模型。在 Code Arena: Frontend 评测中,Qwen3.7-Max (20250517 版本) 首次进入第 4 名,与 Claude Opus 4.6 持平,并超过 GLM-5.1。OpenCode 宣布 Qwen3.7 Max 现已可在 Go 中使用,支持 text only 和 1M context。
Krea 2 API 发布并接入 Hermes Agent
Krea 发布图像生成模型 Krea 2 的 API,该模型从零训练并支持风格迁移、情绪板输入与可调节创造力参数。目前已集成至 Nous Research 的 Hermes Agent 及 fal、ComfyUI 等平台,兼容 Claude、Codex 与 OpenClaw 框架。
产品更新
Google 发布 AI Threat Defense
Google 发布了 Google AI Threat Defense,这是一个全面的 AI 驱动网络安全解决方案,使用 Gemini 和其他前沿 AI 模型自主执行持续深度扫描,并通过 CodeMender 加速漏洞修复。Google 主动优先处理最关键的实际风险,并使用多种模型加速修复。
PrismML 发布 Bonsai Studio iOS 应用
PrismML 发布官方 iOS 应用 Bonsai Studio,用户可在 App Store 免费安装,在手机本地离线生成图片。其端侧模型 Bonsai Image 4B 基于 FLUX.2 Klein,将权重压缩到 1-bit 和 3-bit,体积从 7.75GB 压缩到 0.93GB。在 iPhone 上生成 512×512 图片约占 1.5GB 内存,1024×1024 约占 2GB,iPhone 15 Pro 以上可运行。
Xiaomi MiMo API 价格大幅下调
Xiaomi MiMo 宣布 MiMo-V2.5 Series API pricing 永久下调,较此前最高降价 99%,并改为所有 context lengths 统一定价。核心降价原因来自推理框架支持面向 SWA 的分层 KV cache 优化,将缓存 token 容量提升 5 倍,相当于缓存成本下降 80%;Input(Cache Miss)和 Output 价格也下调了 60%–80%。
DeepSeek V4-Pro 永久降价 75%
DeepSeek 将 V4-Pro 的 75% 降价改为永久生效。支撑价格的关键在于长上下文推理的工程优化:DeepSeek V4 采用混合注意力架构,包含 Compressed Sparse Attention(CSA)和 Heavily Compressed Attention(HCA)。其 V4-Pro 在 100 万 token 上下文下的 KV cache 仅为 V3.2 的 10%,单 token 推理 FLOPs 降至 27%。
OpenAI 推出 Secure MCP Tunnel
OpenAI 发布 Secure MCP Tunnel 功能,允许 ChatGPT 和 Codex 通过反向隧道访问公司内网 MCP 服务器。tunnel-client 程序主动建立加密 HTTPS 通道,请求通过 OpenAI 隧道入口转发给内网服务器。内置 Harpoon 组件可暴露受限 REST 接口给 Agent 调用。
研究突破
Sakana AI 提出 DiffusionBlocks 训练框架
Sakana AI 联合东京大学小山雅典提出 DiffusionBlocks 框架,通过将神经网络按块训练来显著降低内存需求,并在 ViT、DiT、Masked diffusion、Autoregressive transformers 和 Recurrent-depth transformers 等五种架构上验证了性能与端到端训练相当。该方法将 Looped transformers 的多次迭代替换为单次前向传播,训练时只需保留单个 block 内存。
腾讯 HY 发布古文字识别基准 Chronicles-OCR
腾讯 HY 实验室联合 4 家机构发布古文字识别基准 Chronicles-OCR,包含 2800 张专家标注图像,覆盖 7 类中国古文字。28 个前沿多模态模型在任务上表现不佳:最强的 VLLM 在甲骨文识别上准确率仅 14%,端到端检测的最高 H-mean 只有 16.5%,GPT-5 和 Gemini 2.5 Pro 接近 0。研究还发现,开启 reasoning 模式后,多数模型表现反而更差。
Facebook 停用实验揭示社交媒体影响
斯坦福经济学家通过 Facebook 广告招募 2743 名活跃用户进行实验,其中 1611 名用户以 102 美元停用 Facebook 4 周。实验显示,停用组平均每天多出 60 分钟时间,更多用于电视和线下社交;15 题新闻测试得分下降 0.19 个标准差,整体政治极化指数下降 0.16 个标准差,主观幸福感指数提升 0.09 个标准差。
Agent 可靠性研究提出 AgingBench 基准
一项关于 agent 可靠性的研究提出长周期可靠性基准 AgingBench,将 agent aging 分为 4 种机制,包括 compression aging 和 interference aging。文章指出,尽管模型权重冻结,agent 的有效状态仍会随着交互历史压缩、不断增长的记忆库检索、事实更新和例行维护而持续变化,可靠性应被视为整个执行框架的寿命属性。
基础设施
华为 LogicFolding 芯片物理层叠技术
华为发布 LogicFolding 芯片设计思路,把芯片进步指标从“晶体管更小”转向“全机时延更少”,并提出 τ scaling。该技术通过在垂直堆叠的活性层间划分数字、模拟和存储电路,压缩翻转器之间的传播延迟,旨在以时间而非晶体管尺寸衡量进展,目标在 2031 年实现等效 1.4 nm (14 Å) 工艺的晶体管密度。
基准测试
ITBench-AA 评估企业 IT 代理任务
Artificial Analysis 与 IBM Research 联合推出 ITBench-AA,这是一个用于评估模型在企业 IT 代理式任务上的新基准系列,首个场景是 Site Reliability Engineering (SRE)。该基准包含 59 个 SRE 任务,其中 Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 领先,GPT-5.5 (xhigh) 为 46%,Qwen3.7 Max 为 42%,所有前沿模型均低于 50%。
CMU 发布新基准 Odysseys
CMU 发布了新基准“Odysseys”,用于评测更困难的任务。Microsoft 近期用 auto-eval agent WebWright 在该榜单上以 61% 领跑,Alexander Yue 则用 BrowserCode 和 Claude Opus 4.7 跑出了 70%。
开发者工具
RepoPrompt 免费并将开源
RepoPrompt 作者被 OpenAI 招安后,RepoPrompt 现在改为免费,并计划即将开源。原付费用户将获得 Codex Credits 作为补偿;该工具可将整个 repo 的代码拼成 XML 文本,便于喂给支持长上下文的模型,也支持只选择部分文件,目前仅支持 Mac。