AI HOT 日报 (morning)
Google I/O 2026
Gemini 3.5 Flash 全面上线
Google 在 I/O 发布 Gemini 3.5 Flash,面向 agentic workflows 和 coding;官方称其在 Terminal-Bench 2.1 为 76.2%,GDPval-AA 为 1656 Elo,MCP Atlas 为 83.6%,CharXiv Reasoning 为 84.2%,tokens/s 比其他 frontier models 快 4 倍,成本通常不到一半。模型已在 Gemini app、Search AI Mode、Antigravity、Gemini API、Google AI Studio、Android Studio、Gemini Enterprise 等开放,3.5 Pro 计划下月推出。
Search AI Mode 默认切换
Google 将 Search 的 AI Mode 默认模型切换为 Gemini 3.5 Flash,并宣布该模式一年内已超过 10 亿月活,查询量自上线后每季度翻倍,上季度 Search 查询量创历史新高。Pichai 同时表示,3.5 Flash 相比 Gemini 3.1 Pro 在几乎所有 benchmarks 上更强,速度是其他 frontier models 的 4 倍。
Gemini 3.5 Flash 定价与评测
Artificial Analysis 对 Gemini 3.5 Flash 预发布评测显示,其 Intelligence Index 为 55,较 Gemini 3 Flash 提升 9 分;GDPval-AA Elo 为 1656,高于 Gemini 3 Flash 的 1204 和 Gemini 3.1 Pro 的 1314,接近 GPT-5.4(xhigh)的 1674。其输出速度超过 280 tokens/s,定价为输入 $1.50 / 每 100 万 tokens、输出 $9 / 每 100 万 tokens,跑完整个 Intelligence Index 成本为 $1552。
Gemini 3.5 Flash 上架 OpenRouter
OpenRouter 上线 Gemini 3.5 Flash,参数页显示其支持 text、image、video、audio、PDF,多模态上下文长度 1M,最大输出 65K。平台给出的价格为输入 $1.50 / 每 100 万 tokens、输出 $9 / 每 100 万 tokens,发布日期为 2026 年 5 月 19 日。
Google AI Ultra 订阅重构
Google 将 AI Ultra 顶层方案价格从 $250/月下调到 $200/月,并新增 $100/月档位;其中 200 美元档含 20TB 存储、YouTube Premium individual、Gemini 与 Antigravity 更高使用上限,以及 Gemini Spark、Gemini Agent、Deep Think、Google Cloud 每月 $40 额度。100 美元档面向开发者与重度用户,提供较 Pro 高 5 倍的 Gemini app 与 Antigravity 使用上限。
Gemini Spark 与 Project Genie
Google 在 I/O 预览 Gemini Spark,这是一款 24/7 个人 AI agent,运行在 Gemini 3.5 和 Antigravity harness 上,使用 Google Cloud 专用虚拟机;本周先向 trusted testers 推出,下周向美国 Ultra 用户开放。Project Genie 则接入 Google Maps 近 20 年 Street View 数据,支持基于现实地点构建交互世界,并扩展到符合条件的 Ultra 订阅用户。
Gemini Omni Flash 上线
Google 发布 Gemini Omni Flash,主打从任意输入生成任意内容,首发支持视频输入并可结合 image、audio、video、text 生成高质量视频。该模型支持自然语言连续编辑、保持角色一致性和场景记忆,已在 Gemini app、Flow by Google 和 YouTube Shorts 可用,API 预计几周内开放;Google AI Plus、Pro、Ultra 订阅用户可直接使用,YouTube Shorts 和 YouTube Create 也将免费提供。
Google Flow 叠加 Omni 与 Agent
Google Flow 同步加入 Gemini Omni Flash、Flow Agent 和 Flow Tools:Omni Flash 用于视频生成与编辑,Flow Agent 负责规划、推理、批量生成变体与素材整理,Flow Tools 允许用自然语言创建和分享自定义工作流。Google 还表示,Flow Music 新增逐段编辑、整曲翻唱风格转换和基于 Omni 的音乐视频生成。
Antigravity 2.0 与 CLI
Google 发布 Antigravity 2.0 独立桌面应用和 Antigravity CLI,用于编排多个 agents 并行执行任务;CLI 采用 Go 重写,支持多智能体编排和异步工作流。官方演示中,基于 Antigravity 2.0 和 Gemini 3.5 Flash,agents 在 12 小时内构建了可运行操作系统,使用 93 个并行 sub-agents、15k+ 次模型请求、2.6B tokens,API credits 不到 $1K。
Antigravity SDK 预览版
Google Antigravity 团队发布 Python 版 Antigravity SDK 预览版,可程序化调用 coding agent,底层与 Antigravity 2.0 和 CLI 共享 runtime。SDK 默认提供 file I/O、代码编辑、shell 执行、目录搜索、image generation、sub-agent delegation 等工具,并支持自定义 Python functions、MCP servers 和 agent skills。
Google AI Studio 一键导出 Antigravity
Google AI Studio 新增一键导出到 Antigravity,允许开发者把原型项目直接迁移到 Antigravity 做规模化开发;同一更新还支持原生 Android 开发,可通过一个 prompt 构建 Android 应用。
Gemini CLI 迁移到 Antigravity
Google 宣布将 Gemini CLI 用户迁移到 Antigravity 体系,统一为 Antigravity 2.0、CLI、SDK、IDE 四个入口。面向消费者,使用 Google AI Pro、AI Ultra 或 Gemini Code Assist for individuals 的用户将于 2026 年 6 月 18 日起停止通过 Gemini CLI 和 IDE 扩展接收请求。
Google Search 接入 Antigravity
Google 计划让 Search 调用 Antigravity,为婚礼筹备、搬家管理等持续性任务生成 mini apps、dashboards 或 trackers。该能力预计未来几个月上线,首先面向美国 Google AI Pro 和 Ultra 订阅用户。
Gemini 全面改版
Google 重做 Gemini 应用和网页体验,采用 Neural Expressive 设计语言,并在 web、Android、iOS 全球上线。新界面支持实时组织回答、内联 Gemini Live、自定义交互式图片、时间线和嵌入视频,未来还会提供方言选择和更多模板化创作能力。
Android CLI 稳定版 1.0
Google 发布 Android CLI 稳定版 1.0,并展示其面向 agentic development 的能力。新版本加入 android studio 命令,可让 AI Agent 连接 Android Studio Quail 的打开项目,利用静态分析、重构、依赖管理、Compose Preview、Android Device Streaming 等能力。
Gemini 智能眼镜预览
Google 预览搭载 Gemini 的智能眼镜,分为语音眼镜和显示眼镜两类,语音眼镜计划今年秋季上市。产品由 Google 联合 Samsung、Gentle Monster、Warby Parker 推出,支持“Hey Google”唤起、所见即问、导航、免手持通话、实时翻译和多步任务处理。
智能体平台
Claude Managed Agents 新沙箱
Anthropic 为 Claude Managed Agents 增加 self-hosted sandboxes 公测和 MCP tunnels 研究预览,允许代理在用户自有基础设施或受控云环境中运行,并访问私有网络内的 MCP 服务器而不暴露到公网。Cloudflare、Vercel 的同步案例显示,这一更新正在把企业级 agent 部署推向私有执行、受控连接和更强可观测性。
Claude Managed Agents 上 Cloudflare
Cloudflare 与 Anthropic 把 Claude Managed Agents 集成到 Cloudflare Sandboxes,可在 agent 循环中由 Cloudflare 执行代码、保护私有连接并增强可观测性。该方案提供模板化部署、密钥注入、Sandbox 日志与指标、SSH 访问、microVM/isolate、私有服务连接和浏览器会话审计。
Vercel Sandbox 接入 Claude Agents
Vercel 发布教程,说明如何用 Vercel Sandbox 作为 Claude Managed Agents 的执行层。每个 session 在新的 microVM 中运行,控制面通过 Anthropic 的 webhook 启动 Sandbox,计算面执行 run_shell、read_file 等工具;示例使用 managed-agents-2026-04-01 beta 与 claude-opus-4-7。
OpenRouter 增加网页搜索与抓取
OpenRouter 新增 openrouter:web_search 和 openrouter:web_fetch 两个工具,支持模型在服务器端直接调用搜索与抓取,无需客户端自建工具。web_search 提供 Auto、Native、Exa、Parallel 四种引擎,Exa 和 Parallel 价格为每次 $0.005;web_fetch 的 OpenRouter 直抓免费,Exa 抽取为每次 $0.001。
OpenAI Guaranteed Capacity
OpenAI 推出 Guaranteed Capacity,为企业客户提供长期锁定 OpenAI compute 的方案,面向重要产品、agents 和工作流,客户可选择 1-3 年承诺并按支出额度在产品组合中消耗配额。Sam Altman 表示该计划仅开放到当前分配额度售罄为止,同时会为 ChatGPT、Codex 保留足够容量。
Anthropic 收购 Stainless
Anthropic 收购 Stainless,这家公司此前长期为其生成官方 SDK、CLI 和 MCP server,并支持将 API 规格生成 TypeScript、Python、Go、Java、Kotlin 等多语言客户端工具。此次并购意味着 Anthropic 会进一步把开发者体验和 agent 连接能力内化为平台能力。
Google Gemini for Science
Google DeepMind 发布 Gemini for Science,面向科学家探索假设、验证结果和梳理文献。其包含基于 Co-Scientist 的 Hypothesis Generation,以及结合 AlphaEvolve 和 Empirical Research Assistance 的 Computational Discovery 原型,可并行开发和评分数千种代码变体,用于更快测试复杂领域建模方法。
Google Antigravity 2.0 桌面版
Google 发布 Antigravity 2.0,定位为多 agent 任务调度的独立桌面应用,支持并行编排多个 agents。官方同时强调其全球可用,并与 Antigravity CLI、SDK、IDE 形成完整平台。
模型发布
Cursor Composer 2.5
Cursor 发布 Composer 2.5,明确其基于 Moonshot 的开源 checkpoint Kimi K2.5 构建,并通过 textual feedback RL、复杂 RL 环境和大规模合成任务提升长任务持续工作与指令遵循。Cursor 还称新模型在性能评分上接近 Opus 4.7,差距不到 1 分,但输入成本约便宜 10 倍、输出成本约便宜 30 倍。
Intern-S2-Preview 开源
上海 AI Lab 开源 Intern-S2-Preview,一个 35B 科学多模态模型,采用 Apache 2.0 许可。官方称其在核心科学基准上可匹配万亿参数级 Intern-S1-Pro,并在生物、分子推理、遥感、科学智能体、数学、多模态、指令遵循和 coding agent 等任务上领先开源模型。
NVIDIA Nemotron-Labs-Diffusion
NVIDIA 发布 Nemotron-Labs-Diffusion,包含 3B、8B、14B 三个规模,可仅通过切换 attention pattern/mask 在 Autoregressive、Diffusion 和 Self-Speculation 三种解码方式间切换。官方称单用户真实吞吐最高可提升 4×,并已在 Hugging Face 以 open license 开放。
OpenBMB 发布 MiniCPM-V 4.6
OpenBMB 发布 MiniCPM-V 4.6,主打端侧高效多模态能力,称其在多项多模态与 Artificial Analysis 基准上超过 Gemma4-E2B-it 和 Qwen3.5-0.8B,且仅用后者 2.5% 的 token 预算。模型已开源,并支持 SGLang、vLLM、llama.cpp、Ollama 与移动端部署。
Qwen3.7 Preview 进 Arena
Alibaba Qwen 团队将 Qwen3.7 Preview 接入 Arena,Text Arena 中 Qwen3.7 Max Preview 排名第 13,Alibaba 在文本榜单升至第 6;Vision Arena 中 Qwen3.7 Plus Preview 排名第 16,Alibaba 升至第 5。结果显示新系列在文本与视觉评测上均具竞争力。
Carbon DNA 模型
Hugging Face Bio 发布 DNA 建模模型 Carbon,配套交互式 blogpost/demo。团队称其比下一个最佳模型快 275 倍,可在单张 GPU 上少于 2 天处理完整人类基因组;关键做法是专门 tokenizer,将序列按 6 个碱基分块但保留单碱基分辨率。
Gemini Omni 视频模型
Google DeepMind 发布 Gemini Omni,作为面向视频生成与编辑的新模型,强调对世界理解、多模态和编辑能力的提升。首个版本 Gemini Omni Flash 已上线 Gemini app、Google Flow 和 YouTube Shorts,后续将支持 image 和 audio 等输出模态。
Google for Developers 介绍 Gemini Omni
Google for Developers 视频介绍 Gemini Omni,称其相较 Veo 是一次 step change,支持将 image、audio、video references 组合起来,通过简单提示词进行无缝编辑。该视频于 2026 年 5 月 20 日发布,说明 Google 正把视频生成从单点创作推进到可编辑工作流。
Agora-1 多 agent world model
Odyssey 发布 Agora-1,称其为首个支持多人实时交互的多 agent world model,可让人类和 AI 在同一模拟世界中同时互动,并以可玩研究预览形式演示实时生成体验。该方向把 world model 从单人生成推进到共享世界状态模拟。
LongLive 2.0 开源
NVlabs 开源 LongLive 2.0,提供长视频生成的基础设施代码、论文、Demo 和模型权重。该版本支持 NVFP4、multi-shot、sequence parallel、async decoding 与 W4A4,官方给出的推理速度为 45.7 FPS,并扩展到 60s 实时交互视频生成与无限长视频生成。
Project Glasswing 的 Mythos 测试
Cloudflare 将 Anthropic 的 Mythos Preview 用于 Project Glasswing,在自家 50+ 个仓库测试后发现,它不仅能找出漏洞,还能把多个低严重性漏洞串联成可工作的 exploit。Cloudflare 还指出 Mythos 能编写 PoC、在沙箱中编译运行、读取报错并重试,说明该类模型在攻防链路上已接近实用。
研究突破
CNA 定位神经元行为
Nous Research 发布 Contrastive Neuron Attribution(CNA),通过对比提示对定位并消融稀疏 MLP 神经元电路,不需要训练 sparse autoencoder,也不修改权重。方法在 8 个 instruct-tuned 模型上验证,消融后可让标准 jailbreak benchmark 的 refusal rates 下降超过 50%,同时保持 fluency 和 non-degeneracy。
LeCun 离开 Meta 创业
Yann LeCun 在播客访谈中称已离开 Meta,创办 AMI(Advanced Machine Intelligence),继续押注 JEPA、世界模型和表示空间预测路线,并明确反对把 LLM 视为通往人类级智能的主路径。他还提到 SIGReg、L-World Model(arXiv:2603.19312)和 Tapestry 计划,后者设想通过联邦学习交换参数向量而非原始数据。
Google I/O 2026 数据披露
Google 在 I/O 开幕演讲中披露其 AI 全栈指标:过去两年每月处理 tokens 从 9.7 万亿增至超过 3.2 千万亿,API 每分钟约处理 190 亿 tokens,过去 12 个月有 375+ 家 Google Cloud 客户各自处理超 1 万亿 tokens,月活开发者超过 850 万。产品侧,AI Overviews 月活超 25 亿,AI Mode 超过 10 亿月活,Gemini app 月活超 9 亿。
Gemini 3.5 Flash 评测结果
Artificial Analysis 获得 Gemini 3.5 Flash 预发布访问并完成评测:Intelligence Index 为 55,GDPval-AA Elo 为 1656,高于 Gemini 3 Flash 的 1204 与 Gemini 3.1 Pro 的 1314,接近 GPT-5.4(xhigh)的 1674。模型支持文本、图像、视频和语音输入,context window 为 1M,MMMU-Pro 得分 84%。
Gemini 3.5 Flash SWE Bench
David East 转述 Google 消息称,Gemini 3.5 Flash 面向复杂 agentic workflows 和 coding 场景,在 SWE Bench Pro 上得分 55%,并被描述为比任何 frontier model 快 4 倍。该结果强化了 Google 以速度和编码能力争夺开发者工作流的路线。
llama.cpp 支持 Qwen3.6 MTP
llama.cpp 为 Qwen3.6 家族加入 MTP 支持后,本地推理吞吐显著提升。测试显示在 DGX Spark 上从约 7 tok/s 提升到 13.9–21.6 tok/s;在 A10G 上,Qwen3.6-27B dense generation 从 25 tok/s 提升到 45 tok/s,增幅约 78%。
Carbon DNA 模型速度数据
Carbon DNA 模型的另一则转述进一步给出应用场景:团队上线交互式 demo,可用于生成 DNA 序列、分析基因结构、预测突变影响、生成并折叠蛋白质,以及重建生命树片段。模型主打极低成本和高速度,强调在基因组级任务上可实用。
商业与人事
Viktor 融资 7500 万美元
Zeta Labs 的 AI coworker Viktor 完成 $75M Series A,由 Accel 领投,官方称这也是波兰创办公司史上最大一轮融资。产品已有 13,000+ workspaces、12,000+ 团队在用,上线 10 周达到 $15M annualized revenue run rate,并可连接 3000+ 工具输出完整工作产物。
Lucius 融资 300 万美元
Lucius AI 完成 $3M 融资,投资方为 Future Capital Discovery Fund,产品定位为组织的 Context Layer。团队称个人用 AI 后工作速度可提升 10 倍,但组织层面仍有 30% 以上时间耗在重复重建上下文上,主要发生在客服、pre-sales、销售研究和项目管理场景。
Cerebras 上市与基准表现
Artificial Analysis 表示 Cerebras 已完成上市,其 S-1 文件引用了该机构的推理基准数据。当前页面显示 Cerebras serverless API 在支持的模型上持续提供最快输出速度,Llama 3.1 8B 的输出速度为 2,343 tokens/s,最低混合价格为 $0.10 / 每 100 万 tokens。
NVIDIA 交付 Vera CPU
NVIDIA 开始向 Anthropic、OpenAI、SpaceX 和 Oracle Cloud 交付首款自研通用 CPU Vera。该 CPU 面向 agentic AI 场景,强调高并发、高吞吐下的调度编排与工具调用,显示 NVIDIA 正把基础设施从 GPU 扩展到 Agent 运行时异构计算栈。
OpenAI 诉讼败诉
相关报道称,马斯克起诉 OpenAI 的官司败诉,庭审记录显示其“OpenAI 被窃取”的叙事证据不足,多名证人证词对其不利。法官认为起诉时机过晚,更像报复性诉讼。
Andrej Karpathy 加入 Anthropic
TBPN 引述信息称 Andrej Karpathy 已加入 Anthropic,后续转述补充他将进入 pre-training team,参与 Claude 基础模型工作。Karpathy 随后也确认加入,并表示未来几年 LLM 前沿会很关键。
Yann LeCun 离开 Meta
Yann LeCun 在播客访谈中披露已从 Meta 离职并创业 AMI,继续推进 JEPA、世界模型和联邦学习设想。该事件被视为基础研究路线分化的标志性人事变化。
Anthropic 收购 Stainless
Anthropic 收购 Stainless,后者长期为其生成官方 SDK、CLI 和 MCP server。此次并购进一步说明 Anthropic 正将开发者工具链和 agent 连接能力内化到平台中。