AI HOT 日报 (noon)
Google I/O 2026
Gemini 3.5 Flash 发布
Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 agent 和 coding 的旗舰模型。官方称其在 Terminal-Bench 2.1 达到 76.2%,MCP Atlas 83.6%,GDPval-AA 1,656 Elo,CharXiv Reasoning 84.2%,输出速度较其他 frontier models 快 4 倍;已可用于 Gemini app、Google Search AI Mode、Gemini API、Antigravity 和 Android Studio。
Gemini Omni 视频生成
Google DeepMind 在 Google I/O 发布 Gemini Omni,主攻视频生成与编辑。该模型支持图像、音频、视频、文本任意组合输入,可在 Gemini app、Google Flow 和 YouTube Shorts 使用,支持对话式多轮编辑;Gemini Omni Flash 几周后将开放 API。
Gemini Spark 个人 Agent
Google 推出 Gemini Spark,定位为可 7×24 运行的个人 Agent。它在 Google Cloud 专用虚拟机上后台执行任务,默认连接 Gmail、Calendar、Drive、Docs、Sheets、Slides、YouTube 和 Maps,当前面向 trusted testers,后续开放给美国 18 岁以上 Google AI Ultra 用户和部分企业用户。
Antigravity 2.0 平台
Google 在 Google Antigravity 页面展示 Antigravity 2.0、Antigravity CLI、Antigravity SDK 和 Antigravity IDE,并称平台可免费使用。其支持并行管理本地 agents、终端 autonomous coding agents 和 Python 自定义 agents,官方示例显示可借助 subagents 将 legacy 代码重构为 Next.js 架构。
Google I/O 开发者能力
Google I/O 2026 Developer keynote 同步公布 Android 迁移 agent、WebMCP 和 Chrome DevTools for agents。Android 迁移可把 React Native、网页框架或 iOS 代码迁移到原生 Kotlin Android;WebMCP 进入 Chrome 149 experimental origin trial;I/O 后还将提供 85+ 场 session、codelabs 和按需内容。
Gemini for Science 工具
Google DeepMind 与 Google Research 发布 Gemini for Science,并在 Google Labs 与 Google Antigravity 提供新的 Science Skills。套件包含 Literature Insights、Hypothesis Generation 和 Computational Discovery 三个原型,覆盖论文检索、假设生成和并行代码变体评估;企业版已在 private preview,中合作伙伴 BASF 正在使用 AlphaEvolve。
Google Stitch 更新
Google I/O 2026 首日为 Google Stitch 带来 5 项更新和 1 项 bonus 功能。新增 Streaming、从代码库或 .fig 生成 DESIGN.md、In-place AI Edits、Motion + HTML Canvas、.fig 导出与一键导出到 Netlify/Lovable/Bolt,并可通过 MCP 和 Agent Skills 将代码库截图导入后再同步回仓库。
Running Guide agent
Google DeepMind 发布 Running Guide agent,面向盲人和低视力跑者。系统基于胸挂式 Pixel 10 Pro,结合本地分割模型和 Gemma 4 E4B,提供 STOP、DANGER、WARNING、NOTICE 分级提示,并与 SG Enable 合作做真实场景验证。
NVIDIA 与 Google Cloud 社区
NVIDIA 和 Google Cloud 在 Google I/O 上宣布,联合开发者社区 1 年内已吸引超过 100,000 名开发者。社区成员已在 GKE 上交付 RAG 应用、构建多智能体流水线,并为体育分析和企业数据管道原型化 hybrid inference。
智能体平台
Claude Managed Agents 上线 Vercel Sandbox
Vercel 宣布 Claude Managed Agents 现在可以运行在 Vercel Sandbox 上。该架构为每个 session 启动独立 Firecracker microVM,提供 millisecond start times,并配套 firewall credential brokering、deny-by-default egress 和 domain allowlist,面向企业受控基础设施运行 agent。
Claude Managed Agents 自托管 Sandbox
Anthropic 发布自托管 Sandbox 公测和 MCP Tunnels 研究预览,让 Managed Agents 能在企业控制的基础设施中执行。官方称可通过单条出向连接访问内网 MCP 服务器、私有数据库、工单系统和 CRM,这是其企业 agent 能力的重要补充。
OpenClaw 接入 Grok
xAI 宣布用户可从 2026 年 5 月 20 日起在 OpenClaw 内直接使用 Grok、X Premium 或 SuperGrok 订阅,无需单独申请 API Key,也无需额外付费。OpenClaw 可运行在 Mac Mini、VPS、Raspberry Pi 等设备,并支持消息平台接入、图片和视频生成以及 X posts 搜索。
OpenCLI v1.8.0
OpenCLI 发布 v1.8.0,重点升级 Browser Agent Runtime。新版本把浏览器操控从选择器拼接改为 accessibility tree、语义定位和 CDP 原生输入组合,新增 hover、focus、drag、upload、wait download 等操作,并补齐 Twitter、Reddit、Zhihu 等站点支持和多项稳定性修复。
Google Antigravity 免费开放
Google 在 Antigravity 页面进一步说明该 agentic development platform 可免费使用,并强调 Gemini 3.5 Flash 结合 Antigravity 可执行 advanced agentic workflows。平台支持并行管理多个 agents、terminal autonomous coding 和 artifacts 流程,定位为开发者构建与交付 agent 的底座。
模型发布
Gemini Omni Flash 上线
Google DeepMind 表示 Gemini Omni Flash 已上线 Gemini app、Google Flow 和 YouTube Shorts。该模型支持图像、音频、视频和文本作为输入,并可通过对话进行多轮视频编辑,后续还将支持图像和音频等输出模态。
Kimi K2.6 推理速度
Cerebras 宣布企业试点中正在运行参数规模超过 1T 的 Kimi K2.6。官方称其推理速度约为 1,000 tokens/s,并表示这是 Artificial Analysis 迄今测得最快的前沿模型性能。
基准与评测
Gemini 3.5 Flash 评测
Artificial Analysis 对 Gemini 3.5 Flash(high)做了预发布评测。该模型在 Intelligence Index 上得分 55,较 Gemini 3 Flash 提升 9 分;GDPval-AA 为 1,656 Elo,MMMU-Pro 达 84%,输出速度超过 280 tokens/s,约比上一代快 70%,定价为每 100 万输入 tokens $1.50、输出 tokens $9.00,上下文窗口为 1M。
NanoGPT-Bench 结果
Intology 发布 NanoGPT-Bench,用于评测代码智能体在开放式 AI R&D 任务上的表现。Claude Code、Codex 和 Autoresearch 分别获得 512 H100 GPU hours 预算、最多运行 1 周,但恢复的人类进展都不到 10%,其中 Autoresearch、Claude Code 和 Codex 分别达到 9.3%、8.2% 和 8.6%。
研究与安全
frontier AI 讨论扩展
Anthropic 表示,过去几个月已与超过 15 个宗教和跨文化群体中的学者、神职人员、哲学家和伦理学家开展对话,并计划扩展到法律学者、心理学家、作家和公民机构。公司还称,在内部实验中加入伦理承诺提醒工具后,Claude 的多个 alignment 评估中的 misaligned 行为率明显下降。
商业与人事
Andrej Karpathy 加入 Anthropic
BestBlogs 早报汇总称,Andrej Karpathy 已官宣加入 Anthropic。该人事变动被原文视为对研究文化、人才结构和行业站队具有信号意义,并与 Google I/O 2026 的发布同日成为市场关注焦点。
JFrog 与 OpenCode 合作
JFrog 与 OpenCode 宣布合作,把企业治理能力直接接入自治式开发工作流。集成支持从受信任的 JFrog Artifactory 仓库拉包、将制品安全发布回 Artifactory,并限制 agent 只发现和安装经 JFrog AI Catalog 审核的 MCP servers。