AI 日报收录 100 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月19日 00:00 ~ 2026年05月20日 00:00

生成于: 2026年05月19日 22:23

本期导读

本期最重要的事件是 Google I/O 集中发布 Gemini 3.5 Flash、Gemini Omni 和 Antigravity 2.0，并把 AI Mode 默认模型切到 3.5 Flash。另一条主线是 Cursor 的 Composer 2.5 与 Anthropic 的 Managed Agents 同步强化长任务与企业沙箱，说明代码智能体正从“单模型跑分”转向“模型、工具链、部署环境”一体竞争。

模型发布

Gemini 3.5 Flash 发布

GoogleGoogle DeepMindSundar Pichai

Google 在 Google I/O 发布 Gemini 3.5 Flash，面向 agentic workflows 和 coding，已全球可用并接入 Gemini App、Google Search AI Mode、Gemini API、Google AI Studio、Android Studio 和 Gemini Enterprise。官方称其在 Terminal-Bench 2.1 达到 76.2%，GDPval-AA 为 1656 Elo，MCP Atlas 为 83.6%，CharXiv Reasoning 为 84.2%，tokens/s 比其他 frontier models 快 4 倍。

Gemini Omni 发布

Google DeepMindGoogle AI

Google DeepMind 发布 Gemini Omni，定位为“from anything create anything”的视频生成与编辑模型，首发 Gemini Omni Flash 已上线 Gemini App、Google Flow、YouTube Shorts，API 计划在接下来几周开放。官方称它支持文本、音频、图片和视频混合输入，并可通过自然语言连续编辑视频，保持角色一致性、物理表现和场景记忆。

Composer 2.5 发布

CursorMoonshot

Cursor 发布 Composer 2.5，明确基于 Moonshot 的开源 checkpoint Kimi K2.5 构建，并通过 textual feedback RL、复杂 RL 环境和 25 倍合成任务规模提升长任务持续性与指令遵循。官方与转述信息还提到其在长任务、协作体验和可靠性上较 Composer 2 明显增强，且训练工程正在向更大规模模型继续推进。

Intern-S2-Preview 开源

Shanghai AI LabModelScope

上海 AI Lab 开源 Intern-S2-Preview，这是一个 35B 科学多模态模型，采用 Apache 2.0 许可。团队称它在核心科学基准上可匹配万亿参数级的 Intern-S1-Pro，并在生物、分子推理、遥感、科学智能体以及数学和 coding agent 等任务上领先开源模型。

Qwen3.7 Preview 接入 Arena

Alibaba QwenAlibaba Cloud

Alibaba Qwen 团队将 Qwen3.7 Preview 接入 Arena，Text Arena 中 Qwen3.7 Max Preview 排名第 13，Alibaba 在文本榜单升至第 6；Vision Arena 中 Qwen3.7 Plus Preview 排名第 16，Alibaba 升至第 5。该结果显示 Qwen 新系列在通用文本与视觉评测上都具备竞争力。

MiniCPM-V 4.6 上线

OpenBMB

OpenBMB 发布 MiniCPM-V 4.6，并称其在 Hugging Face Trending 排名第一。该模型主打端侧高效多模态能力，在多项多模态与 Artificial Analysis 基准上超过 Gemma4-E2B-it 和 Qwen3.5-0.8B，且仅用后者 2.5% 的 token 预算。

SenseNova-U1-8B-MoT 发布

SenseTimeModelScope

SenseNova-U1-8B-MoT-Infographic 已上线 ModelScope，作为信息图专项变体，面向海报、图表、arXiv 风格页面和复杂多栏排版。官方给出 BizGenEval hard/easy 为 46.6/65.4，较 base 提升 6.8/4.3，IGenBench Q-ACC/I-ACC 为 69.5/17.0，较 base 提升 18.2/12.8。

智能体平台

Antigravity 2.0 发布

GoogleGoogle Antigravity

Google 在 I/O 上发布 Antigravity 2.0，新增多智能体系统、实时语音体验，并提供全球可用版本和 Antigravity CLI。演示中，Gemini 3.5 Flash 在 Antigravity 上速度提升到 12 倍，多个 agents 在 12 小时内完成了一个可运行操作系统，使用 93 个并行 sub-agents、15k+ 次请求和 2.6B tokens。

Claude 私有沙箱公测

AnthropicClaudeDevs

Anthropic 为 Claude Managed Agents 推出 self-hosted sandboxes 公测和 MCP tunnels 研究预览，让代理可运行在用户自有基础设施或受控云环境中，并访问私有网络里的 MCP 服务器。该更新还支持在不重启 session 的情况下切换 tools、MCP servers 或 vault IDs，强化了企业级安全隔离与部署灵活性。

Gemini Spark 发布

GoogleGoogle DeepMind

Google 在 I/O 公布 Gemini Spark，这是一款 24/7 个人 AI agent，运行在 Gemini 3.5 上并基于 Antigravity harness 构建。它使用 Google Cloud 专用虚拟机，首批向 trusted testers 开放，下周向美国 Ultra 用户开放。

Gemini for Science 发布

Google DeepMind

Google DeepMind 发布 Gemini for Science，一套面向科研的实验性工具，目标是帮助科学家生成假设、并行验证结果和梳理文献。其包含基于 Co-Scientist 的 Hypothesis Generation，以及基于 AlphaEvolve 和 Empirical Research Assistance 的 Computational Discovery 原型，可并行开发和评分数千个代码变体。

Google Search 接入 Antigravity

Google

Google 宣布 Search 将调用 Antigravity 生成持续性任务的自定义体验，例如婚礼筹备、搬家管理等场景下的 mini apps、dashboards 和 trackers。该能力计划在未来几个月上线，首先面向美国 Google AI Pro 和 Ultra 订阅用户。

Gemini CLI 迁移至 Antigravity

Google DevelopersGoogle Antigravity

Google Developers Blog 宣布将 Gemini CLI 用户迁移到 Antigravity 体系，并统一为 Antigravity 2.0、CLI、SDK 和 IDE 四个表面。新的 Antigravity CLI 采用 Go 重写并于当天开放，支持多智能体编排和异步工作流，面向消费者的 Gemini CLI 入口将于 2026 年 6 月 18 日停止接收请求。

产品更新

Search 默认切换 Flash

GoogleSundar Pichai

Google 宣布 Search 的 AI Mode 默认模型切换为 Gemini 3.5 Flash，并同步面向全球用户开放。Sundar Pichai 表示，相比 Gemini 3.1 Pro，3.5 Flash 在几乎所有 benchmarks 上都更好，coding 进步尤为明显，且速度达到其他 frontier models 的 4 倍。

Gemini App 全面改版

GoogleGeminiApp

Google 重新设计 Gemini 应用和网页体验，新的设计语言名为 Neural Expressive，并从 web、Android、iOS 同步全球上线。新版 Gemini Live 改为可立即打开并以内联方式呈现，回答过程还可插入交互式图片、时间线和视频。

Google AI Ultra 调整

GoogleGeminiApp

Google 在 I/O 调整 AI 订阅方案，新增 100 美元/月的 AI Ultra 档位，并将顶层 AI Ultra 从 250 美元/月下调到 200 美元/月。新方案包含更高的 Gemini app 与 Antigravity 使用额度、20TB 存储、YouTube Premium individual，以及面向不同人群的梯度权益。

Gemini Omni Flash 上线

GoogleGoogle AI

Google 宣布 Gemini Omni Flash 逐步上线，今天起全球 Google AI Plus、Pro、Ultra 订阅用户可在 Gemini App 和 Flow 中使用，本周还会在 YouTube Shorts 和 YouTube Create 免费开放。开发者和企业客户则将在未来几周通过 API 接入。

Google Flow 更新

GoogleFlow by Google

Google 为 Flow 推出 Gemini Omni Flash、Flow Agent 和 Flow Tools 三项新更新，强化创作工作流。Flow Agent 可进行规划、推理和批量生成变体，Flow Tools 则支持用自然语言创建与分享自定义工具和工作流。

Google AI Studio 一键导出

Google AI StudioGoogle

Google AI Studio 新增一键导出到 Antigravity 的能力，开发者可把原型项目直接带到 Antigravity 继续规模化开发。Google 同时表示，AI Studio 也支持原生 Android 开发，可通过一个提示词构建高质量 Android 应用。

Android CLI 1.0 发布

Google for DevelopersAndroid Developers

Google for Developers 和 Android Developers 发布 Android CLI 稳定版 1.0，并展示其面向 agentic development 的能力。新版本加入 android studio 命令，可让 AI Agent 连接最新预览版 Android Studio，调用静态分析、重构、依赖管理和 Device Streaming 等能力。

Google AI 订阅更新

Google

Google 在 I/O 再次更新 AI 订阅方案，推出 100 美元/月的 AI Ultra 档位，并把原顶层方案定价下调至 200 美元/月。宣传信息显示，新档位提供 Google Antigravity、Gemini 3.5 Flash 和 20TB Storage，面向开发者和高级创作者。

研究突破

Carbon DNA 模型发布

Hugging FaceThom Wolf

Hugging Face Bio 发布 Carbon，这是一款 DNA 建模模型，团队称其比下一个最佳模型快 275 倍。它通过专门 tokenizer 将序列按 6 个碱基切分，同时在训练和推理中保持单碱基分辨率，并可在单张 GPU 上少于 2 天处理完整人类基因组。

CNA 定位行为神经元

Nous Research

Nous Research 发布 Contrastive Neuron Attribution（CNA），通过对比提示对定位并消融稀疏 MLP 神经元电路，无需训练 sparse autoencoder，也不修改权重。该方法在 8 个 instruct-tuned 模型上验证，论文称在标准 jailbreak benchmark 上可让 refusal rates 下降超过 50%。

Agora-1 多 agent world model

Odyssey

Odyssey 发布 Agora-1，称其为首个支持多人实时交互的多 agent world model，可让人类和 AI 在同一模拟世界中同时互动。该项目以可玩研究预览形式展示，试图把 world model 从单人生成推进到共享世界状态的多人模拟。

LongLive 2.0 开源

NVIDIANVlabs

NVlabs 开源 LongLive 2.0，提供长视频生成的基础设施代码、论文、Demo 和模型权重。官方称其支持 NVFP4、sequence parallel、async decoding 等机制，推理速度可达 45.7 FPS，并把能力扩展到 60s 实时交互视频和无限长视频生成。

3DGS 葡萄样本演示

Dany Bittel

Dany Bittel 展示了一个用 6660 张宏观照片训练的 3D Gaussian Splatting 葡萄样本，模型约 43 万个高斯点，压缩后不到 50MB。该案例可在手机上实时 360 度旋转，并较好还原半透明果肉透光效果。

基础设施

NVIDIA Vera CPU 交付

NVIDIA

NVIDIA 开始向 Anthropic、OpenAI、SpaceX 和 Oracle Cloud 交付首款自研通用 CPU Vera，面向 agentic AI 场景。该 CPU 强调高并发和高吞吐下的调度编排与工具调用，意味着 NVIDIA 正把 AI 基础设施从 GPU 扩展到异构计算栈。

OpenRouter 新增搜索抓取

OpenRouter

OpenRouter 上线 openrouter:web_search 和 openrouter:web_fetch 两个服务器端工具，任何支持 tool-calling 的模型都能直接调用。web_search 支持多引擎与 0 到 N 次搜索，Exa 和 Parallel 价格为每次 $0.005；web_fetch 也提供多引擎抓取，其中 OpenRouter 直接 HTTP 抓取免费。

llama.cpp 支持 Qwen3.6 MTP

ggerganovllama.cpp

llama.cpp 为 Qwen3.6 家族加入 MTP 支持后，本地推理吞吐明显提升。作者测试显示在 DGX Spark 上可从约 7 tok/s 提升到 13.9–21.6 tok/s，在 A10G 上 Qwen3.6-27B dense generation 从 25 tok/s 提升到 45 tok/s。

Nemotron-Labs-Diffusion 发布

NVIDIAPavlo Molchanov

NVIDIA 发布 Nemotron-Labs-Diffusion，一个包含 3B、8B、14B 三种规模的三模式语言模型家族。它可仅通过切换 attention pattern/mask 在 Autoregressive、Diffusion 和 Self-Speculation 间切换，官方称单用户场景真实吞吐最高可提升 4×，并已在 Hugging Face 以 open license 开放。

Cerebras 上市与速度表现

Artificial AnalysisCerebras

Artificial Analysis 关注 Cerebras 上市后披露的推理基准数据，称其 serverless API 自 2024 年 8 月上线以来一直是所支持模型里输出速度最快的服务。当前页面显示 Llama 3.1 8B 输出速度达到 2,343 tokens/s，最低混合价格为每 100 万 tokens 0.10 美元。