AI HOT 日报 (morning)
Google I/O 2026
Gemini 3.5 Flash 全面上线
Google 在 Google I/O 发布 Gemini 3.5 Flash,面向 agentic workflows 和 coding;官方给出 Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%、CharXiv Reasoning 84.2%,tokens/s 比其他 frontier models 快 4 倍,价格为输入 $1.50 / 100 万 tokens、输出 $9.00 / 100 万 tokens,context window 为 1M。
Gemini 3.5 Pro 下月推出
Google 表示 Gemini 3.5 Pro 已在内部使用,计划下个月发布;3.5 Flash 已在 Gemini app、Google Search 的 AI Mode、Google Antigravity、Gemini API、Google AI Studio、Android Studio、Gemini Enterprise 和 Gemini Enterprise Agent Platform 上可用。
Google Search 默认切换 Flash
Google 将 Search 的 AI Mode 默认模型升级为 Gemini 3.5 Flash,并称其在几乎所有基准上优于 Gemini 3.1 Pro、coding 提升明显。Google 还披露 AI Mode 一年内超过 10 亿月活,查询量每季度翻倍,上季度 Search 查询量创历史新高。
Antigravity 2.0 发布
Google 发布 Antigravity 2.0,作为独立桌面应用编排多个 agents 并行执行任务;演示中,93 个并行 sub-agents、15k+ 次模型请求、2.6B tokens 在 12 小时内构建出一个可运行操作系统,API credits 花费不到 $1,000。
Antigravity SDK 预览版
Google Antigravity 推出 SDK 预览版,这是一个 Python library,可程序化访问 coding agent,内置 file I/O、代码编辑、shell、目录搜索、image generation 和 sub-agent delegation,并支持自定义 Python functions、MCP servers 和 agent skills。
Antigravity CLI 上线
Google Antigravity 发布 CLI,支持在终端直接调用、监控和交互 agents,并与 Antigravity 2.0 共享同一套 agent harness。官方还宣布 Gemini CLI 用户将迁移到 Antigravity 体系,企业版与部分开发者通道不受影响。
Google AI Studio Managed Agents
Google AI Studio 在 Gemini API 中推出 Managed Agents,一次 API 调用即可获得带 Google 托管的远程 Linux 环境和可按需扩展的 agent,并可用 Markdown 定义 instructions、skills 和 tools。
Google AI 订阅改价
Google 更新 AI 订阅:新增 $100 / 月的 AI Ultra 档位,并将顶层 Google AI Ultra 从 $250 / 月下调到 $200 / 月;其中 $200 档含 20TB 存储、YouTube Premium individual、Gemini app 与 Google Antigravity 20 倍使用额度,$100 档提供 Pro 的 5 倍额度。
Gemini Spark 预告
Google 公布 Gemini Spark,这是一款 24/7 个人 AI agent,运行在 Gemini 3.5 上,使用 Google Cloud 专用虚拟机。产品将先向 trusted testers 开放,下周向美国 Ultra 用户开放。
Gemini Omni Flash 上线
Google 推出 Gemini Omni Flash,支持以文本、图片、音频和视频为输入生成与编辑视频,并可进行自然语言连续编辑。今天起面向 Google AI Plus、Pro、Ultra 订阅用户在 Gemini app 和 Flow 开放,本周内还会在 YouTube Shorts 和 YouTube Create 免费提供。
Google Flow 新增 Agent 与 Tools
Google Flow 增加 Gemini Omni Flash、Google Flow Agent 和 Google Flow Tools,面向创作流程提供规划、推理、批量生成变体、素材整理和自然语言自定义工具能力。
Gemini for Science 发布
Google DeepMind 和 Google Research 发布 Gemini for Science,包含 Literature Insights、Hypothesis Generation 和 Computational Discovery 三项实验性工具,可搜索数百万篇论文、用多智能体生成和评估假设,并并行生成数千种代码变体;BASF、Klarna、Daiichi Sankyo、Bayer Crop Science 和美国国家实验室已在 private preview 中使用。
Project Genie 接入 Street View
Google Labs 将 Project Genie 接入近 20 年 Street View 数据,使其可基于现实地点生成可实时导航的动态世界;Street View 图像现已支持美国境内地点,并逐步扩展到更多地区,Google AI Ultra 200 美元档用户可访问。
Search 接入 Antigravity 生成 UI
Google 宣布 Search 未来几个月将调用 Antigravity,为婚礼筹备、搬家管理等持续性任务生成 mini apps、dashboards 或 trackers,并先面向美国 AI Pro 和 Ultra 订阅用户开放。
Google Gemini 全面改版
Google 将 Gemini 应用与网页体验重构为 Neural Expressive 设计语言,web、Android 和 iOS 已全球上线;Gemini Live 改为可立即打开并以内联方式呈现,回答过程可实时生成交互式图片、时间线和嵌入视频。
Gemini app 月活超 9 亿
Google 表示 Gemini app 月活已超过 9 亿,覆盖 230 多个国家和 70+ 种语言,并开始推送 Gemini 3.5 Flash。官方同时回顾了 Nano Banana、Veo、Lyria、Personal Intelligence 和学习功能等更新。
模型与开源
Cursor Composer 2.5 发布
Cursor 发布 Composer 2.5,明确基于 Moonshot 的开源 checkpoint Kimi K2.5 构建,并通过 textual feedback RL、复杂 RL 环境和 25 倍合成任务规模提升长任务持续能力与指令遵循度;相关讨论还提到其在同等能力模型上可提升最高 10 倍效率。
Cursor 训练报告披露
Cursor 补充披露 Composer 2.5 的训练细节:采用更大规模训练、定向文本反馈与合成任务扩展,并在 1T 模型上把优化器单步耗时压到 0.2 秒;公司还在与 SpaceXAI 训练一个使用 10 倍算力的新模型。
MiniCPM-V 4.6 上线
OpenBMB 发布 MiniCPM-V 4.6,主打端侧高效多模态能力,在多项多模态与 Artificial Analysis 基准上超过 Gemma4-E2B-it 和 Qwen3.5-0.8B,并仅用后者 2.5% 的 token 预算;模型已开源并支持 SGLang、vLLM、llama.cpp、Ollama 和移动端部署。
Intern-S2-Preview 开源
上海 AI Lab 开源 Intern-S2-Preview,一个 35B 科学多模态模型,采用 Apache 2.0 许可,宣称在核心科学基准上可匹配万亿参数级的 Intern-S1-Pro,并在生物、分子推理、遥感、科学智能体、数学和 coding agent 等任务上领先开源模型。
Qwen3.7 Preview 接入 Arena
Alibaba Qwen 将 Qwen3.7 Preview 接入 Arena,Text Arena 中 Qwen3.7 Max Preview 排名第 13,Alibaba 文本榜单升至第 6;Vision Arena 中 Qwen3.7 Plus Preview 排名第 16,Alibaba 升至第 5。
Gemini 3.5 Flash 评测更新
Artificial Analysis 评测 Gemini 3.5 Flash:Intelligence Index 55,较 Gemini 3 Flash 提升 9 分;GDPval-AA 为 1656 Elo,接近 GPT-5.4 (xhigh) 的 1674。模型输出速度超过 280 tokens/s,完整跑分成本为 $1,552,且支持文本、图像、视频和语音输入,context window 为 1M。
Gemini 3.5 Flash 上线 OpenRouter
OpenRouter 上线 Gemini 3.5 Flash,支持 text、image、video、audio 和 PDF 输入,context 长度 1M,最大输出 65K;其价格为输入 $1.50 / 100 万 tokens、输出 $9 / 100 万 tokens。
Gemini 3.5 Flash ARC-AGI
ARC Prize 公布 Gemini 3.5 Flash 的 ARC-AGI verified 成绩:ARC-AGI-2 High 72.1%、Minimal 8.9%;ARC-AGI-1 High 92.5%、Minimal 48.8%,并称其在 ARC-AGI 上与 GPT-5.5 (Medium) 表现相当。
Carbon DNA 模型发布
Hugging Face Bio 发布 DNA 建模模型 Carbon,声称比下一个最佳模型快 275 倍,并可在单张 GPU 上少于 2 天处理完整人类基因组;其关键做法是使用按 6 个碱基分块但保留单碱基分辨率的 tokenizer。
Nemotron-Labs-Diffusion 开源
NVIDIA 开源 Nemotron-Labs-Diffusion,覆盖 3B、8B、14B 三个规模,可在 Autoregressive、Diffusion 和 Self-Speculation 三种解码方式间切换;官方称单用户真实吞吐最高可提升 4×,并已在 Hugging Face 以 open license 开放。
LongLive 2.0 开源
NVlabs 开源 LongLive 2.0,提供长视频生成的基础设施代码、论文、Demo 和权重,支持 NVFP4、并行机制、multi-shot、sequence parallel 和 async decoding;官方给出的推理速度为 45.7 FPS,并扩展到 60s 实时交互视频和无限长视频生成。
SenseNova-U1-8B-MoT-Infographic 上线
SenseNova-U1-8B-MoT-Infographic 已在 ModelScope 上线,面向海报、图表、arXiv 风格页面和复杂多栏排版,支持 100+ 种风格与布局;在 BizGenEval hard/easy 上为 46.6/65.4,在 IGenBench 上为 69.5/17.0。
智能体与平台
Claude Managed Agents 私有沙箱
Anthropic 为 Claude Managed Agents 增加 self-hosted sandboxes 公测和 MCP tunnels 研究预览,允许代理在用户自有基础设施或受控云环境中运行,并访问私有网络内的 MCP 服务器;官方还补充可在不重启 session 的情况下切换 tools、MCP servers 或 vault IDs。
Claude Managed Agents 接入 Cloudflare
Anthropic 与 Cloudflare 宣布将 Claude Managed Agents 集成到 Cloudflare Sandboxes,支持代码执行、私有连接、可观测性、SSH 访问、microVM/isolate 和浏览器会话审计,目的是把 agent 运行环境推向企业级安全隔离。
Claude Managed Agents 与 Vercel Sandbox
Vercel 发布教程,说明如何用 Vercel Sandbox 构建 Claude Managed Agents 的 self-hosted environment;每个 session 在新的 microVM 中运行,控制平面通过 session.status_run_started webhook 启动,计算平面执行 run_shell、read_file 等工具调用。
OpenAI Guaranteed Capacity
OpenAI 推出 Guaranteed Capacity,为企业客户提供 1-3 年锁定 compute 的方案,可在 OpenAI 产品组合中消耗配额;Sam Altman 表示该计划只开放到当前分配额度售罄为止,并会为 ChatGPT、Codex 保留容量。
OpenAI 强化图像溯源
OpenAI 为图片内容新增来源识别方式,同时引入 C2PA Content Credentials 和 SynthID 水印,并提供公开验证工具检查图像是否由 OpenAI 产品生成;适用范围包括 ChatGPT、OpenAI API 和 Codex。
OpenAI 与 1Password 合作
OpenAI 与 1Password 合作,将 1Password Environments MCP Server 接入 Codex,让代理在受控运行时环境中获取凭据,避免把 secrets 暴露在 prompt、代码或模型上下文中。
Gemini API Managed Agents
Google AI Developers 表示,Ramp 已使用 Gemini API 的新 Managed Agents 构建面向金融场景的高级 AI agents,且无需接触后端基础设施;官方同时给出一次 API 调用构建生产级 agents 的示例。
Google 推出 WebMCP 等工具
Google 面向 agentic web experiences 推出 Chrome DevTools for agents、Modern Web Guidance 早期预览、开放标准 WebMCP 和 HTML-in-Canvas API,目标是让编码代理更准确地检查、调试并与网站功能交互。
OpenRouter 新增网页搜索与抓取
OpenRouter 上线 openrouter:web_search 和 openrouter:web_fetch 两个 server-side 工具,支持模型在请求时自主决定何时搜索、搜什么、搜几次;web_search 的 Exa/Parallel 定价为每次 $0.005,web_fetch 的 Exa 抽取为每次 $0.001。
Anthropic 收购 Stainless
Anthropic 收购长期为其生成官方 SDK、CLI 和 MCP server 的 Stainless,后者可把 API 规格生成 TypeScript、Python、Go、Java、Kotlin 等多语言客户端工具。
Google Antigravity 迁移 Gemini CLI
Google Developers Blog 宣布将 Gemini CLI 用户迁移到 Antigravity 体系,统一为 Antigravity 2.0、CLI、SDK 和 IDE 四个表面;面向消费者的 Gemini CLI 和 Code Assist IDE 扩展将从 2026 年 6 月 18 日起停止接收请求。
Android CLI 1.0 稳定版
Google 发布 Android CLI 1.0 稳定版,新增 android studio 命令,可让 AI Agent 连接 Android Studio Quail,使用静态分析、重构、Compose Preview 和 Android Device Streaming 等能力;同时提供 Antigravity 的 Android 资源包。
Gemini CLI 用户迁移到 Antigravity
Google Antigravity 发布 CLI,并说明它与 Antigravity 2.0 共享同一套 agent harness 和设置,支持把 CLI 中的对话导入 2.0。
Google AI Studio 一键导出到 Antigravity
Google I/O 上宣布 Google AI Studio 支持一键导出到 Antigravity,开发者可把原型项目直接带到 Antigravity 进行规模化开发;同一更新还加入原生 Android 开发能力。
Telegram 机器人可互相对话
Telegram 宣布机器人现在可以直接与其他机器人对话,并支持在群聊中拉多个 Agent 交互,为多智能体协作提供了可被人类观察和管理的通信层。
Lovable 新增 Skills
Lovable 新增 Skills 功能,允许用户创建、编辑和管理技能,并在合适场景自动调用,内置 5 个技能可直接试用。
X 推出 Creator Connect
X 推出 Creator Connect,借助 xAI 技术、campaign objectives、real-time trends 和 audience interest 为品牌匹配创作者;产品已用于针对 premium laptop company 和 major movie studio 的活动。
商业与人事
Andrej Karpathy 加入 Anthropic
Andrej Karpathy 宣布已加入 Anthropic,并表示未来几年处在 LLM 前沿的工作尤为关键,他将回到 R&D 岗位,同时仍计划未来恢复教育相关工作。
Yann LeCun 离开 Meta 创业
Yann LeCun 在 Unsupervised Learning 访谈中表示自己已从 Meta 离职并创办 AMI(Advanced Machine Intelligence),继续押注 JEPA、世界模型和表示空间预测路线,并明确反对把 LLM 视为通往人类级智能的主路径。
Viktor 完成 7500 万美元融资
Accel 领投 Viktor 的 7500 万美元 Series A;Viktor 自称是原生嵌入 Slack 和 Microsoft Teams 的 AI coworker,连接 3000+ 工具,10 周内达到 1500 万美元 ARR,并宣称 13,000+ workspaces 或 12,000+ 团队正在使用。
Lucius 融资 300 万美元
Lucius AI 宣布完成 300 万美元融资,投资方为 Future Capital Discovery Fund;产品定位为组织的 Context Layer,团队称其要解决重复重建上下文的问题,这一环节占团队超过 30% 的时间。
Anthropic 收购 Stainless
Anthropic 收购了长期为其生成官方 SDK、CLI 和 MCP server 的 Stainless,进一步把开发者体验和 agent 连接能力内化为平台能力。
马斯克诉 OpenAI 败诉
报道称 Elon Musk 起诉 OpenAI 的案件败诉,庭审记录显示其“OpenAI 被窃取”的叙事证据不足,法官认为起诉时机过晚,更像报复性诉讼。
Cerebras 上市与推理表现
Artificial Analysis 表示 Cerebras 上周完成上市,并引用其 S-1 中的推理性能结果;当前页面显示 Llama 3.1 8B 输出速度达 2,343 tokens/s、最低混合价格 $0.10 / 100 万 tokens,模型速度差异 119%,价格差异最高 23.8 倍。
研究与安全
CNA 定位行为神经元
Nous Research 提出 Contrastive Neuron Attribution(CNA),通过对比提示对定位并消融稀疏 MLP 神经元电路,不需训练 sparse autoencoder 或改权重;在 8 个 instruct-tuned 模型上验证后,标准 jailbreak benchmark 的 refusal rates 可下降超过 50%。
Project Glasswing 评测 Mythos Preview
Cloudflare 在自家 50+ 个仓库上测试 Anthropic 的 Mythos Preview,发现它不仅能找漏洞,还能把多个低严重性漏洞串联成可工作的 exploit,并能在沙箱里编译、运行、读报错并重试。
Agora-1 多 agent world model
Odyssey 发布 Agora-1,称其为首个支持多人实时交互的多 agent world model,可让人类和 AI 在同一模拟世界中互动,并以可玩研究预览形式演示实时生成体验。
3D Gaussian Splatting 葡萄样本
Dany Bittel 展示了用 6660 张宏观照片训练的 3D Gaussian Splatting 葡萄样本,约 43 万个高斯点,压缩后不到 50MB,可在手机上实时 360 度旋转并还原半透明果肉透光。
Gemini Omni 技术介绍
Google DeepMind 在 Google for Developers 视频中介绍 Gemini Omni,强调其在世界理解、多模态和编辑能力上较 Veo 是一次 step change,并讨论了视频生成的 safety 与 transparency。
Carbon DNA 交互式 demo
Carbon DNA 模型附带交互式 demo,可用于生成 DNA 序列、分析基因结构、预测突变影响、生成并折叠蛋白质以及重建生命树片段;团队称其在相同规模下比此前 SOTA Evo2 快 275 倍。