AI HOT 日报 (morning)
谷歌发布
Gemini 3.5 Flash上线
Google 于 2026年5月19日发布 Gemini 3.5 系列并首发 3.5 Flash,面向 agentic workflows 和 coding;官方称其在 Terminal-Bench 2.1 得分 76.2%、GDPval-AA 为 1656 Elo、MCP Atlas 为 83.6%,tokens/s 比其他 frontier models 快 4 倍。
Gemini Omni发布
Google DeepMind 发布 Gemini Omni Flash,定位为“从任意输入生成任意内容”的视频模型,支持 text、image、audio、video 混合输入,并已在 Gemini app、Google Flow 和 YouTube Shorts 上线。
Antigravity 2.0发布
Google 在 I/O 发布 Antigravity 2.0,新增多智能体编排、实时语音与 CLI 形态;官方演示称用 93 个并行 sub-agents、15k+ 次请求和 2.6B tokens,在 12 小时内构建出可运行系统。
Search接入生成式UI
Google 宣布今年夏天向所有用户免费推出 Search generative UI,由 Antigravity 和 Gemini 3.5 Flash 驱动,可自动生成布局、组件和可交互可视化工具。
Gemini订阅重定价
Google 将 AI Ultra 顶级订阅从 250 美元/月降至 200 美元/月,并新增 100 美元/月档位;新方案包含 Gemini 3.5 Flash、Antigravity、20TB 存储和 YouTube Premium individual。
代理生态
Claude加私有沙箱
Anthropic 为 Claude Managed Agents 推出 self-hosted sandboxes 公测与 MCP tunnels 研究预览,允许代理在用户自有或受控环境运行,并访问私有网络内的 MCP 服务。
OpenAI推容量保障
OpenAI 发布 Guaranteed Capacity,面向企业提供 1-3 年期 compute 锁定方案,可按承诺额度在 OpenAI 产品组合中消耗配额,重点覆盖产品、agents 与工作流。
OpenRouter加搜索抓取
OpenRouter 上线 openrouter:web_search 与 openrouter:web_fetch 两个服务器端工具,支持 tool-calling 模型直接调用搜索与抓取,Exa/Parallel 搜索单次 $0.005,抓取部分能力免费。
Google推个人Agent
Google 公布 Gemini Spark,定位为 24/7 个人 AI agent,运行在 Gemini 3.5 上并基于 Antigravity harness 和 Google Cloud 专用虚拟机,本周先向 trusted testers 开放。
Google CLI迁移Antigravity
Google 宣布将 Gemini CLI 迁移到 Antigravity 体系,推出 Go 重写的 Antigravity CLI,统一支持多智能体编排和异步工作流,并保留原有 Agent Skills、Hooks、Subagents 与 Extensions。
模型发布
Cursor发Composer 2.5
Cursor 发布 Composer 2.5,基于 Moonshot 的开源 Kimi K2.5 checkpoint,采用 textual feedback RL 和 25 倍合成任务规模提升长任务持续性与指令遵循度。
Intern-S2-Preview开源
上海 AI Lab 开源 Intern-S2-Preview,这是一个 35B 科学多模态模型,采用 Apache 2.0 许可,官方称其在核心科学基准上可匹配万亿参数级的 Intern-S1-Pro。
MiniCPM-V 4.6发布
OpenBMB 发布 MiniCPM-V 4.6,主打端侧高效多模态能力,在多项基准上超过 Gemma4-E2B-it 和 Qwen3.5-0.8B,并支持 SGLang、vLLM、llama.cpp 与 Ollama。
Qwen3.7入Arena
Alibaba Qwen 团队将 Qwen3.7 Preview 接入 Arena,Text Arena 中 Qwen3.7 Max Preview 排名第 13,Vision Arena 中 Qwen3.7 Plus Preview 排名第 16,文本和视觉榜单排名均有提升。
SenseNova信息图模型上线
SenseNova-U1-8B-MoT-Infographic 已在 ModelScope 上线,采用 Apache 2.0 许可,面向海报、图表与多栏排版,在 BizGenEval 和 IGenBench 上较 base 均有明显提升。
研究突破
CNA定位神经元
Nous Research 发布 CNA,用对比提示对定位并消融稀疏 MLP 神经元电路,无需训练 SAE 或改权重;在 8 个 instruct-tuned 模型上验证后,标准 jailbreak benchmark 的 refusal rates 可下降 50% 以上。
Carbon DNA模型
Hugging Face Bio 发布 Carbon DNA 模型,采用专门 tokenizer 将序列按 6 个碱基切分,在训练与推理中保持单碱基分辨率,官方称比前代 SOTA Evo2 快 275 倍,可在单卡上少于 2 天处理完整人类基因组。
Agora-1支持多人世界模型
Odyssey 发布 Agora-1,称其为首个支持多人实时交互的多 agent world model,可让人类与 AI 同时在共享模拟世界中互动,并以研究预览形式演示。
LeCun离开Meta
转述信息称 Yann LeCun 已离开 Meta 并创办 AMI,继续押注 JEPA、world model 与表示空间预测路线,明确反对把 LLM 视为通往人类级智能的主路径。
基础设施
NVIDIA推Vera CPU
NVIDIA 开始向 Anthropic、OpenAI、SpaceX 和 Oracle Cloud 交付自研通用 CPU Vera,面向 agentic AI 场景,强调高并发调度编排与工具调用能力。
llama.cpp提速
llama.cpp 新增 Qwen3.6 家族 MTP 支持后,本地推理吞吐显著提升;在 DGX Spark 上示例速度从约 7 tok/s 提升到 13.9–21.6 tok/s,整体加速约 2 倍以上。
LongLive 2.0开源
NVlabs 开源 LongLive 2.0,提供长视频生成基础设施、论文、Demo 和权重,支持 NVFP4、并行机制与 45.7 FPS 推理,并扩展到 60s 实时交互和无限长视频生成。
Cerebras上市
Artificial Analysis 表示 Cerebras 已完成上市,并引用其 S-1 中的推理基准;当前测试页面显示 Llama 3.1 8B 输出速度达 2,343 tokens/s,最低混合价格为每 100 万 tokens 0.10 美元。