AI HOT 日报 (morning)
模型发布
NVIDIA 发布 Nemotron 3 Ultra
NVIDIA 发布 Nemotron 3 Ultra,这是一个完全开放的 550B MoE 模型,55B active params,同步开放权重、训练数据和完整训练配方。官方称其在长输出 agent 负载上吞吐量约提升 6 倍、推理速度提升 5x,复杂 agent 任务成本最高降低 30%,并支持 1M token 上下文。
StepFun 发布 Step 3.7 Flash
StepFun 发布 Step 3.7 Flash,提供 open weights 和 Apache 2.0 许可,已上线 first-party API。模型总参数 198B、激活参数 11B、支持 256K tokens,上线后在 Artificial Analysis 中 Intelligence Index 达 42.6,较 Step 3.5 Flash 2603 的 38.5 提升 4.1 分,输出速度约 400 tokens/s。
Google 推出 Gemma 4 12B
Google 开源 Gemma 4 12B,多模态版本采用 Apache 2.0 许可,支持文本、图像、音频和视频输入,具备 256K context、内置思考能力和原生工具调用。该模型强调可本地运行,并已可在 Red Hat OpenShift AI 平台通过 vLLM 部署。
MiniMax M3 开源并扩展上线
MiniMax M3 以 open-weights 形式发布,结合编码、智能体、1M 上下文和原生多模态能力。公开基准包括 SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%,并已上线 Vercel AI Gateway、MiniMax Code 和多家推理平台。
Stable Video Infinity 上线 ModelScope
ModelScope 上线 Stable Video Infinity,主打无限长度视频生成,采用 Error Recycling Fine Tuning。公开结果显示,SVI-Shot 主体一致性 93.52%、背景一致性 95.86%,在 250 秒时主体一致性仍有 97.50%,长度扩展时仅下降 0.63%,并支持文本流、音频和骨架条件控制。
Sakana AI 推进 1T 模型计划
Sakana AI 透露正在推进一个受 METI 的 GENIAC 计划支持的 1T 参数模型项目,目标是打造日本首个 1T 参数、agent-native 模型。公司称该模型将重点优化长链路深度研究与自主工具使用,后续还会发布更多公告。
Meta 公开 Llama 2 训练框架
Meta 对外公开 Llama 2 的训练框架、工具链和评估方法,降低研究人员围绕 Llama 2 进行预训练与微调的门槛。相关信息提到 Llama 2 包含 7B、13B、70B 多个参数版本,重点是提升模型开发效率与复现便利性。
NVIDIA 发布 Agentic 安全数据集
NVIDIA 在 Hugging Face 上发布 Nemotron-RL-Agentic-Indirect-Prompt-Injection-v1 数据集,包含 1,272 条合成 red-teaming 记录,覆盖 9 个企业领域。该数据集面向工具型 agent 抗间接提示注入攻击,补足企业场景下的安全训练资源。
Guide Labs 发布 Clairy
Guide Labs 推出可解释 AI 平台 Clairy,把生成文本拆成可点击的概念块,并显示输出所依赖的训练样本归属。平台支持概念引导和内容调节,强调从结果可读性进一步走向内部机制可解释。
智能体与平台
Anthropic 谈递归自改进
Anthropic 公开表示,内部数据显示 Claude 正在加速 AI 开发,可能走向递归自我改进,但强调这尚未发生,也不是必然结果。文中给出多项量化进展:工程师平均季度代码量较 2021-2025 年提升 8 倍,AI 可稳定完成的任务时长大约每 4 个月翻倍,Opus 3 约 4 分钟、Sonnet 3.7 约 90 分钟、Opus 4.6 约 12 小时。
Anthropic 发布 Claude Dynamic Workflows
Anthropic 更新 Claude 的 Dynamic Workflows,强调通过任务拆解和自组织架构缓解 Agentic Laziness、Self-bias 和 Goal Drift。该方向主张用 6 种可复用编排模式提升 agent 可靠性,而不是单纯堆参数。
月之暗面发布 Kimi Work Beta
月之暗面发布 Kimi Work Beta,把 Kimi Code 的 agent 能力扩展到桌面 GUI,支持自然语言拆解任务、并行调用工具与最高 300 个子 Agent 协作。官方称客户端一周内完成,5 万余行代码中 92% 由 AI 生成,底层 Kimi K2.6 可支持 13 小时连续编码。
ByteDance Coze 升级 3.0
ByteDance 的 Coze 平台发布 3.0,新增 AI 团队协作功能,支持项目空间、任务分配和多专业 Agent 协作。平台还可接入 Claude Code、Codex CLI 等本地 Agent,实现远程操控与上下文互通。
Factory Router 降低 coding-agent 成本
Factory 推出 Factory Router,把每次 coding-agent 运行视为路由决策,先分配给低成本模型,失败或需要深推理时再升级。官方称在保持 Claude Opus 级别表现的情况下,可将 AI session 支出降低 20%-25%,并达到 Claude Opus 4.7 在 Terminal-Bench 2 上 99% 的结果。
OpenRouter 推出 Pareto Code
OpenRouter 推出实验性编程路由器 Pareto Code,允许用户设置 min_coding_score,并把请求路由到满足标准的最便宜编码模型。该功能结合 Artificial Analysis 的实时排名,重点是让编程推理以更低成本自动选模。
Town 发布 AI 助手并完成融资
TownAI 结束 beta 并正式发布 AI 助手 Town,同时宣布完成 5500 万美元 A 轮融资,由 a16z 领投。Town 可连接 inbox、calendar 等工具,学习用户工作方式,处理起草、日程安排和项目跟踪等多步任务。
Windsurf 发布 Devin Desktop
Windsurf 发布 Devin Desktop,把 IDE 与自主 Agent 合并到同一工作台,并新增 Agent Command Center、ACP 开放协议和 Devin CLI。此次更新还整合了全平台会议功能,强化端到端 agent 工作流。
Claude CLI 进入终端场景
Claude 推出 ant CLI,把 Messages API 与 Managed Agents 集成到终端,支持直接通过 shell 命令调用 API 并处理结果。该工具适用于批量文件处理、脚本自动化和 CI/CD 集成,进一步把 Claude Code 的调用链延伸到本地开发环境。
Codex 推出 Build iOS Apps 插件
OpenAI Developers 介绍 Codex 新增 Build iOS Apps 插件,可在内置浏览器中查看和测试 iOS 应用、打开 SwiftUI previews,并支持热重载。插件通过模拟器视频流、Accessibility 信息和交互映射,让 Codex 能远程操作 iOS App。
产品更新
OpenAI ChatGPT Memory 升级
OpenAI 开始向 ChatGPT 分批推出更强的 memory 系统,用于在多轮对话和长期使用中保留更稳定的上下文。更新先面向美国的 Plus 和 Pro 用户开放,并提供 memory summary 页面供用户查看、修改和管理,后续将扩展到更多国家及 Free、Go 用户。
OpenAI 旗舰模型上线 Amazon Bedrock
OpenAI 将 GPT-5.5、GPT-5.4 和 Codex 全面上线 Amazon Bedrock,覆盖 AWS 商业区与 GovCloud。客户可在 AWS 环境中直接调用这些能力,并按 token 计费,后续还计划扩展到 Daybreak 网络安全模型与安全代码审查能力。
OpenAI 升级 GPT-Rosalind
OpenAI 将 GPT-Rosalind 升级为面向生命科学研究和企业级规模的模型系列,强化药物发现、分析、设计和实验工作流。该系列结合 GPT-5.5 的 agentic coding 与工具调用能力,可用于生成假设、做模拟、设计实验并跟踪可重复性。
Lindy 切换到 DeepSeek v4
Lindy 团队将 100% 流量切换至 DeepSeek v4,替代此前使用的 Anthropic models。团队称这次切换节省了数百万美元,并且在多个核心用例上性能还有提升。
Google 发布 Magenta RealTime 2
Google 在 Hugging Face 发布 Magenta RealTime 2 开源权重模型,支持设备端实时连续音乐生成,延迟约 200 毫秒。模型可通过文本、音频或 MIDI 引导,被描述为当前唯一支持这类实时开源音乐生成的方案。
ChatGPT memory 新版继续扩展
OpenAI 继续滚动上线新版 ChatGPT memory system,强调可在不同对话之间持续保留上下文,并通过 memory summary 控制记忆内容。当前已对美国 Plus 和 Pro 用户开放,移动端需要更新到最新版本,更多套餐和国家也会陆续支持。
研究突破
Google DeepMind 提出智能委托框架
Google DeepMind 发布论文,提出通过动态市场和密码学证明构建智能任务委托系统,并加入二级验证、信任模型和责任追溯机制。该框架面向多智能体协作场景,目标是提升任务分配效率与安全性。
LEAP 让形式数学显著提速
Google 的 LEAP 框架用 agentic 方法解决形式数学问题,把证明存储为目标和子目标图结构,复用引理而不是重复发现。该方法把 LLM 在相关任务上的表现从 10% 以下提升到 70%,并在 Putnam 2025 中解出全部 12 题。
Illinois 与 Tsinghua 研究记忆失真
Illinois、Tsinghua University 等团队发现,LLM agent 的记忆若被反复自我改写会变得不可靠,原始 episode 往往比压缩后的经验总结更有用。实验覆盖 web shopping、模拟世界、app 使用和 ARC 风格谜题,GPT-5.4 在小型 ARC-AGI 集上从无记忆 100% 降到约 54%。
Meta AI 提出 dMoE dLLMs
Meta AI 研究团队发布 dMoE dLLMs 相关研究,提出可学习块级专家技术,并讨论其在多模态与规模扩展中的效率提升空间。该工作重点在于通过专家路由与结构化设计改进大模型的训练与推理效率。
FluxMem 把记忆变成图结构
FluxMem 研究提出将 agent 记忆从静态存储改为图结构连接,用于管理事实、历史任务片段和可复用技能。系统在 LoCoMo 上平均准确率达到 95.06%,结合 Kimi K2 的 GAIA 指标提升 12.73 分。
Self-Pruned Key-Value Attention 提速
论文提出通过预测 token 效用来剪枝 KV cache,只保留 10%-33.7% 的 KV 条目,就能维持接近原始性能。该方法在长上下文场景中实现了 2.1-4.6 倍的解码速度提升。
Useful Memories 研究 LLM 记忆失效
研究发现,LLM agent 的记忆在连续更新后容易失真,常见问题包括错误分组、过宽泛的规则总结和对窄样本过拟合。实验中,GPT-5.4 在一个小型 ARC-AGI 集上,无记忆可 100% 解决,但用自我更新记忆后成功率降到约 54%。
OpenAI 播客披露数学反例发现
OpenAI 播客中,研究者介绍模型发现了一个关于 80 年历史 Erdős 猜想的反例,展示了人机协作在数学发现中的作用。该案例说明模型已不仅能回答问题,也能参与到新反例和新结论的探索过程。
Stanford 研究显示 Gemini 2.5 Pro 更受法律教授偏好
Stanford 一项研究显示,法律教授在盲测中更偏好 Gemini 2.5 Pro 的回答,而不是同行撰写的答案。原帖未给出样本量、评分分布或实验细节,但结果指向法律场景中的模型可读性优势。
基础设施
Alphabet 再加码 AI 基建融资
Alphabet 宣布通过股权融资募集约 450 亿美元,并计划从 Q3 开始通过 ATM 计划再筹集 400 亿美元,合计约 850 亿美元,用于 AI 计算基础设施投资。Berkshire Hathaway 参与投资 100 亿美元,融资规模远超其过去 28 年一级融资总和。
Google 发布 Virgo 架构
Google 发布 Virgo 架构,支持插入最多 134,400 颗 TPUv8t 芯片,总带宽达 47 Pbps,进一步优化非阻塞网络连接。该架构强化了超大规模 AI 集群的部署与互联能力。
SpaceX 火星任务成本降幅超 99%
SpaceX 的 Starship 计划被描述为将地球轨道发射成本降至接近零,相比传统 $18,500/kg 成本目标实现 99% 以上削减。若实现,将显著降低 STARLINK、月球载荷和火星探索的进入门槛。
Margin Collateral Agent 处理保证金争议
LandingAI 介绍 Margin Collateral Agent,用架构分层处理 OTC 保证金争议。原文称场外衍生品名义价值达 846 万亿美元,45% 的保证金追缴存在争议;系统通过 4 层流程和 5 步骤 Python 计算器输出可审计结果。
Wasmer 用 Codex 构建 Edge.js
Wasmer 团队用 OpenAI Codex 构建 Edge.js,在 WebAssembly 沙箱中运行 Node.js workloads,使开发者无需 Docker 即可运行 JavaScript apps、MCPs 和 agents。团队称原本需约 1 年的工作实际只用了 2 周,开发速度提升约 10x 到 20x。
NVIDIA 与 R&D 团队讨论落地合作
NVIDIA 与 R&D 团队围绕 AI 技术落地、项目细节和优先级展开讨论,体现出基础设施与应用研发的协同推进。该条未披露具体产品或参数,但指向企业级部署和工程化导入。
政策与安全
Anthropic 发布 AI 网络威胁报告
Anthropic 发布 AI 网络威胁分析报告,统计 2025 年 3 月至 2026 年 3 月间 832 个被封禁账号,其中 560 个使用 AI 撰写恶意软件,54 个辅助横向移动。报告指出中高风险攻击者占比从 33% 升至 56%,AI 多用于攻击后期复杂阶段,现有 ATT&CK 框架未完全覆盖关键行为。
Anthropic 扩大 Project Glasswing
Anthropic 将 Project Glasswing 安全伙伴计划扩展至约 150 家组织,覆盖 15+ 国家,涉及电力、医疗等关键基础设施行业。此前伙伴已用 Claude Mythos Preview 扫描代码库并发现超 10,000 个高危漏洞,Anthropic 还发布 Claude Security 用于补丁建议。
Anthropic 扩展 Services Track 与 Partner Hub
Anthropic 为 Claude Partner Network 增加 Services Track 和 Claude Partner Hub,网络启动时获 1 亿美元投资,已有超 4 万家机构申请、超 1 万名顾问获得 Claude 认证。Services Track 分为 Select、Preferred、Global Premier 三档,分别要求至少 10/100/1000 名认证人员及 2/15/100 个生产项目。
OpenAI/a16z SuperPac 遭指控造假
有指控称 OpenAI/a16z SuperPac 制造虚假账户,假冒 AI 安全倡导者并呼吁暴力,随后又借 Sam Altman 遭攻击指责安全倡导者。相关说法尚未见官方确认,但已引发对舆论操纵和安全议题的争议。
Perplexity 与美国小企业署推出加速器
Perplexity 与美国小企业署合作推出 Mainstreet AI 加速器,承诺提供 2500 万美元计算积分,每家企业可获得 250 美元支持,最多覆盖 10 万家符合条件公司。该项目与美国 250 周年纪念叙事绑定,强调 AI 工具对中小企业普及。
商业与人事
顾全全离开 ByteDance Seed
前 ByteDance Seed AI 医药与模型研发专家顾全全于 2026 年 6 月 2 日离职。其团队曾推出 SeedFold、SeedProteo 和 DPLM 系列,并搭建支持 Seed 2.0 训练的可扩展预训练技术栈。
Suno 融资超 4 亿美元
Suno 宣布已融资超过 4 亿美元,由 bondcap 领投,新增投资方包括 IVP、usv 和 ForerunnerVC,继续支持方包括 matrixvc、lightspeedvp、MenloVentures 和 Schroders Capital。该轮融资显示音乐生成赛道仍在持续吸纳资本。
OpenAI CFO 访谈谈订阅与佣金模型
OpenAI 公开 CFO Sarah Friar 的访谈,解析订阅和佣金模型,并强调人均使用量与费用结构。访谈还与前代产品及竞品进行了对比,反映 OpenAI 在商业化结构上的持续调整。
Microsoft 谈 Frontier Intelligence
Microsoft CEO Satya Nadella 提出 Frontier Intelligence Platform 战略,强调企业 AI 壁垒来自私有评估,Azure 团队已用 Agent 系统 Miles 自动化 500 余名光纤运维人员知识。腾讯研究院同步给出“组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦”的公式,强调 AI 可减少 80% 任务时间。
Andrew Ng 讨论 AI FDE 与 AI Engineer
Andrew Ng 在 The Batch 中讨论 AI Forward Deployed Engineer 与 AI Engineer 的职业分化,认为 FDE 强调驻场、深度集成与交付,而企业更倾向培养自有 AI Engineer。该判断与企业想减少厂商绑定、提升内部 AI coding agent 使用效率有关。