AI HOT 日报 (morning)
商业与人事
OpenAI 启动 IPO 进程,Anthropic 紧随其后
WSJ 报道称,OpenAI 已秘密提交 IPO 草拟文件,正式启动上市流程;Anthropic 也于上周提交秘密 IPO 文件。此举标志着头部 AI 实验室间的竞争正从模型研发延伸至资本市场,以筹资下一代 AI 基础设施。
AI 模型成本趋势:80% 负载将用便宜模型
Brian Armstrong 分享 AI 模型成本优化趋势,预计 12-18 个月内 80% 工作负载将使用成本降低 99% 的模型,而仅 20% 需最新代模型。他指出 DeepSeek V4 价格仅为 Opus 的 1/30,且开源模型可解决企业 API 成本问题,强调企业需调整策略。
字节跳动团队详解 AI 时代设计工程师五角色
字节跳动豆包手机团队设计工程师笑林基于 8 年经验,借助 ChatGPT 分析了 AI Design Engineer、Product UI Craft Engineer、Design Systems Engineer、Creative Technologist/Motion & Graphics Engineer、AI Design Workflow Architect 五种设计工程师角色画像。
模型发布
Xiaomi MiMo-V2.5-Pro-UltraSpeed 开源,实现 1000 tokens/s
Xiaomi MiMo 与 TileRT_AI 联合发布并开源 MiMo-V2.5-Pro-UltraSpeed 模型权重与 checkpoint。该 1T 参数 MoE 模型在单台标准 8-GPU 节点上实现了超过 1,000 tokens/s 的输出速度,采用 FP4 量化和 DFlash,API 版宣称约 3 倍价格可获 10 倍体验提升。
Nex AGI 开源 Nex-N2 agentic 模型系列
Nex AGI 开源 Nex-N2 agentic model series,包括 Nex-N2-Pro (397B total, 17B active) 和 Nex-N2-mini (35B total, 3B active)。mini 版相比 forced thinking 节省约 20% token 成本,性能持平或略高。在 Terminal-Bench 2.1 达 75.3,SWE-Bench Verified 达 80.8,Apache 2.0 许可证。
MiniMax-M3 评测:Intelligence Index 得分 55
Artificial Analysis 公布 MiniMax-M3 评测结果,该模型 Intelligence Index 得分 55,暂时领先开源同类 Kimi K2.6 (54) 和 MiMo-V2.5-Pro (54)。M3 相比 M2.7 在 HLE、GPQA Diamond、AA-LCR、IFBench 和 CritPt 等多项指标上均有提升。
Ideogram 4.0 发布:9.3B Diffusion Transformer
Ideogram 发布技术博客介绍 Ideogram 4.0,这是一个从头训练的 9.3B Diffusion Transformer 模型,搭配一个冻结的 8B VLM 作为文本编码器。其 nf4 checkpoint 可在 24GB 消费级 GPU 上运行,目标是提升创新和创造力。
DeepMind Gemma 4 推出 4x 分量化格式
DeepMind 的 Gemma 4 模型推出 4x 分量化设置,E2B 版本达到 1GB 模型大小,并提供新的 QAT 分量化格式,支持无损分量化转换而模型性能完整保持。
研究突破
MIT 研究:AI 编码工具未大幅提升代码产出
MIT 研究分析 GitHub 开发者使用 3 代 AI 编码工具后发现,尽管提交数显著增加(自主代理提升 180%),但项目数仅增加 50%,实际发布量只增长 30%。新增应用数量上升但总使用量未增,弹性替代率为 0.25,表明 AI 提升效率后仍需大量人类工作。
Anthropic 发现 LLM 可加速 N-day 漏洞利用
Anthropic 团队评估大语言模型对 N-day 漏洞利用开发的加速效果,发现 Claude Mythos Preview 在 18 个 Firefox 安全补丁上自主构建了 8 个可工作的代码执行 exploit,并在 21 个 Windows kernel 补丁上生成 8 条完整 exploit chain,将低权限用户提升至 `SYSTEM` 控制。
Anthropic:Agent 在生物学检索中准确率低
Anthropic 研究指出,AI agents 在生物学检索任务中(如 Ebola 序列任务)存在准确率低的问题,例如 Claude Sonnet 4 返回序列数不一致,导致溯源错误。研究发现,加入可重复的检索工具后,agents 的准确率和一致性都显著提高。
论文:Agent 上下文文件或降低编码成功率
一项大规模实证研究评估 AGENTS.md 等上下文文件对编码 Agent 的影响。LLM 生成的 context file 在 8 组测试中有 5 组成功率下降,平均在 SWE-bench 上为 -0.5%。开发者手写平均提升 4%,但成本更高,显示 context file 使用需谨慎。
CL-BENCH:简单记忆在连续学习中表现更优
研究者提出 CL-BENCH 基准测试,涵盖编程、数据库、预测等 6 个领域,发现简单全上下文记忆(如 Claude Sonnet 4.6)在连续学习任务中表现优于专门化记忆系统,挑战了当前内存密集型 AI 代理的设计思路。
AutoLab 基准:Agent 持久性重于初始想法
斯坦福等机构提出 AutoLab 基准,包含 36 项任务。实验显示,Agent 的首次想法质量并非成功主预测因子,持续测试与及时利用反馈才是关键。Claude Opus 4.6 凭借此特质在基准中领先,其他模型常提前退出或超时。
AdaCoM:通过小型 LLM 管理 Agent 上下文
论文提出 AdaCoM,通过一个独立的、不重新训练主 agent 的小型 LLM 在每一步动作前编辑 agent 的工作上下文。该方法将上下文管理外置为一个训练过的 manager,在 web search 和 deep research 任务上,平均 web search 性能提升 39%。
大型模型学习能力更强:稀有任务保留与干扰少
Stanford 等机构论文解释大型模型学习能力更强的原因,在于其不易遗忘稀有技能,且梯度干扰更少。研究在 toy task 和 OLMo 语言模型 (4M-4B) 上验证,结果显示更大模型在低频任务上学习更优,保留更多任务特征。
MMAE:音频编辑基准揭示 AI 技术缺口
Tencent Hy 与 SJTU 等机构发布 MMAE 音频编辑基准测试,旨在评估 AI 根据自然语言指令精准修改音频的能力。该基准包含 2,000 个高保真样本和 17,741 个评估项,结果显示当前模型的 Exact Match Rate (EMR) 低于 5%,揭示该领域重大技术缺口。
产品更新
ChatGPT 上线图表生成功能,对话即出图
ChatGPT 更新图表生成功能,用户只需在对话框中一句话指令即可生成可交互的专业图表,包括柱状图、折线图和圆环图等。该功能已全量上线手机网页版,可将制作图表时间从 10 分钟缩短至 3 秒。
Apple Siri 整合 Google Gemini,增强跨应用能力
Apple 通过 Google Gemini 模型重构 Siri AI 助手,实现屏幕感知语义分析、跨应用动作链接和隐私人数据处理。此外,还新增空间图像重构、网页实时监控等功能。该功能需 iPhone 16 或 Vision Pro 支持,欧盟和中国市场因监管限制将推迟上市。
Kimi Work 发布本地 AI 智能体桌面应用
月策能源 (Kimi) 发布 Kimi Work 桌面应用,支持最多 300 个本地 AI 智能体并行运行,并集成 WebBridge 浏览器扩展实现网站自动化操作。该应用内置全球市场数据工具,支持 PPTX、Word、PDF、Excel 输出格式,适用于 macOS (Apple Silicon) 和 Windows。
微信发布 AI 生态指引,小程序将可被 AI 控制
微信发布《开发者接入微信 AI 生态的指引》,旨在引导小程序开发者接入微信 AI 生态系统,使微信的 AI 能够控制小程序,为未来引入更多 AI Agent 能力铺平道路。
开发者工具
Kimi Code 重大升级:CLI 安装,支持视频上下文
Kimi Developers 发布 Kimi Code 的重大升级,改进为一行 CLI、零配置快速安装。新增将视频拖入作为编码上下文的能力,支持多种插件(股票、财务报告、学术论文)并引入 ACP 协议,可与 JetBrains、Zed 等 IDE 结合使用,并提供自定义工具和工作流挂钩。
Cognition 发布 FrontierCode 编码评测
Cognition 发布 FrontierCode 编码评测,每个任务由领先开源维护者投入 40+ 小时完成,总计 1000+ 小时验证的软件工程工作。该评测包含 3000+ rubric,防范 reward hacking,其中 FC Diamond 难度高,Opus 4.8 得分仅 13.8%。
Hugging Face 与 mecadoinc 发布 CADGenBench
Hugging Face 与 mecadoinc 发布 CADGenBench,一个用于 CAD 生成与编辑的基准。它包含根据工程图生成 3D CAD 模型和编辑模型的两项任务,支持工具无关提交,兼容多种 CAD 栈,按几何准确性、拓扑正确性、接口兼容性等指标评分。
Browser Use 重写架构:Rust 实现完整浏览器控制
Browser Use 团队宣布将 Browser Use 从头用 Rust 重建,新版本 0.13.0 保持相同接口但架构完全重写。采用 Custom Rust harness + TUI、Direct CDP control 和 Full browser action space,并加入失败自恢复能力,模型可获得完整浏览器控制权。
Turboflare Alpha 发布,Cloudflare 远程缓存服务
开发者 vaish 发布 Turboflare Alpha 版,是基于 Cloudflare Workers 和 R2 的 Turborepo 远程缓存服务。功能包括一键部署、R2 制品存储、作用域令牌和分支缓存策略。用户报告 CI 构建时间从约 95 秒缩短至约 2 秒。
基础设施
NAVER 扩建数据中心至千兆瓦级,基于 NVIDIA DSX
NAVER 通过 NVIDIA DSX 平台扩建 GAK Sejong 数据中心,规划从 55 兆瓦提升至千兆瓦级,旨在支持物理 AI 模型、代理和企业工作负载,覆盖韩国及更广地区。
NVIDIA 与 SK 海力士合作开发 AI 工厂下一代内存
NVIDIA 与 SK 海力士宣布在多年合作中共同开发 AI 工厂用下一代内存。双方将利用 Omniverse 库、CUDA‑X 和 PhysicsNeMo 等技术加速半导体设计与制造流程。