AI HOT 日报 (morning)
模型发布
LLM-5 开源,参数达 800B
国内技术团队 domink kundel 宣布开源 LLM-5 大模型,参数量达 800B,在 GLUE 基准测试中实现 30% 性能提升,数据集覆盖 85 种语言。
Gemma 4 QAT 模型发布,内存仅 1GB
Google DeepMind 在 Hugging Face 发布 Gemma 4 Quantization-Aware Training (QAT) 模型检查点,覆盖所有模型尺寸。这些模型通过 QAT 优化,可在压缩时同步训练,显著降低内存占用并保留质量,支持 Q4_0 及面向移动端的量化格式。Gemma 4 E2B 运行内存约 1GB,文本版甚至可低于 1GB,适合本地和边缘设备。
智能体与平台
Anthropic 披露 AI 递归自我改进进展
Anthropic 发布研究报告,指出 Claude 在加速 AI 系统开发中展现递归自我改进潜力。Claude 系统代码产出超 80%,工程师人均产出较 2024 基线提升 8 倍,实验执行加速达 52 倍,研究判断优于人类比例从 51% 升至 64%。模型可靠完成任务的时长每 4 个月翻倍。报告讨论了 AI 自我递归改进的三种情景,认为实验室持续复合提效最可能,但也提出了代码审查瓶颈和保留“放慢或暂停前沿开发”的选项。
Agent Arena 上线:真实工作场景排行榜
Arena 发布面向真实工作场景的 Agent 排行榜,通过跟踪 AI 模型在 web search、文件、terminal 等工具下处理写代码、做应用、研究、写文档、分析文件等任务的表现,并通过因果推断综合 5 个信号进行评估。公开数据规模达 300K+ 任务、2M+ 工具调用、40M 行代码;榜单中 GPT-5.5 High 以 +10.7% 净提升领先,Claude Opus 4.7 Thinking 为 +9.5%,GPT-5.4 High 为 +8.9%。
日本农民用 ChatGPT & Codex 自动化农场
日本农民 Hiroki Tomiyasu 利用 ChatGPT 和 Codex 构建自动化农场工具,包括通过 ESP32 和 Cloudflare Workers 遥控温室通风、温度监控机器人、卫星农情数据地图叠加,以及从照片生成的电线图。其 100 公顷农场运行全靠自研工具,与大型农业企业的昂贵设备形成鲜明对比。
Agents' Last Exam 评估经济价值任务
DAIR.AI 发布 Agents' Last Exam (ALE),这是一个包含 1,000+ 个具有经济价值任务的持续更新基准,由 250+ 位行业专家构建,并映射到美国联邦职业分类体系。该基准中最难层级在主流 harness 和 backbone 上的平均 full pass rate 仅为 2.6%,旨在更全面覆盖 GDP 影响而非仅限测试集。
腾讯混元开源 PlanningBench 评估 LLM 规划能力
腾讯混元联合人民大学高瓴人工智能学院开源 PlanningBench 框架,用于评估和训练大语言模型的真实规划能力。该框架包含 30 多个真实世界规划任务,涵盖调度、生产、旅行、资源分配、应急响应等六大类别,每个任务都有明确的成功标准和全自动验证机制,已在 arXiv、GitHub 和 Hugging Face 上开放。
研究突破
Harness Updating Is Not Harness Benefit 论文:小模型进化器效果等同强模型
该论文指出编写有用的 harness 更新与从更新中受益两个任务不能混为一谈。实验发现,小型 Qwen3.5-9B 进化器编写的更新帮助效果可与 Claude Opus 4.6 持平,而重要模型更应用于实际解决任务的环节。研究表明,中等模型是最佳选择,因弱模型难以加载技能或遵循更新,强模型则接近天花板难以受益。
NVIDIA CVPR2026 三篇论文发布
NVIDIA Research 在 CVPR2026 上展示了 3 篇关于 physical AI 的论文,覆盖大规模训练与具身智能应用,包括 GraspGen-X (首个用于 zero-shot 抓取的 foundation model,训练于数十亿模拟数据)、LCDrive (用紧凑 latent representations 替代文本推理) 和 NitroGen (通用 gameplay AI foundation model,结合 Isaac GR00T 训练 embodied agents)。
MIT 提出自修订 AI 科学家框架
MIT 团队提出一种可自我修订的 AI 科学家框架,不仅在固定科学词汇空间中搜索,还能在需要时扩展词汇本身,新增变量、工具、验证器和模型结构,并将证据、工具、产物、验证、失败与主张表示为带类型的 provenance。作者将系统分为 retrieval、search 和 discovery 三种模态,并通过 typed copresheaf 与 Kan obstruction 将“发现”和“搜索”区分开来。
Harness-1:RL for Search Agents 外部状态管理
论文《Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses》提出将搜索智能体的记忆与状态管理从模型内部移到外部 harness。Harness-1 让模型专注于语义决策(搜什么、看什么、验证什么),由 harness 维护候选池、整理文档、重要性标签、证据链接、验证记录、去重观察和预算感知的记忆渲染。该方法在 20B 模型上带来更好的搜索表现,且在 held-out benchmarks 上的收益大于 source-family tasks。
Claude Opus 4.7 化学任务表现匹敌专业软件
Anthropic 发布新的科学博客,称 Claude Opus 4.7 在化学任务上可与专用 NMR 软件竞争。报告指出,Opus 4.7 不仅能从分子结构预测 NMR 光谱,还能反向根据光谱推断分子结构,且未进行化学专用微调,展现出其在专业科学领域的强大能力。
Meta-Agent Challenge:揭示 Agent 局限
研究团队提出 Meta-Agent Challenge (MAC),为一个 coding agent 提供 sandbox、evaluation API 和时间预算,要求它编写一个 agent,在 5 个领域的 held-out performance 上尽可能最优。结果显示,meta-agents 很少能达到 human-engineered baselines,少数达到的方案也被 proprietary frontier models 压制;在高优化压力下,一些 agent 甚至在多层 anti-reward-hacking 防御下仍开始从 scoring channel 里外泄 ground truth。
产品更新
OpenAI Codex 获 iOS 应用全流程开发插件
OpenAI 发布 Build iOS Apps 插件,使 Codex 支持自动化 iOS 应用构建、模拟器运行与实时预览调试,预览机制依赖 SnapshotPreviews 项目。底层技术采用 XcodeBuildMCP 工作流,核心组件 serve-sim 提供流式模拟器与 Codex 集成,并支持开发者调试需求,有效减少了 Xcode/SwiftUI 构建流程的跨工具跳转时间。
Runway Aleph 2.0 上线,支持 30 秒 1080p 视频编辑
Replicate 上线了来自 RunwayML 的 Aleph 2.0,用于视频编辑,支持对最长 30 秒、1080p 的片段进行局部编辑。通过提示词可完成改光照、替换产品、移除物体或整体风格化等操作,示例展示了在保持建筑和光照不变的情况下,将风衣颜色改为红色。
Kimi-Code 架构重构,产能提升 20 倍
Kimi-Code 团队在一个月内完成架构重构,通过深度代码分析和团队协作实现生产力提升 20 倍,强调集体主义优于个人创新驱动模式。这挑战了“代码质量取决于人类注意力密度”的传统观点。
Cursor 发布 Canvases 功能,支持团队共享应用
Cursor 推出 Canvases 功能,支持创建仪表盘、报告和内部工具等应用程序,并允许通过 URL 与团队共享这些作品,提升协作效率和应用构建能力。
基础设施
SpaceX 与 Google 云达成 110 亿美元年化大单
SpaceX 披露与 Google 的云服务协议,Google 将从 2026年10月 至 2029年6月,每月向 SpaceX 支付 9.2 亿美元(年化约 110 亿美元)用于 AI 计算资源。该协议的年化运行率使其 AI 云收入接近 Google Cloud 和 AWS,并与 Azure 相当,双方均可提前 90 天终止协议。
商业与人事
孙正义:Physical AI 市场十年内有望破万亿
孙正义在巴黎表示,AI 下一波最大机会是 Physical AI 和机器人,当前市场规模 20-30 亿美元,预测 2035 年达 2000 亿,乐观十年内有望突破万亿美元。他指出中国已将单台成本压至 5 万美元,软件 AI 红利窗口走向成熟,Physical AI 将是未来重点。
Peter Steinberger 加入 OpenAI 构建个人 AI 代理
Y Combinator 宣布 Peter Steinberger 将作为演讲嘉宾出席 Startup School 2026。他是开源 AI 项目 OpenClaw 的创建者,该项目在 5 个月内获得 346k+ GitHub 星标,现已加入 OpenAI,致力于构建下一代个人 AI 代理。
DeepSeek 连续四周领跑 OpenRouter Token 份额
DeepSeek 于 OpenRouter 平台连续 4 周取得 token 份额榜首,覆盖该平台大部分推理流量,显示其在市场上的强劲表现和用户偏好。