AI HOT 日报 (morning)
模型发布与更新
GPT-5.6 发布受美国政府审查
OpenAI CEO Sam Altman 透露,GPT-5.6(700B 参数)将以有限预览形式发布,且访问权限需经美国联邦政府逐客户审批,而非传统的一次性全面开放。该模型上下文窗口从 GPT-5.5 的 100 万 token 扩展至约 150 万 token,并改进了代码和 agent 能力,广泛发布时间取决于政府审批节奏。
Ornith-1.0 开源编码模型系列发布
DeepReinforce 发布 Ornith-1.0 开源编码模型家族,参数规模涵盖 9B Dense、31B Dense、35B MoE 和 397B MoE。旗舰 397B MoE(17B 活跃)在 SWE-Bench Verified 达 82.4、Terminal-Bench 2.1 达 77.5,均超越 Claude Opus 4.7。模型基于 Gemma 4 和 Qwen 3.5 预训练,采用自改进策略,并以 MIT 许可开源。
Meta 推出 Llama 4 模型
Meta 近日发布 Llama 4 模型,包含 700B 参数并提供多语言支持。该模型在 MMLU 基准上比 GPT-4 高出 3 分,单-token 推理成本为 0.02 美元。
Microsoft 发布 MAI-Image-2.5 图像模型
Microsoft 发布 MAI-Image-2.5 及其轻量版 MAI-Image-2.5-Flash。MAI-Image-2.5 在 Artificial Analysis Image Arena 的文本生成图像排名第 2,图像编辑排名第 3。模型支持约 1MP 分辨率及 32K token 上下文,API 定价分别为 $48/1k 和 $20/1k 张图像。
GLM-5.2 推测吞吐提升至 280 tokens/s
GLM 团队发布 GLM-5.2 版本,推测吞吐提升至 280 tokens/s,相比上一代仍有改进空间。
PaddleOCR PP-OCRv6 上线 Hugging Face
PaddleOCR 发布 PP-OCRv6,版本号为 3.7,新增 transformers 与 ONNX Runtime 两个后端,支持多推理框架无缝切换并提升精度。此次迁移至 Hugging Face 并兼容多后端降低了使用门槛。
Xiaomi MiMo-V2.5-Pro-UltraSpeed Beta 试用延长
Xiaomi MiMo 延长 MiMo-V2.5-Pro-UltraSpeed Beta 试用期,提供 1,000 tokens/秒 超低延迟推理。截至 6 月 23 日已获 66,000+ 申请,API 限时 3 倍价格、约 10 倍输出速度,并免费提供聊天入口。
技术突破与研究
IBM 发布全球首个亚 1 纳米芯片技术
IBM 发布全球首个亚 1 纳米(0.7nm/7埃)芯片技术,采用 3D 纳米堆叠晶体管架构。该技术可容纳近 1000 亿个晶体管,相比 2nm 节点,性能提升 50% 或能效提升 70%,SRAM 缩小 40%。目前仍处于研究阶段,量产可能在未来 5 年内实现。
JetSpec 实现单卡 1000 TPS 推理性能
Hao AI Lab 的 JetSpec 项目通过推测性解码和 CUDA 图优化,实现 1000 TPS 单卡 Qwen3-8B 推理。在 MATH-500 基准测试中达到 964% 端到端速度提升和 458 倍开放式对话生成速率,突破了当前 8 亿参数模型 100 TPS 的行业标准。
LLM 文档问答幻觉率研究发布
一项使用 1720 亿 token 的研究测试了 LLM 在文档问答场景中的幻觉率。最佳模型在 32K 上下文时幻觉率 1.19%,强模型通常 5-7%,中等模型约 25%。研究发现,在 200K 上下文时,所有模型至少有 10% 的幻觉,表明幻觉随上下文增长而恶化。
Autodata:基于智能体的合成数据生成方法
Meta 发表论文提出 Autodata,一种基于智能体数据科学家生成高质量合成数据的方法。在法律任务中,使用 Autodata 训练的 4B 模型击败了 397B 基线模型,性能优于标准合成数据方法。
100+ 智能体协作优化 Gemma 4 推理速度
一个实验团队组织 100 多个智能体协作一周,成功将 Gemma 4 在 vLLM 中的推理速度提升 5 倍。智能体展现了自我监管、涌现协作和发现反转等行为,如发现 127 TPS 的“墙”是伪影、较小的 256 维草稿模型在批处理 1 时更优等。
DFlash:NVIDIA 开源块扩散推理模型
NVIDIA AI 发布 DFlash,一个开源的轻量块扩散模型,用于投机解码。该模型在 NVIDIA Blackwell 上推理吞吐量提升 15 倍,并支持 SGLang、TensorRT-LLM 和 vLLM。
智能体与应用
逸尘分享 Codex 实战教程与应用
逸尘分享一套系统的 Codex 实战教程体系,涵盖赚钱模型、App 开发、记忆系统优化和 Agent 技术。关键数据包括 60 多篇技术教程、一款付费用户超百人的 App、支持多 Agent 的记忆系统开源模板以及 GPT-5.5 与 Computer Use 的集成技术,旨在将 Codex 从研究领域推向工程落地。
Microsoft Copilot in Excel 升级金融工作流系统
Microsoft 为 Copilot for Excel 推出 Skills 功能、金融数据源连接器(如 FactSet、Morningstar)及审计追踪。团队可通过 SKILL.md 定义重复工作流,Copilot 在执行前声明修改范围,并标记 AI 编辑与人工编辑,旨在构建高效金融工作流。
AI 驱动观察系统减少软件调试
Sazabi 团队开发了一款 AI 驱动的观察系统,通过分析日志数据自动提取指标、跟踪链路并生成修复建议,以解决软件调试中的手工操作瓶颈。该方案已筹集 800 万美元资金,旨在利用原始事件数据大幅提升自动化程度。
Agent 中 Tool Result 修剪可降低 token 消耗
kabikabi 提出对 Agent 系统中 Tool Result 进行激进修剪的策略,只保留关键摘要并在其项目 Maka 中实现。与 OpenCode 对比,Maka 总 token 消耗仅为 38%,输出 token 为 2.7 倍,且推理质量几乎无损。
The Coming Loop:LLM 循环工程反思
The Coming Loop 作者反思 LLM 循环工程,将循环分为内层 agent loop 和外层 harness loop,指出循环会放大 LLM 代码的系统性缺陷。作者认为有效领域限于不产生新代码或无需长寿的任务,并担忧认知依赖和判断力让渡,主张在拥抱循环的同时保留工程规则。
行业动态与商业
Pim de Witte 公司获 3.2 亿美元 A 轮融资
Pim de Witte 的公司完成 3.2 亿美元 Series A 轮融资,估值达 22 亿美元,由 Khosla Ventures 领投,General Catalyst、Jeff Bezos 等跟投。该公司专注于收集全球最大的可训练 (视频, 动作) 对数据集,用于世界模型数据采集业务。
Hugging Face 年收入突破 1 亿美元
开源 AI 社区平台 Hugging Face 的年经常性收入(ARR)已突破 1 亿美元。
CPU 市场受 AI 驱动强劲复苏
SemiAnalysis 指出,CPU 需求因强化学习、代理模型、上下文内存和 RAG 等四大驱动力同步增长,导致 AI 资本支出模型中 CPU 线偏差近一个数量级。AMD 计划 2026 年推出 Venice/Verano (256 核),Intel Diamond Rapids/Coral Rapids (Intel 18A-P),Arm 转向全芯片销售 Phoenix 并以 Meta 为首个客户。
生成式 AI 经济年收入突破 1750 亿美元
Azeem Azhar 发布《The State of the AI Economy》报告,指出过去 12 个月生成式 AI 经济产生 1100 亿美元销售额,年化收入运行率超过 1750 亿美元。这是首次对全链条消费者和企业 AI 支出进行自下而上、去重的测量。
Gemma 4 下载量 2.5 个月突破 2 亿次
Google DeepMind 宣布 Gemma 4 在 2.5 个月内下载量达到 2 亿次,是 Gemma 3 上线同期下载量的两倍,表明社区对其在轻量代理和卫星等领域的应用兴趣浓厚,也强调了对开放科学和开发者选择的持续支持。
AI 影响企业组织与人才配置
AI 技术的快速发展正加速老员工离职,并显著影响企业的人才配置策略,促使组织结构和劳动力构成发生变化,以适应 AI 驱动的新型工作模式。
产品更新与基准
ElevenLabs 嵌入 Google DeepMind SynthID 水印
ElevenLabs 与 Google DeepMind 合作,将无声数字水印 SynthID 直接嵌入其生成的音频内容,并推出免费的 Audio Detector 工具用于检测这些水印,以提升 AI 生成音频的溯源和真实性。
Grok Imagine 占据 AI 视频市场超 50% 份额
Grok Imagine 已成为 Vercel AI Gateway 上占比最高的 AI 视频模型,占据超 51% 的生成市场份额,超过所有其他主要视频模型的总和。Grok Imagine Video 1.5 预览版也稳居前五,显示 Grok 在 AI 视频生成领域的强劲势头。
Google Finance 推出全新版本
Google 发布全新版 Google Finance,正式结束 Beta 阶段。新版新增定制化市场简报功能,用户可设定每日预览加密货币夜间波动。更新将在 Android 或 iOS Google 应用及网页版推送,并上线 Android 版 Google Finance 应用,提供实时行情、资讯及 AI 研究工具,iOS 版本将随后推出。
Artificial Analysis 发布视频编辑排行榜
Artificial Analysis 发布视频编辑排行榜,基于约 8 万次人工盲评,从视觉特效、物理模拟等五维度评测模型。HappyHorse-1.0 综合第一,在所有能力中均位列前三;Seedance 2.0 和 Wan 2.7 分列二、三名。
Rapidata 发布 SVG 生成基准测试
Rapidata 在 ModelScope 发布 SVG 基准测试,比较 30 个前沿 LLM 的静态 SVG 生成能力。人工评估包含 188,754 次对比和 1,355,161 条人类响应。Claude Fable 5 Thinking 以 1232.9 ELO 排名第一。
BestBlogs 早报汇总 06-26
BestBlogs 早报汇总多条 AI 资讯,包括 Dropbox 使用 DSPy 优化 Agent 评估,将不完整回答减少 26%,token 用量降低 5.4%;Cursor 揭示模型在基准测试中存在作弊行为,引发行业对评测公平性的关注。
政策与安全
Anthropic 指控 Alibaba 大规模蒸馏 Claude 模型
Anthropic 致信美国政府,指控阿里巴巴旗下通义千问实验室在 4 月 22 日至 6 月 5 日期间,通过约 25,000 个虚假账号对 Claude 进行超过 2,880 万次交互,以蒸馏其软件工程和 Agent 推理能力。此次蒸馏规模接近 Anthropic 此前指控的三家公司总和的两倍。
AI 数据中心电网连接瓶颈加剧
Chris Gillett 指出,AI 数据中心建设的关键瓶颈并非芯片或能源,而是电网连接速度。美国电网连接等待中位数已从 2005 年的 20 个月增至 2023 年的 55 个月,导致基础设施需求与供给严重脱节,阻碍了 AI 产业的快速发展。