返回日报列表
AI 日报 收录 57 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年06月25日 00:00 ~ 2026年06月26日 00:00
生成于: 2026年06月26日 00:01
本期导读
本时段,AI 领域在模型发布、硬件创新和政策监管方面呈现多项重要进展。OpenAI GPT-5.6 的发布受到美国政府严格审查,凸显 AI 安全与监管的日益紧张。技术方面,IBM 推出亚 1 纳米芯片,JetSpec 实现单卡千 TPS 推理性能,显示硬件和推理效率的持续突破。同时,Anthropic 对 Alibaba 的模型蒸馏指控揭示了行业竞争的激烈性。

模型发布与更新

GPT-5.6 发布受美国政府审查

OpenAIrohanpaul_aidotey

OpenAI CEO Sam Altman 透露,GPT-5.6(700B 参数)将以有限预览形式发布,且访问权限需经美国联邦政府逐客户审批,而非传统的一次性全面开放。该模型上下文窗口从 GPT-5.5 的 100 万 token 扩展至约 150 万 token,并改进了代码和 agent 能力,广泛发布时间取决于政府审批节奏。

Ornith-1.0 开源编码模型系列发布

DeepReinforcerohanpaul_aiornith_

DeepReinforce 发布 Ornith-1.0 开源编码模型家族,参数规模涵盖 9B Dense、31B Dense、35B MoE 和 397B MoE。旗舰 397B MoE(17B 活跃)在 SWE-Bench Verified 达 82.4、Terminal-Bench 2.1 达 77.5,均超越 Claude Opus 4.7。模型基于 Gemma 4 和 Qwen 3.5 预训练,采用自改进策略,并以 MIT 许可开源。

Meta 推出 Llama 4 模型

Metahongming731

Meta 近日发布 Llama 4 模型,包含 700B 参数并提供多语言支持。该模型在 MMLU 基准上比 GPT-4 高出 3 分,单-token 推理成本为 0.02 美元。

Microsoft 发布 MAI-Image-2.5 图像模型

MicrosoftArtificialAnlys

Microsoft 发布 MAI-Image-2.5 及其轻量版 MAI-Image-2.5-Flash。MAI-Image-2.5 在 Artificial Analysis Image Arena 的文本生成图像排名第 2,图像编辑排名第 3。模型支持约 1MP 分辨率及 32K token 上下文,API 定价分别为 $48/1k 和 $20/1k 张图像。

GLM-5.2 推测吞吐提升至 280 tokens/s

GLMjietang

GLM 团队发布 GLM-5.2 版本,推测吞吐提升至 280 tokens/s,相比上一代仍有改进空间。

PaddleOCR PP-OCRv6 上线 Hugging Face

PaddleOCRberryxia

PaddleOCR 发布 PP-OCRv6,版本号为 3.7,新增 transformers 与 ONNX Runtime 两个后端,支持多推理框架无缝切换并提升精度。此次迁移至 Hugging Face 并兼容多后端降低了使用门槛。

Xiaomi MiMo-V2.5-Pro-UltraSpeed Beta 试用延长

Xiaomi MiMoDevs

Xiaomi MiMo 延长 MiMo-V2.5-Pro-UltraSpeed Beta 试用期,提供 1,000 tokens/秒 超低延迟推理。截至 6 月 23 日已获 66,000+ 申请,API 限时 3 倍价格、约 10 倍输出速度,并免费提供聊天入口。

技术突破与研究

IBM 发布全球首个亚 1 纳米芯片技术

IBMrohanpaul_aikimmonismus

IBM 发布全球首个亚 1 纳米(0.7nm/7埃)芯片技术,采用 3D 纳米堆叠晶体管架构。该技术可容纳近 1000 亿个晶体管,相比 2nm 节点,性能提升 50% 或能效提升 70%,SRAM 缩小 40%。目前仍处于研究阶段,量产可能在未来 5 年内实现。

JetSpec 实现单卡 1000 TPS 推理性能

Hao AI Lab

Hao AI Lab 的 JetSpec 项目通过推测性解码和 CUDA 图优化,实现 1000 TPS 单卡 Qwen3-8B 推理。在 MATH-500 基准测试中达到 964% 端到端速度提升和 458 倍开放式对话生成速率,突破了当前 8 亿参数模型 100 TPS 的行业标准。

LLM 文档问答幻觉率研究发布

rohanpaul_aiGaryMarcus

一项使用 1720 亿 token 的研究测试了 LLM 在文档问答场景中的幻觉率。最佳模型在 32K 上下文时幻觉率 1.19%,强模型通常 5-7%,中等模型约 25%。研究发现,在 200K 上下文时,所有模型至少有 10% 的幻觉,表明幻觉随上下文增长而恶化。

Autodata:基于智能体的合成数据生成方法

Metarohanpaul_ai

Meta 发表论文提出 Autodata,一种基于智能体数据科学家生成高质量合成数据的方法。在法律任务中,使用 Autodata 训练的 4B 模型击败了 397B 基线模型,性能优于标准合成数据方法。

100+ 智能体协作优化 Gemma 4 推理速度

Thom_Wolf

一个实验团队组织 100 多个智能体协作一周,成功将 Gemma 4 在 vLLM 中的推理速度提升 5 倍。智能体展现了自我监管、涌现协作和发现反转等行为,如发现 127 TPS 的“墙”是伪影、较小的 256 维草稿模型在批处理 1 时更优等。

DFlash:NVIDIA 开源块扩散推理模型

NVIDIA AI

NVIDIA AI 发布 DFlash,一个开源的轻量块扩散模型,用于投机解码。该模型在 NVIDIA Blackwell 上推理吞吐量提升 15 倍,并支持 SGLang、TensorRT-LLM 和 vLLM。

智能体与应用

逸尘分享 Codex 实战教程与应用

Astronaut_1216

逸尘分享一套系统的 Codex 实战教程体系,涵盖赚钱模型、App 开发、记忆系统优化和 Agent 技术。关键数据包括 60 多篇技术教程、一款付费用户超百人的 App、支持多 Agent 的记忆系统开源模板以及 GPT-5.5 与 Computer Use 的集成技术,旨在将 Codex 从研究领域推向工程落地。

Microsoft Copilot in Excel 升级金融工作流系统

Microsoftrohanpaul_ai

Microsoft 为 Copilot for Excel 推出 Skills 功能、金融数据源连接器(如 FactSet、Morningstar)及审计追踪。团队可通过 SKILL.md 定义重复工作流,Copilot 在执行前声明修改范围,并标记 AI 编辑与人工编辑,旨在构建高效金融工作流。

AI 驱动观察系统减少软件调试

rohanpaul_ai

Sazabi 团队开发了一款 AI 驱动的观察系统,通过分析日志数据自动提取指标、跟踪链路并生成修复建议,以解决软件调试中的手工操作瓶颈。该方案已筹集 800 万美元资金,旨在利用原始事件数据大幅提升自动化程度。

Agent 中 Tool Result 修剪可降低 token 消耗

kabikabiyetone

kabikabi 提出对 Agent 系统中 Tool Result 进行激进修剪的策略,只保留关键摘要并在其项目 Maka 中实现。与 OpenCode 对比,Maka 总 token 消耗仅为 38%,输出 token 为 2.7 倍,且推理质量几乎无损。

The Coming Loop:LLM 循环工程反思

shao__meng

The Coming Loop 作者反思 LLM 循环工程,将循环分为内层 agent loop 和外层 harness loop,指出循环会放大 LLM 代码的系统性缺陷。作者认为有效领域限于不产生新代码或无需长寿的任务,并担忧认知依赖和判断力让渡,主张在拥抱循环的同时保留工程规则。

行业动态与商业

Pim de Witte 公司获 3.2 亿美元 A 轮融资

Pim de WitteSemiAnalysis_swyx

Pim de Witte 的公司完成 3.2 亿美元 Series A 轮融资,估值达 22 亿美元,由 Khosla Ventures 领投,General Catalyst、Jeff Bezos 等跟投。该公司专注于收集全球最大的可训练 (视频, 动作) 对数据集,用于世界模型数据采集业务。

Hugging Face 年收入突破 1 亿美元

Hugging Facetbpn

开源 AI 社区平台 Hugging Face 的年经常性收入(ARR)已突破 1 亿美元。

CPU 市场受 AI 驱动强劲复苏

SemiAnalysis_

SemiAnalysis 指出,CPU 需求因强化学习、代理模型、上下文内存和 RAG 等四大驱动力同步增长,导致 AI 资本支出模型中 CPU 线偏差近一个数量级。AMD 计划 2026 年推出 Venice/Verano (256 核),Intel Diamond Rapids/Coral Rapids (Intel 18A-P),Arm 转向全芯片销售 Phoenix 并以 Meta 为首个客户。

生成式 AI 经济年收入突破 1750 亿美元

Azeem Azhar

Azeem Azhar 发布《The State of the AI Economy》报告,指出过去 12 个月生成式 AI 经济产生 1100 亿美元销售额,年化收入运行率超过 1750 亿美元。这是首次对全链条消费者和企业 AI 支出进行自下而上、去重的测量。

Gemma 4 下载量 2.5 个月突破 2 亿次

Google DeepMindo_lacombe

Google DeepMind 宣布 Gemma 4 在 2.5 个月内下载量达到 2 亿次,是 Gemma 3 上线同期下载量的两倍,表明社区对其在轻量代理和卫星等领域的应用兴趣浓厚,也强调了对开放科学和开发者选择的持续支持。

AI 影响企业组织与人才配置

rohanpaul_ai

AI 技术的快速发展正加速老员工离职,并显著影响企业的人才配置策略,促使组织结构和劳动力构成发生变化,以适应 AI 驱动的新型工作模式。

产品更新与基准

ElevenLabs 嵌入 Google DeepMind SynthID 水印

ElevenLabsGoogle DeepMind

ElevenLabs 与 Google DeepMind 合作,将无声数字水印 SynthID 直接嵌入其生成的音频内容,并推出免费的 Audio Detector 工具用于检测这些水印,以提升 AI 生成音频的溯源和真实性。

Grok Imagine 占据 AI 视频市场超 50% 份额

Xcb_doge

Grok Imagine 已成为 Vercel AI Gateway 上占比最高的 AI 视频模型,占据超 51% 的生成市场份额,超过所有其他主要视频模型的总和。Grok Imagine Video 1.5 预览版也稳居前五,显示 Grok 在 AI 视频生成领域的强劲势头。

Google Finance 推出全新版本

Google

Google 发布全新版 Google Finance,正式结束 Beta 阶段。新版新增定制化市场简报功能,用户可设定每日预览加密货币夜间波动。更新将在 Android 或 iOS Google 应用及网页版推送,并上线 Android 版 Google Finance 应用,提供实时行情、资讯及 AI 研究工具,iOS 版本将随后推出。

Artificial Analysis 发布视频编辑排行榜

ArtificialAnlys

Artificial Analysis 发布视频编辑排行榜,基于约 8 万次人工盲评,从视觉特效、物理模拟等五维度评测模型。HappyHorse-1.0 综合第一,在所有能力中均位列前三;Seedance 2.0 和 Wan 2.7 分列二、三名。

Rapidata 发布 SVG 生成基准测试

RapidataModelScope2022

Rapidata 在 ModelScope 发布 SVG 基准测试,比较 30 个前沿 LLM 的静态 SVG 生成能力。人工评估包含 188,754 次对比和 1,355,161 条人类响应。Claude Fable 5 Thinking 以 1232.9 ELO 排名第一。

BestBlogs 早报汇总 06-26

BestBlogshongming731

BestBlogs 早报汇总多条 AI 资讯,包括 Dropbox 使用 DSPy 优化 Agent 评估,将不完整回答减少 26%,token 用量降低 5.4%;Cursor 揭示模型在基准测试中存在作弊行为,引发行业对评测公平性的关注。

政策与安全

Anthropic 指控 Alibaba 大规模蒸馏 Claude 模型

AnthropicAlibabadotey

Anthropic 致信美国政府,指控阿里巴巴旗下通义千问实验室在 4 月 22 日至 6 月 5 日期间,通过约 25,000 个虚假账号对 Claude 进行超过 2,880 万次交互,以蒸馏其软件工程和 Agent 推理能力。此次蒸馏规模接近 Anthropic 此前指控的三家公司总和的两倍。

AI 数据中心电网连接瓶颈加剧

Chris Gillettkimmonismus

Chris Gillett 指出,AI 数据中心建设的关键瓶颈并非芯片或能源,而是电网连接速度。美国电网连接等待中位数已从 2005 年的 20 个月增至 2023 年的 55 个月,导致基础设施需求与供给严重脱节,阻碍了 AI 产业的快速发展。