AI HOT 日报 (morning)

模型发布与更新

OpenAI 发布首款自研 AI 芯片 Jalapeño

OpenAIBroadcomCelestica

OpenAI 发布首款自研 AI 推理芯片 Jalapeño，与 Broadcom 和 Celestica 合作，9 个月内完成设计流片。专为 LLM 推理优化，已成功运行 GPT-5.3-Codex-Spark，旨在降低约 50% 推理成本，提升能效并计划 2026 年底吉瓦级部署。开发过程还利用了 AI 辅助设计。

Qwen 开源 AgentWorld-35B-A3B 世界模型与 AgentWorldBench

Alibaba CloudQwenModelScope2022

Qwen 团队开源 Qwen-AgentWorld-35B-A3B (MoE 架构，35B 总参数/3B 激活，256K 上下文) 及其 7 域基准 AgentWorldBench。该模型原生模拟 7 个智能体环境，在 AgentWorldBench 上分数从 47.73 提升到 56.39，略超 Claude Sonnet 4.6 (56.04分)，并超越 Claude Opus 4.8 和 GPT-5.4。在 Terminal-Bench 2.0 提升 6.3，SWE-Bench 提升 3.4。研究显示世界建模预训练可零样本迁移至智能体任务。

GLM-5.2 开源模型在 ARC-AGI-2/1 基准创下新高

fcholletGLM-5.2

GLM-5.2 开源模型在 ARC-AGI-2 取得 22.8% 分数，成本 $0.25；在 ARC-AGI-1 取得 77.0% 分数，成本 $0.19，表现与 GPT-5.4、GPT-5.5（低推理开销）相当，是迄今为止开源模型在该基准上的最强表现。

百度开源 Unlimited OCR 模型，性能提升

Baiduxiaohu

百度开源 Unlimited OCR 模型，参数量 3B (激活 500M)，采用参考滑动窗口注意力 (R-SWA) 技术，可单次前向推理处理数十页文档。在 OmniDocBench v1.5 评测中准确率达 93%，比 DeepSeek-OCR 基线高 6 个百分点。

Cola 上线 Seed 2.1 Pro 多模态模型

Colaoran_ge

Cola 推出 Seed 2.1 Pro 模型，这是具备多模态原生能力的 SOTA 系统。相较于 2.0 版本，该模型在代码生成方面提升 15%，并优化了 Agent 交互能力。具体参数规模未公开。

Richard Zhuang 发布 OpenThinkerAgent-32B 开放数据智能体模型

Richard Zhuangnatolambert

Richard Zhuang 发布基于 Qwen-3 的开放数据智能体模型 OpenThoughts-Agent 与 OpenThinkerAgent-32B，在 7 个智能体基准测试中平均得分 44.8%，号称同类最强开放数据智能体模型。

Skywork 发布 SkyJM-Gen-9B 视觉奖励模型

SkyworkModelScope2022

Skywork 发布 9B 参数视觉奖励模型 SkyJM-Gen-9B，在 MMRB2、GenAI-Bench、GenAI-Bench-Verified 基准上分别达到 72.0、74.1、84.5 分。该模型采用 RubricRM 工作流和维度级 GRPO 训练，并以 Apache 2.0 许可开源。

GPT-5.5 Instant 新版发布

OpenAIgdb

OpenAI 推出 GPT-5.5 Instant 新版本，提升了对话趣味性、意图理解能力，能更可靠地处理复杂约束，并改进了购物与本地推荐的有用性。今天向付费用户推出，明天免费用户可用。

智能体与平台

智谱 GLM-5.2 Agent 能力领先并登陆 Cursor

Zhipu AIkarminski-牙医Cursor

智谱 GLM-5.2 在 Agent 能力评测中表现领先，个人开发者测试显示其 Agent 能力不断进化，能记忆地图并减少 tool_call 调用，智谱在 Agent 训练上领先国内模型 2-4 个月。GLM 5.2 已登陆 Cursor，以 Opus 级别成本提供服务。

Hugging Face 推出 Moon Agent，支持深度定制化和私有部署

Hugging Facevictormustar

Hugging Face 团队开发了 Moon Agent，可通过 Slack 集成使用。核心特性包括：支持任意自选模型（支持私有部署）、按插件模块化扩展工具链接能力、通过私有存储保障数据未离开本地基础设施、以及完整的审计功能。该 Agent 强调提供低自由度和高数据管控的本地化运营场景经验。

Anthropic 为企业用户推出 Claude Tag 团队功能

Anthropicberryxia

Anthropic 在 Slack 中推出 Claude Tag，使 Claude 可作为团队成员并通过 @ 进行任务调度。该功能支持加入指定频道、访问工具、积累上下文，并在沉寂线程中自动跟进。目前处于 Enterprise 与 Team 计划的 Beta 阶段，内部已在大量使用，并与 Claude Code 形成团队版进化。

LandingAI 推出 Agentic 文档提取技能 ADE

LandingAISumanth_077

LandingAI 发布了 Agentic Document Extraction (ADE) 技能，提供 Vision‑first 文档解析，可处理 20+ 文件格式并输出带边界框、坐标和置信度的结构化 Markdown、JSON 或 DataFrame。技能包括 Document‑extraction 与 Document‑workflows，可通过 Claude Code 等代理在普通语言描述下生成完整的解析流水线。

AA-Briefcase 基准测试揭示模型任务平均耗时

ArtificialAnlys

Artificial Analysis 发布 AA-Briefcase 基准测试，测量模型在长时间知识任务中的平均耗时。Claude Opus 4.8 平均每任务约 23 分钟，GPT-5.5 (xhigh) 约 11 分钟，GLM-5.2 约 16.3 分钟。Claude Fable 5 若可用预计约 28.5 分钟，工具调用仅占 12% 时间。

政策与安全

美政府首次动用出口管制下架 Anthropic Fable 5/Mythos 5

AnthropicLegion LegalTechdotey

美国政府于 6 月 12 日首次动用出口管制，以国家安全为由要求 Anthropic 下架 Fable 5 和 Mythos 5，禁止外国公民访问，此前有团队声称找到绕过其安全护栏的方法。Tom Brown 接替 Amodei 参与谈判。法律科技公司 Legion LegalTech 起诉政府，称 API 访问不构成出口，且相关出口管制分类 ECCN 4E091 已于 5 月 25 日撤销，导致其业务中断。

欧盟通过《人工智能法案》，2026 年起分阶段实施

欧盟hubeiqiao

欧盟议会通过《人工智能法案》，将从 2026 年起分阶段实施全域 AI 监管规范。该法案明确强制要求对高风险 AI 系统（如医疗、教育、就业领域）的风险评估报告、数据治理和透明性要求，首次将监管力度提升至一切产品适用架构。

Anthropic Mythos 模型数小时内攻破美国机密政府系统

Anthropickimmonismus

Anthropic 的 Mythos 模型在 Project Glasswing 测试中识别出美国机密政府系统的漏洞。参议员 Mark Warner 称该模型在几小时内攻破了几乎所有分类系统，凸显了 AI 模型潜在的安全风险。

美国政府要求 Meta 公开 AI 模型前提交审查

美国政府Metarohanpaul_ai

美国政府要求 Meta 在公开发布 AI 模型前提交给政府审查，Meta 是美国少数未加入自愿性 AI 安全审查体系的主要实验室之一。政府审查流程旨在检验先进模型是否存在敏感网络安全风险或潜在的国家安全隐患。

Anthropic 指控阿里巴巴大规模蒸馏 Claude 模型

AnthropicAlibabakimmonismus

Anthropic 指控阿里巴巴关联运营商通过近 25,000 个欺诈账户大规模蒸馏 Claude 模型，在 2025 年 4 月至 6 月间产生了 2880 万次 Claude 交互，主要针对软件工程和 Agentic reasoning 能力。

欧洲多国加入美国 Pax Silica 倡议，放弃 AI 技术主权

Pax Silicakimmonismus

欧盟、德国、荷兰、希腊等国加入美国主导的 Pax Silica 倡议，旨在锁定芯片、关键矿产、能源和算力等 AI 供应链。美国国务次卿 Jacob Helberg 将其定位为对抗“数字主权”，主张各国应加入美国主导的“创新主权”体系。欧洲多年追求的技术独立在 AI 物质基础设施层面选择融入美国体系。

LLM 无法可靠自我报告对抗性前缀攻击

rohanpaul_ai

一项研究在 10 个开源模型和 4 个安全基准上发现，LLM 无法可靠识别自己的输出是否被对抗性前缀攻击，平均 27.3% 的被攻击输出被模型误认为是自身意图，表明模型的安全自检能力薄弱。

商业与人事

Mirendil AI 成立并获 2 亿美元种子轮融资

Mirendil AIa16zNVIDIA

Mirendil AI 宣布成立，由 Behnam Neyshababur 等人共同创立，获 2 亿美元种子轮融资，由 a16z 和 Kleiner Perkins 领投，NVIDIA 跟投。团队 20 人来自 Anthropic、xAI、Google DeepMind、OpenAI 等机构，旨在通过自我加速 AI 研发推动科学进步。

Sentient 基金启动 4.2 亿美元开源 AGI 资助计划

Sentient Foundationrohanpaul_ai

Sentient Foundation 启动 4.2 亿美元开源 AGI 资助计划，旨在支持企业外部的先进 AI 项目，提供无股权稀释赠款和商业化投资。项目要求至少一个核心组件开源，并根据技术质量、生态价值、开放性和长期潜力进行评估。

科技巨头市值蒸发 2.7 万亿美元，AI 资本支出引担忧

rohanpaul_ai

本月大型科技公司市值蒸发 2.7 万亿美元，主因投资者担忧资本支出。2026 年预计资本支出 7250 亿美元，较 2025 年增长 77%；高盛预测到 2030 年 AI 相关支出将达 5.3 万亿美元。

NVIDIA 被禁 AI GPU 在中国价格翻倍

NVIDIArohanpaul_ai

NVIDIA 被禁售的 AI GPU 在中国价格翻倍，DGX B300 服务器从约 55 万美元涨至超 110 万美元，而美国零售价约 40 万美元，显示出禁售政策对市场供需的显著影响。

Google 工程师因开发流行 Workspace CLI 被解雇

GoogleJustin Poehneltsteipete

Google 工程师 Justin Poehnelt 因创建了 Google Workspace CLI 而被解雇。该工具迅速爆红，收获数千 GitHub star，位居 Hacker News 第 1 位，并吸引众多用户，而 Google Cloud Next 两日前宣布官方 CLI 即将发布。

Bain 公司利用 AI 技术评估企业软件收购目标

Bainrohanpaul_ai

FT 报道 Bain 公司正在通过一项 AI 技术，构建基于振 ה音码开发的 AI 合取实例，旨在测试企业软件对 AI 模拟库的可复制性。该方法使潜在买家能评估软件界面、数据处理、自动分析、报告推荐能力，并比较公司在竞品中的定位。

Elon Musk 更改 𝕏 简介为“Starmind”，暗示新卫星 AI 项目

Elon MuskSpaceXcb_doge

SpaceX 的 Elon Musk 更改其 𝕏 简介为“Starmind”，暗示一个名为 Starmind 的新 AI 卫星通信项目，该项目版本号为 2034，引入了新的资信路径，预示对行业产生潜在影响。

研究突破

微软 NextLat 方法使 Transformer 学习紧凑世界模型

Microsoft Researchrohanpaul_ai

微软提出 NextLat 方法，在 next token 预测基础上增加隐藏状态预测任务，迫使模型学习紧凑世界模型。实验表明，该方法在迷宫导航、数学推理、图规划等任务上表现更好，并实现最高 3.3 倍推理加速，且不改变 Transformer 架构。

DAIR.AI 分析模型路由器编码任务瓶颈并提改进方案

dair_ai

DAIR.AI 分享关于编码任务中模型路由器限制的研究，指出信息不足是瓶颈。通过添加任务维度性能统计，路由器相对提升 15.3%，并提出 Agent-as-a-Router 框架，将路由形式化为上下文-行动-反馈-上下文循环，以在部署中累积执行经验来改进路由决策。

Ant Ling 团队提出 UFP4 均匀网格 FP4 训练方法

Ant LingAntLingAGI

Ant Ling 团队发布论文，提出 UFP4 均匀网格 FP4 训练方法，在 1.5B Dense、7.9B MoE 和 124B MoE 长程预训练中，其质量比强 E2M1 基线更接近 BF16。关键洞察是 FP4 训练质量不仅取决于位宽，还取决于网格几何。

开发者工具与实践

洪定坤分享字节跳动 AI 驱动的开发实践

洪定坤ByteDancevista8

洪定坤在字节跳动开发者大会上分享了 AI 驱动的开发实践，包括用 AI 生成交互原型替代 PRD 以提前暴露分歧；构建了从 AI 写 Spec、功能实现、Browser Use 验证到自动提交上线的系统化流程；并通过上下文工程、架构约束、团队知识 Memory 和技术债梳理等基建将交付评分从 40-60 分提升至 80 分。

AI 技能软链接管理技巧，优化编码代理

dotey

作者分享了一个偏极客风格的 AI 技能管理教程，介绍了仅在项目内安装技能以节省上下文空间的做法，以及如何使用软链接将开源技能集中管理，实现自动更新和协作修复。文中提到用户有时会同时使用 4 个 coding agent，导致技能管理混乱，该方案有助于集中管理并自动同步更新。

Andrew Ng 团队采用高效结构加速 AI 产品迭代

Andrew Ngrohanpaul_ai

Andrew Ng 组织 1-10 名 engineers 组成高上下文 generalists 的团队，以加速 AI 产品迭代。这种结构消除跨部门决策瓶颈，使特性孵化时间缩短至 1 天，提升产品、设计、市场等部门的协作速度。

Slack 探讨 AI 协作新范式，强调集成现有模式

Slackpmarca

Slack 公司认为 AI 不改变工作本质，而是通过已有的开放协作基础设施（团队-工具-上下文集成空间）为 AI 创造工作条件，强调 AI 协作既是延续现有模式，又是新的应用场景探索。

机器人与多模态

Unitree Robotics Evolving 技术提升机器人移动能力

Unitree RoboticsSemiAnalysis_

单元罗博特 (Unitree Robotics) 发布 Evolving 技术，展示机器人在复杂场景中的增强移动能力。资料显示其控制系统参数量同前代相比提升 32%，在障碍物避让实验中达到 98.7% 的成功率，此突破在人形机器人领域形成新基准。

BitRobot 联合 Unitree 等发布 HIW-500 家庭机器人数据集

BitRobotUnitree RoboticsHuggingFace

BitRobot 联合 Unitree Robotics 和 HuggingFace 发布 HIW-500 数据集，收录超过 500 小时、23K+ 条片段、超 10TB 数据，涵盖 10+ 家庭任务，数据来自东南亚 12 个真实家庭，旨在推动家庭机器人研究。

PixVerse 分享舞蹈 MV 制作提示词及技术指导

PixVersesailorv321

PixVerse 分享的舞蹈 MV 制作提示词，包含参考角色图像处理、VFX 生成、相机运动和具体 dance 步骤的技术指导。关键数据：60fps 视频、118 BPM 音乐、分段动作时间轴（0.0s-15.0s），以及背景图形、粒子特效、灯光等元素的生成规则。

行业观察与洞察

Pavel Durov 谈数学物理基础对 AI 编程的重要性遭误读

Pavel DurovAYi_AInotes

Telegram 创始人 Pavel Durov 与 Elon Musk 对话中公开强调学生应注重数学物理基础，但被舆情断章取义传播为“99%学生被骗放弃编程”。原文未提此意，Durov 的核心观点是学好数学物理后编程 AI 更适合，而非放弃编程。

Yann LeCun & Eric Topol 评论 AI 医疗进展

Yann LeCunEric Topol

Eric Topol 主持讲述 AI 在癌症诊断中的突破性进展，Yann LeCun 补充了血检、肿瘤蛋白和肿瘤疫苗等技术细节。文章对比 SOTA 与临床应用的差距，强调技术持续迭代和临床落地挑战。