返回日报列表
AI 日报 收录 63 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年06月17日 00:00 ~ 2026年06月18日 00:00
生成于: 2026年06月18日 00:01
本期导读
本时段,Z.ai 的 GLM-5.2 模型在各项基准测试中表现卓越,确立了其在开源大模型中的 SOTA 地位,并显示出惊人的性能提升。同时,美国政府对 Anthropic 模型实施出口管制,再次强调了 AI 治理与地缘政治的紧密关联。在基础设施领域,NVIDIA 与 Azure 合作在 Blackwell 平台上创下 MLPerf 训练新纪录,而 Elon Musk 提出了在月球部署 AI 算力的宏大愿景,预示着 AI 发展正向更广阔的维度探索。

模型发布与更新

Z.ai GLM-5.2 开源:1M 上下文,多项基准登顶

Z.aiZhipu AIArtificial Analysis

Z.ai (智谱) 发布开源模型 GLM-5.2,采用 MIT 许可证,支持 1M token 上下文,结合 IndexShare 和 MTP 技术,使 1M 长度下每 token FLOPs 降低 2.9 倍,拟议解码接受长度提升 20%。该模型在 Artificial Analysis Intelligence Index 达 51 分,位列全球前三、开源 SOTA。在 CritPt 基准上得 20.9% 与 Claude Opus 4.8 持平(相比 GLM-5.1 提升 4.5 倍),并在 Code Arena 获 Elo 1595 (第 2),Design Arena 获 Elo 1360 (第 1),FrontierSWE 排名第 3。在 Terminal-Bench 2.1 编码测试中为开源 SOTA,MCP-Atlas 与 Opus 4.8 差距在 0.8% 内。API 定价与 GLM-5.1 相同,已上线 Ollama、DeepInfra、vLLM、Friendli 等平台,并已接入 Cola。

Soniox v5 Real-Time 发布:超低延迟高精度实时语音转文字

SonioxArtificialAnlys

Soniox 发布 Soniox v5 Real-Time 实时语音转文字模型,在 AA‑WER Streaming 基准中 First Final WER 为 4.5%,延迟 0.05 秒。支持 60+ 语言,定价 2 美元/千分钟,其精度和延迟平衡优于 Deepgram Flux、ElevenLabs Scribe v2 Realtime 等竞争模型。

Weibo AI 发布 VibeThinker-3B:IMO-AnswerBench 匹敌 SOTA

Weibo AIModelScope2022

Weibo AI 发布 3B 参数推理模型 VibeThinker-3B,采用 MIT 许可证。该模型在 IMO-AnswerBench 上匹敌 DeepSeek V3.2、Kimi K2.5 和 GLM-5,在 LeetCode 未知竞赛题上达到 96.1% 的接受率。训练流程包括两阶段 SFT、多域强化学习和离线自蒸馏。

xAI 发布 Grok Imagine Video 1.5:物理效果更自然,生成加速

xAIElon Musk

xAI 发布 Grok Imagine Video 1.5,新模型具备更自然的物理效果和更快的生成速度。通过演示视频,展示了对比上一代模型在质量上的显著提升,能实现更真实的场景生成。

LoopCoder-v2 发布:7B 模型性能超越 30 倍大模型

HuggingPapers

LoopCoder-v2 发布最新训练版本,模型规模缩减至 7B,生成版本在基准测试中获得 64.4 分。宣称仅需三个循环即可完成任务,其性能超越了某些 30 倍更大规模的模型。

智能体与平台

Apodex 1.0 发布:验证中心深度研究代理系统

Apodex

Apodex 1.0 深度研究代理系统发布,包含 150 个子代理,在 BrowseComp、DeepSearchQA、FrontierScience-Olympiad 基准上分别获 90.3、94.4、87.4 分。该系统通过可审计证据链增强报告准确性,采用 Apache 2.0 许可,提供 35B-A3B 等大型权重。

Microsoft Copilot Cowork 正式 GA,考虑整合 DeepSeek V4

Microsoftshao__meng

Microsoft Copilot Cowork 正式上线,已启用多模型支持,允许企业通过长期运行的 Agent 处理复杂多步骤任务。Microsoft 考虑将 Azure 托管的 DeepSeek V4 作为低成本模型选项。行业观察指出,企业级 Agent 模型频繁调用可能导致 token 消耗激增,对其商业计费模式的可持续性构成挑战。

Cursor 升级全端开发者平台,推 Origin 项目

CursorGraphiteshao__meng

Cursor 收购 Graphite 后,通过 Origin 项目将代码托管与 Git 平台功能整合至 AI 编辑器中。目标是实现从代码写作到协作的全链路无缝体验,并计划于秋季发布。此举旨在将 Cursor 从 AI 编辑器升级为支持团队和代理人管理代码协作流程的端到端开发者平台。

NVIDIA ENPIRE 系统:双层安全与遥测优化

NVIDIADrJimFan

NVIDIA GEAR 实验室的 ENPIRE 系统通过 8 个机器人集群实现物理世界 AutoResearch,系统包含硬运动学限制和扭矩限制两层安全机制。它基于演示学习的冻结奖励函数,并定义了 MRU、MTU 等遥测指标以优化资源利用。

Databricks 开源 Omnigent:AI Agent 元框架

DatabricksMatei ZahariaYuchenj_UW

Databricks 在 Data+AI Summit 上宣布开源 Omnigent,这是一个 AI Agent 元框架。它允许在单个会话中同时运行 Claude Code、Codex、Cursor、Pi 等 Agent,支持实时协作,由 Matei Zaharia 团队开发并已在 GitHub 发布。

Block 内部 AI 系统 Builderbot:实现代码库多 Agent 协作

Blockomarsar0

Block 构建了内部 AI 系统 Builderbot,通过协调多个 Agent 在代码库中协作,实现每天 20 万次操作和每周合并 1500 个 PR,占所有生产代码变更的 15%。系统将开发周期从数月缩短至数天。

Browser Use v4 代理系统实现自主 AI 游戏操作

Browser Use

Browser Use 的 v4 代理系统能分析获胜策略、创建反应性子代理,实现对 powerline.io 游戏的自主操作。系统展示了游戏状态理解与实时控制能力,用户正在测试其能否达到首位。

Exa Agent 发布:托管式 Web Research Agent API

Exashao__meng

Exa 发布 Exa Agent,一个托管式 Web Research Agent API,将前沿模型与自研搜索工具链打包为单一接口,面向深度调研、名单构建、实体 enrichment 三类任务。该系统通过 Model Fusion 动态混用模型,并使用 Highlights 模型削减 token 用量最高 94%。在 WideSearch 基准上,Exa Agent 在 Pareto 前沿上表现优于 Perplexity Agent Pro、Opus 4.8 和 GPT 5.5,且成本更低。

政策与安全

美国商务部致信 Anthropic,限制模型全球出口

美国商务部Anthropicrohanpaul_ai

美国商务部长 Howard Lutnick 致信 Anthropic CEO Dario Amodei,宣布其模型因国家安全风险,需取得工业与安全局 (BIS) 出口许可证才能在全球范围进行出口、再出口、转让或发布。此限制适用于外国人,向境外人员提供模型访问可能被视为“出口”,违规将面临民事和刑事处罚。

Anthropic CEO 反思 Fable/Mythos 下架事件:双刃剑策略

AnthropicSuyanzhenq

Anthropic CEO Dario Amodei 对 Fable 5 模型被政府勒令下架事件进行反思,指出其主动宣传模型危险性的策略成为双刃剑。事件凸显企业在面对AI安全与商业利益冲突时的困境,并分析其开源视角经营模型可能导致利益反噬。

研究突破

猴子视觉神经元活动首次实现双向语言转译

Surya Gangulipmarca

Surya Ganguli 团队通过构建猴子视觉区域数字孪生、脑内实验和视觉语言模型,首次实现将猴子视觉神经元活动自动转化为人类语言描述。研究还利用语言条件扩散模型验证,可从语言生成无限图像来刺激特定神经元,实现视觉神经元与人类语言的双向映射。

OpenAI 联合 173 位科学家发布 LifeSciBench

OpenAI

OpenAI 联合 173 位科学家发布 LifeSciBench,包含 750 个专家编写任务,覆盖七个生物研究流程,用于评估 AI 在真实研究场景中的推理和不确定性处理能力。初始结果显示 GPT-Rosalind 在所有流程上均超越 GPT-5.5。

Anthropic:Agentic 编码中领域专业知识比编程能力更关键

Anthropic

Anthropic 基于 40 万次 Claude Code 会话分析指出,在交互式编码中,领域专业知识比编程能力更能决定成功率,任务价值平均提升约 25%。研究发现,专家与中等水平用户在成功率上的差距不大。

GPT-5.4 联合 Maria AI 辅助药物化学项目,加速药物发现

OpenAIMolecule.one

GPT-5.4 模型配合 Molecule.one 的 Maria AI 及专业实验室,将药物化学项目从文献综述推进至实验结果验证。项目总耗时 3 个月(模型驱动 2.5 个月),Maria 在 10,080 种反应中筛选,优化条件使 88% 的硼酸和 83% 的磺酸产率提升。人工复现 14 种代表性反应中 11 种产率升高,其中 8 种提升超过两倍。

ResNet 获 CVPR 2026 Longuet-Higgins 奖,表彰持久影响力

MSFTResearch

ResNet 在 CVPR 2026 获得 Longuet-Higgins 奖,表彰其持久影响力。该论文发表十年后,残差连接已成为现代 AI 系统的基础,引用量超过 32 万且持续增长。

开发者工具

OpenAI Codex 支持任何开源大模型

OpenAIxiaohu

OpenAI 发布 Codex,包含客户端 App、命令行 CLI 和 SDK。OpenAI 宣布 Codex 可直接接入任何开源大模型,不强制绑定自家模型,并提供文档指导替换底层模型。

OpenAI Codex:详解操控电脑的三种方式

OpenAIdotey

OpenAI Codex 团队成员 Jason 详细介绍了 Computer Use、Chrome 扩展和内置浏览器三种操控电脑方式。Computer Use 支持跨应用控制,Chrome 扩展适用于多标签页协作,内置浏览器提供隔离环境。推荐根据登录需求、桌面应用或开发场景选择不同方式。

OpenAI Codex 新功能在欧洲经济区、英国和瑞士全面上线

OpenAIthsottiaux

OpenAI Developers 宣布 Codex 的新功能已在欧洲经济区、英国和瑞士全面推出,包括 Computer Use、Codex Chrome 扩展、个性化记忆和 Chronicle 功能。

Jason Young 开源 CC Switch:解决代码中模型兼容性

Jason Youngshao__meng

Jason Young 开源 CC Switch 项目,旨在解决代码中模型兼容性问题,在 GitHub 页面已获 103K ⭐️。该工具支持将 OpenAI Response API 集成到 Chat Completions 兼容的 Coding Agent 中。

Firecrawl 推出免费 API,支持网页及 PDF 直接抓取

Firecrawlberryxia

Firecrawl 宣布推出免费试用模式,用户现可直接通过 API 端点搜索网页、抓取内容并解析 PDF 为 Markdown,无需注册或配置 API key,大幅降低了使用门槛。

Berryxia.AI 发布 PP-OCRv6 开源本地工作台

Berryxia.AIPaddlePaddleberryxia

Berryxia.AI 发布 PP-OCRv6 开源本地工作台,支持 1.5MB 到 34.5MB 三种模型规格,通过 CoreML 加速,可在 Mac、Intel、Linux 及浏览器端本地运行。工作台包含图片批量处理、多格式导出和跨平台评测脚本,零依赖运行。

产品更新

Grok 深度集成 Office 应用,支持文档、表格及演示文稿生成

xAIGrokElon Musk

Grok 已深度集成到 Microsoft Office (PowerPoint, Word, Excel),侧边栏提供智能体,可根据提示生成文档、表格、演示文稿。它支持实时数据、图像生成,并连接自有应用和 MCP 服务器,适用于 SuperGrok、Heavy、Business 和 Enterprise 订阅用户。

ChatGPT 发布新定时任务功能,Pulse 功能将下线

ChatGPTappOpenAI

ChatGPT 发布了新的定时任务功能,覆盖 Go、Plus、Pro、Business 和 Enterprise 用户。同时宣布将在未来 14 天内下线 Pulse 功能。

Joe Speaking 公开 Beta:AI 主考官提供即时报表反馈

Joe Speakinghubeiqiao

Joe Speaking 发布公开 Beta 版本,支持自然对话式 AI 主考官,能评估用户表现并提供即时报表、回放和反馈,旨在提升口语训练和评估效率。

基础设施

NVIDIA & Azure 创 MLPerf 训练新纪录:Llama 3.1 405B 仅 7.07 分钟

NVIDIAAzure

Azure 与 NVIDIA 合作,在 NVIDIA Blackwell 平台上使用 8,192 块 GPU (GB200 NVL72 系统) 完成 Llama 3.1 405B 模型的训练,仅用时 7.07 分钟,创下迄今为止规模最大、最快的 MLPerf Training 成绩。此成绩展示了全栈创新在硅片、系统、网络和软件层面的协同效应。

Elon Musk:月球大质量驱冲实现 1000 太瓦 AI 算力

Elon Muskcb_doge

Elon Musk 提出在月球部署大质量驱冲系统,以实现 1000 太瓦级 AI 算力,通过低重力环境电磁加速器发射 AI 卫星。方案强调 90% 部件需在月球本地生产,以减少地面运输成本,超越传统太空发射限制。

AI 光子供应瓶颈:NVIDIA 锁定核心激光产能

AYi_AInotes

NVIDIA 已锁定两家头部 CPO 的核心激光产能,导致高功率 CW 激光器供应趋紧,AMD 正积极争夺剩余供应。从 2024 年起,InP 基板持续紧缺,扩产和良率提升预计要到 2026-2028 年才能缓解,AI 资本支出和利率等宏观因素仍是变量。

Twinkle v0.4.0 发布:增强 Training-as-a-Service

ModelScope2022

Twinkle 发布 v0.4.0 版本,扩展了 Training-as-a-Service 能力,支持多实例部署和深度学习模型优化,进一步提升了 AI 模型训练服务的效率和灵活性。

商业与市场

Sensor Tower:ChatGPT 市场份额首次跌破 50%

Sensor Towerrohanpaul_ai

Sensor Tower 数据显示,ChatGPT 在 AI 助手市场份额降至 46.4%,首次跌破 50%。Gemini 和 Claude 分别占 27.7% 和 10.3%。ChatGPT 月活 11 亿,但用户正在向竞品迁移。预计 2025 年整个市场应用下载量 23 亿次,支出 42 亿美元,使用时长 360 亿小时。