返回日报列表
AI 日报 收录 90 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月20日 00:00 ~ 2026年05月21日 00:00
生成于: 2026年05月21日 00:01
本期导读
Google I/O 2026 成为本期最核心事件,Gemini 3.5 Flash、Gemini Omni、Antigravity 和 Google AI 订阅调整集中落地。另一条最重磅进展是 OpenAI 通用推理模型在平面单位距离问题上的证明,显示前沿模型已开始产出可核验的原创数学结果。

Google I/O 2026

Gemini 3.5 Flash 上线

Google DeepMindGoogleArtificial Analysis

Google DeepMind 发布 Gemini 3.5 Flash,定位为面向 agent 和 coding 的模型。官方给出 Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo、MCP Atlas 83.6%、CharXiv Reasoning 84.2%,并称输出速度比其他 frontier 模型快 4 倍,已向 Gemini app、Search AI Mode、Antigravity、Gemini API 和 Android Studio 等开放。

Gemini Omni 发布

Google DeepMindGoogle

Google DeepMind 在 Google I/O 发布 Gemini Omni,主攻视频生成与编辑,支持图像、音频、视频和文本任意组合输入,并可通过对话进行多轮编辑。Gemini Omni Flash 已上线 Gemini app、Google Flow 和 YouTube Shorts,后续还将支持更多输出模态并开放 API。

Antigravity 2.0 发布

GoogleGoogle DeepMind

Google 在 Google I/O 展示 Antigravity 2.0、CLI、SDK 和 IDE,定位为 agentic development platform。官方称它支持并行管理本地 agents、终端自治编码、用 Python 构建自定义 agents,并可用 subagents 处理大规模工程任务,当前免费开放。

Google AI 订阅更新

Google

Google 在 Google I/O 2026 调整 AI 订阅:新增 $100/月 AI Ultra 计划,顶层 AI Ultra 从 $250/月 降至 $200/月。新 $100 档提供 Gemini app 与 Antigravity 更高使用上限、Gemini 3.5 Flash、20TB 存储和 YouTube Premium;$200 档则提供 Pro 20X 级别上限。

Gemini Spark 个人 Agent

Google

Google 推出 Gemini Spark,定位为可 7×24 运行的个人 Agent,即使手机和电脑关闭也能在 Google Cloud 专用虚拟机后台执行任务。它基于 Gemini 3.5 Flash 和 Antigravity,默认可连接 Gmail、Calendar、Drive 等应用,先向 trusted testers 开放,后续面向美国 18 岁以上 AI Ultra 用户和部分企业用户。

Google AI Studio Mobile

Google AI StudioGoogle

Google AI Studio 预告推出移动端应用,支持 Android 和 iOS,用户可在手机上测试 prompts、创建和迭代 web apps,并自动同步到桌面端。官方称应用将于未来几周全球开放,目前已可在 Google Play 预注册、App Store 预订。

Google Stitch 更新

Google

Google I/O 首日为 Google Stitch 发布 5 项更新和 1 项 bonus 功能,包括实时流式生成、从代码库或 .fig 起步、局部 AI 编辑、HTML Canvas 渲染、以及导出到 Netlify、Lovable 和 Bolt。Bonus 功能还支持通过 MCP 和 Agent Skills 将代码库中的屏导入 Stitch 并同步回仓库。

Android skills 开源

Google

Android Developers 开源 Android skills,帮助 LLM 和 agents 执行 Android 开发最佳实践,覆盖 XML 到 Compose 迁移、AGP 9 升级、Navigation 3、全屏现代化和 R8 配置审核等任务。该技能已集成到 Android CLI,也可在 Android Studio 中通过 `@skill-name` 调用。

Running Guide agent 发布

Google DeepMindGoogle

Google DeepMind 发布 Running Guide agent,面向盲人和低视力跑者,目标是不依赖牵引绳或人工领跑也能独立跑步。系统以胸挂式 Pixel 10 Pro 为核心,本地分割模型负责低延迟提示,Gemma 4 E4B 负责多模态理解,并与 SG Enable 进行真实场景验证。

Google for Science 工具集

Google DeepMindGoogle Research

Google DeepMind 和 Google Research 发布 Gemini for Science,在 Google Labs 与 Antigravity 中提供面向科研的 Science Skills。套件包含 Literature Insights、Hypothesis Generation 和 Computational Discovery 三个原型,集成 30+ 生命科学模型与数据库,并已在 100+ 机构和 trusted testers 社区中测试。

Google I/O 主题演讲

Google

Google I/O 2026 Developer keynote 集中发布 Gemini 3.5 系列、Antigravity 2.0、Android 迁移 agent、WebMCP 和 Chrome 149 的 experimental origin trial。Google 还预告 5 月 21 日起提供 85+ 场 session、codelabs 和按需内容,显示其正在把模型、平台和开发者工具打包成完整工作流。

Google AI Studio 支持 Android

Google AI StudioGoogle

Google 在 #GoogleIO 上宣布 Google AI Studio 现已支持原生 Android development,用户可通过一个 prompt 构建高质量 Android 应用。官方以 14 秒演示视频展示了该能力,原帖观看量约 37 万次。

OpenAI 数学突破

OpenAI 证明单位距离问题

OpenAINoam Brown

OpenAI 公布其内部通用推理模型解决了平面 unit distance problem,推翻了由 Paul Erdős 于 1946 年提出后长期被视为接近最优的 square grid 猜想。OpenAI 称证明已由外部数学家核验,给出一族无限例子并带来多项式级改进,且这是 AI 首次自主解决数学子领域中的代表性公开难题。

OpenAI 数学证明核验版

OpenAIEmollick

OpenAI 进一步说明,这一结果并非来自专门数学模型或针对该题训练的系统,而是通用推理模型在平面单位距离问题上的原创构造。相关转述强调,证明已有外部数学家核验,并配套论文解释论证背景与无限族反例。

Noam Brown 解释突破

Noam Brown

Noam Brown 表示,模型并非为数学或该题定制,也不是 scaffold,团队尚未把它在开放问题上推到极限,目标是尽快发布给更多人使用。该帖还提到,距离前沿模型达到 IMO 金牌水平还不到 1 年,这次进展被视为测试时计算继续放大的结果。

OpenAI 计划发布通用 LLM

OpenAINoam Brown

OpenAI 通过 Noam Brown 透露,正在分享一个内部通用大模型在平面单位距离问题上的突破,并明确表示希望尽快发布给公众使用。原帖同时强调,这不是专门数学系统,而是通用 LLM 在测试时计算更多后的能力跃迁。

模型发布

Cohere 发布 Command A+

CohereCohere Labs

Cohere 和 Cohere Labs 发布开源模型 Command A+,许可证为 Apache 2.0,面向 agentic、多语言和推理密集任务,并支持图像输入。模型采用 25B active parameters、218B total parameters,context length 为 128K,官方推荐多数场景使用 W4A4 量化。

SenseNova U1 开源

SenseTime

SenseTime 在 HuggingFace 开源 SenseNova-U1,并同步公开技术报告、代码和权重。该模型采用 NEO-unify 架构,包含 8B 与 38B MoE 版本,面向统一多模态理解与生成;官方还给出 8-step 蒸馏 LoRA,把推理从 100 NFE 降到 8 NFE。

NVIDIA 推出 Nemotron-Labs-Diffusion

NVIDIA

NVIDIA 发布 Nemotron-Labs-Diffusion,提供 AR、扩散和 self-speculation 三种解码模式,覆盖 3B、8B、14B 版本及 base、instruct、vision-language 变体。官方称在 SGLang 中,8B 版本相较 Qwen3-8B-Eagle3 接受长度提升 3 倍、速度提升 2.2 倍,GB200 上可达 850 tok/sec。

Gemini Omni 发布

Google DeepMind

Google DeepMind 发布 Gemini Omni,强调它可从图像、音频、视频和文本任意组合输入生成或编辑视频。产品主打对话式多轮编辑、保持角色一致性和现实世界知识,Gemini Omni Flash 已上线 Gemini app、Google Flow 和 YouTube Shorts。

Mosaic 气象模型发布

Max Zhdanov

Max Zhdanov 发布 Mosaic 概率式天气模型,称其改写了机器学习天气预报的 Pareto frontier。模型可在单张 H100 上不足 12 秒生成 24-member、10-day 全球预报,技能与 state-of-the-art 相当,并以概率集成方式输出多个物理合理的 realizations。

Cerebras 运行 Kimi K2.6

Cerebras

Cerebras 表示正在企业试点中运行 Kimi K2.6,这是一款约 1 万亿参数的模型。Cerebras 称其推理速度约 1,000 tokens/s,并表示这是 Artificial Analysis 测得的最快前沿模型性能。

Gemini 3.5 Flash 评测

Artificial AnalysisGoogle DeepMind

Artificial Analysis 对 Gemini 3.5 Flash (high) 做了预发布评测,给出 Intelligence Index 55、Speed 219 tokens/s,输入 $1.50 / 100 万 tokens、输出 $9.00 / 100 万 tokens,总评测成本 $1551.60。模型支持 text、image、speech、video 输入,context window 为 1M tokens,并在 MMMU-Pro 上达到 84%。

Rodin Gen-2.5 发布

Hyper3DDeemos

Hyper3D by Deemos 发布 Rodin Gen-2.5,宣称是首个可由 1 张图生成千万级面数 3D 资产的模型。它支持 1M-poly in 4s,提供 obj、fbx、glb 等资源下载,首月价格为 1 美元,并可批量生成最多 10 个结果。

Supertonic 端侧 TTS

Sumanth

Sumanth 发布 Supertonic,一套完全在设备本地运行的多语言 TTS 系统,参数量为 66M,支持 31 种语言。官方称其在 M4 Pro CPU 上可达每秒 1263 字符、实时因子 0.012,在 RTX 4090 上达到每秒 12,164 字符,并提供 Voice Builder。

Carbon 基因组模型

Hugging FaceBio

Hugging FaceBio 发布 Carbon 基因组模型系列,面向 biotech 和 biogenomics 场景,并提供 collection、code、evals 和 tech report。项目强调模型轻量、开源,基于优化后的 DNA 和 mRNA 混合数据及自定义 tokenizers 构建。

智能体平台

Gemini Spark 个人 Agent

Google

Google 推出 Gemini Spark,定位为可 7×24 运行的个人 Agent,即使设备关闭也能在 Google Cloud 专用虚拟机后台执行任务。它基于 Gemini 3.5 Flash 和 Antigravity,默认连接 Gmail、Calendar、Drive、Docs、Sheets、Slides、YouTube 和 Maps,并先向 trusted testers 开放。

Google for Science 工具集

Google AIGoogle Labs

Google AI 发布 Gemini for Science,包含 Hypothesis Generation、Computational Discovery 和 Literature Insights 三个原型,面向科研工作流。该计划整合 30+ 生命科学模型与数据库,并可结合 Antigravity 等 agent 平台,把原本需要数周或数月的流程压缩到几分钟。

Claude Managed Agents 更新

Anthropic

Anthropic 为 Claude Managed Agents 增加 self-hosted sandboxes 和 MCP tunnels:前者已进入 public beta,后者处于 research preview。新能力允许 agents 在自有基础设施或托管环境中运行,并通过单条出向连接访问内网 MCP servers,而无需暴露到公网。

Claude 管理代理改进

Anthropic

Anthropic 进一步更新 Claude Managed Agents,支持在一次 session 中动态更换 tools 和 MCP servers。若 agent_toolset 与 MCP tools 输出超过 100K tokens,系统会自动写入 sandbox 文件,只把截断预览和文件路径交给模型。

Grok 接入 OpenClaw

xAIOpenClaw

xAI 宣布用户可直接在 OpenClaw 中使用已有 Grok、X Premium 或 SuperGrok 订阅,无需单独申请 API Key。OpenClaw 是一个 local-first 的 agent 和个人助理,支持跨会话持久记忆,并可连接 WhatsApp、Telegram、Slack、Discord、Signal 和 iMessage。

Factory Droid Deferred Context

Factory

Factory 发布 Droid 的 Deferred Context Engine,通过先用紧凑索引表示能力、再按需加载完整 tool schema 和 skill instructions 来控制上下文。官方称这可让单次会话 context size 减少 40%+,同时降低成本和延迟,并提升 agent 专注度。

Multica 协作平台

Multica

Multica 推出开源项目管理平台,把 Claude Code、Codex CLI、Gemini CLI、OpenCode、OpenClaw 等 11 款工具统一纳入看板和任务流。平台支持自动扫描本机工具、推送实时进度,并提供桌面端、自托管和 Kubernetes 部署选项。

Active Graph 开源

Yohei Nakajima

Yohei Nakajima 开源 Active Graph,这是一个面向 long-running agents 的 event-sourced reactive graph runtime。项目提供 MIT 许可和 Python 3.11+ 支持,主打可审计、可回放和可追踪 lineage 的状态层,并支持 fork-and-diff 的 agent 运行方式。

CommonGround Kernel preview

Intelligent Internet

Intelligent Internet 发布并开源 CommonGround Kernel preview,想把 agent 的工作记录转化为可持久保存、可检索和可复用的公共协作上下文。项目强调它是 kernel 而非托管产品,首条路径是本地优先、CLI 优先,支持提交 public work report。

Browse.sh 技能目录

Browserbase

Browserbase 发布 Browse.sh,首发收录 100+ 个可安装 browser skills,并可通过一条 CLI 命令安装。其技能以 SKILL.md 和脚本保存网站导航与 selector 规则,在 Craigslist 场景中可将成本从约 $0.22 降至约 $0.12,下降 45%。

开发者工具

OpenCLI v1.8.0

OpenCLI

OpenCLI 发布 v1.8.0,重点升级 Browser Agent Runtime,把浏览器操控从拼选择器改为 accessibility tree、语义定位和 CDP 原生输入结合。新版本新增多站点支持,并修复下载路径穿越、兼容性回退和 YouTube 字幕污染等稳定性问题。

Chrome DevTools for agents

Google

Google I/O 宣布 Chrome DevTools for agents,提供自动验证、调试和优化能力,配合 WebMCP 一起进入 Chrome 149 的 experimental origin trial。该能力面向 agent 工程化落地,帮助模型直接理解网页与调试结果。

AI Studio Mobile 开发体验

Google AI Studio

Google AI Studio 移动应用允许用户在手机端构建、测试和分享基于 Gemini 的应用,并将工作区自动同步到桌面端。官方强调它可从 prompt 直接生成可用 Web app,还支持一键分享 URL。

Browse.sh 接入 Hermes Agent

Nous ResearchBrowserbase

Nous Research 表示 Hermes Agent 已接入 Browserbase 的 Browse.sh hub,可直接使用数百个 browser skills 执行网页任务。Browse.sh 官网称任何 agent 只需 1 条 CLI 命令即可安装技能,并可借助 DOM selectors 和 XHR requests 将 token 成本降低 50x。

PaddleOCR 3.5

PaddlePaddle

PaddlePaddle 宣布 PaddleOCR 3.5 正式支持 Hugging Face Transformers 作为推理后端,支持 PP-OCRv5 和 PaddleOCR-VL 1.5。开发者可通过 `engine="transformers"` 运行 OCR 和文档解析任务,并用 `engine_config` 配置 dtype、device placement 和 attention implementation。

DiffSynth-Studio Offload Training

DiffSynth-Studio

DiffSynth-Studio 发布 Offload Training,让用户可以在单张消费级 GPU 上训练 Qwen-Image 或 Wan2.2-14B。示例显示一个 10 层 toy model 的显存从 4GB 降到 1.4GB,方法是仅把当前层权重加载到 GPU,计算后立即 offload。

Codex++ 开源

b-nnett

b-nnett 开源 Codex++,这是一个用于 Codex desktop app 的 tweak system,可在不重建应用的情况下注入自定义功能、修复 UI bug,并增加 tweak manager。项目目前处于 alpha/Beta,支持 macOS 和 Windows。

Android skills 集成 CLI

Google

Google 将 Android skills 集成到 Android CLI,支持 `android skills list` 查看技能、`android skills add --skill skill-name` 安装更新,也可在 Android Studio 中用 `@skill-name` 调用。技能包覆盖 Compose 迁移、AGP 9 升级、Navigation 3、全屏现代化和 R8 配置审核等任务。

mimalloc 介绍

Microsoft Research

Microsoft Research 介绍开源内存分配器 mimalloc,称其是 malloc/free 的可替换实现,代码约 1.2 万行 C,面向高并发和大内存服务。该项目在 GitHub 上有超过 1.2 万 stars,Rust wrapper 日下载量超过 10 万次,并已用于 Bing、NoGIL CPython 3.13+ 和 Unreal Engine。

JFrog 与 OpenCode 集成

JFrogOpenCode

JFrog 与 OpenCode 宣布合作,把企业治理能力接入自治式开发工作流。集成可在会话开始时自动配置 JFrog CLI 和包管理器,覆盖 pip、mvn、npm,并限制 agent 只发现经 JFrog AI Catalog 审核的 MCP servers。

Deferred Context Engine

Factory

Factory 的 Deferred Context Engine 通过先压缩表示可用能力、再按需展开完整上下文,减少 agent 会话中的 context size。官方表示该方案可降低 40%+ 上下文占用,并同时改善成本、延迟和专注度。

研究突破

Terminal-Bench Science

Thom Wolf

Terminal-Bench Science 发布了面向自然科学真实工作流的 agents 基准,覆盖 life sciences、physical sciences、earth sciences 等方向,并计划扩展到 100+ tasks。任务要求可容器化、可用 deterministic pytest 验证,提交通道开放到 2026 年 8 月。

CHI-Bench 医疗基准

Weiran Yao

Weiran Yao 发布 CHI-Bench,用于评估 AI agents 是否能端到端自动化美国医疗工作流。基准包含 75 个长周期任务、运行 60–80 步,最佳模型 Claude Code Opus 4.6 的 pass@1 为 28%,OpenAI Codex GPT-5.5 为 21%。

Anti-Self-Distillation 方法

_akhaliq

研究团队提出 Anti-Self-Distillation,用 pointwise mutual information 分析 reasoning RL 中 privileged context 对 deliberation token 的抑制,并用有界 divergence 与 entropy-triggered gate 作为替代。该方法在 4B 到 30B 的 5 个模型上,把达到 GRPO 基线所需步数减少 2 到 10 倍,最终准确率最高提升 11.5 分。

ESI-BENCH 发布

Yining HongJiageng LiuLi Fei-Fei

ESI-BENCH 用于衡量 embodied spatial intelligence 中的 perception-action loop,基于 OmniGibson 覆盖 10 个任务类别和 29 个子类别。实验显示主动探索优于被动方案,失败主要来自 action blindness,且显式 3D grounding 在深度敏感任务上更稳定。

Code as Agent Harness 综述

UIUCMetaStanford University

UIUC、Meta 和 Stanford University 相关作者发布《Code as Agent Harness》综述,主张把 code 视为 agent 的运行底座而非结果载体。文章提出 Harness Interface、Harness Mechanisms、Scaling the Harness 三层框架,覆盖 6+ 应用场景和 450+ 篇引用工作。

MeMo: Memory as a Model

DAIR.AI

DAIR.AI 介绍论文《MeMo: Memory as a Model》,提出用独立训练的 memory model 为任意 LLM 增强记忆能力,在不改动 LLM 参数的情况下存储、检索并融合新事实。实验覆盖 BrowseComp-Plus、NarrativeQA 和 MuSiQue,目标是减少 catastrophic forgetting 并提升跨文档关系建模能力。

NanoGPT-Bench

Intology

Intology 发布 NanoGPT-Bench,要求代码 agents 在无人工干预、无互联网访问下,从 2025 年 9 月 3 日的人类世界纪录恢复接下来约 5 个月的进展。对 Claude Code、Codex 和 Autoresearch 的测试显示,三者分别尝试 455、399 和 321 个变体,但恢复的人类进展都不到 10%。

Grok 税改分析

EMostaqueGrok

Emad 引用 Grok 对美国联邦税改信息图的分析,讨论把下半数家庭联邦税降为 0 的影响。Grok 估算底部 50% 纳税人约 7600 万户,缴纳约 700 亿美元个税,合规摩擦成本约 240 亿美元,报税时间约 6 亿小时。

基础设施

Gemini 3.5 Flash 评测

Artificial AnalysisGoogle DeepMind

Artificial Analysis 对 Gemini 3.5 Flash 的评测显示,其 Intelligence Index 为 55,Speed 219 tokens/s,输入价格 $1.50 / 100 万 tokens,输出价格 $9.00 / 100 万 tokens。报告还指出其 GDPval-AA 为 1656 Elo、MMMU-Pro 为 84%,但运行 Intelligence Index 的总成本达到 $1551.60。

Cerebras 运行 Kimi K2.6

Cerebras

Cerebras 在企业试点中运行 Kimi K2.6,称这款超过 1T 参数的模型可达到约 1,000 tokens/s。公司还表示,这一结果是 Artificial Analysis 测得的最快前沿模型性能,并与其推理基础设施能力直接相关。

Hugging Face Hardware

Hugging Face

Hugging Face 推出 Hardware 页面,用于展示开源 AI 实际使用的硬件分布,而不是基准测试或厂商营销数据。页面将覆盖 trending GPUs 和 CPUs、VRAM distribution 与 inference hardware trends。

NVIDIA 和 Google Cloud 扩大社区

NVIDIAGoogle Cloud

NVIDIA 和 Google Cloud 在 Google I/O 上宣布,联合开发者社区在 1 年内已吸引超过 100,000 名开发者。过去一年,社区成员已在 GKE 上交付 RAG 应用、构建多智能体流水线,并为体育分析和企业数据管道原型化 hybrid inference。

SpaceX S1 引用 SemiAnalysis

SpaceXSemiAnalysis

SpaceX 在 2026 年 5 月 21 日提交的 S1 中引用 SemiAnalysis,并说明其 AI Compute Infrastructure Advantage and Growth Strategy。SemiAnalysis 还披露 SpaceX 与 Anthropic 在 2026 年 5 月签订 Cloud Services Agreements,覆盖 COLOSSUS 和 COLOSSUS II,月费 1.25B 美元,期限至 2029 年 5 月,TCV 约 45B 美元。

SemiAnalysis GPU 性价比比较

SemiAnalysis

SemiAnalysis 继续比较数据中心 GPU 性能与成本,转述称 Nvidia Vera Rubin 在性能上是 TPU 的 5 倍,但成本是 TPU 的 2 倍。另一条相关内容提到 AMD MI355 在 GLM5 架构下用于单节点服务时,FP8 方案比 B200 便宜 40%。

10,000×B300 训练

Anthropic

Anthropic 一名 MTS 表示,团队使用 Mythos 发起了 10,000×B300 的自动研究训练任务,用于训练下一代 Claude。原文将这一规模与普通从业者可获得的 8×H100 资源作对比,强调算力差距极大。

mimalloc 作为底层组件

Microsoft Research

Microsoft Research 介绍 mimalloc 时也强调其在 Bing 等服务中的落地效果,说明它能服务于从 Lean、Koka 到 500 GiB 以上大内存服务的不同场景。其核心价值是以有界最坏时间、较低碎片和较少竞争来提升底层运行效率。

商业与人事

OpenAI 准备 IPO

OpenAIWSJ

WSJ 报道称 OpenAI 正在准备在未来几天或几周内申请 IPO。当前披露信息未包括融资规模、估值区间、承销商或具体上市时间。

Anthropic 收入将达 109 亿美元

AnthropicWSJ

WSJ 报道称,Anthropic 向投资者披露其第二季度收入预计将超过翻倍至 109 亿美元,同比增长 130%,并将首次实现约 5 亿美元经营利润。该预测来自正在进行的融资轮,且可能把估值推高到高于 OpenAI 的水平。

DeepMind 招募 Contextual AI

Google DeepMindContextual AIBloomberg

Bloomberg 报道称 Google DeepMind 以约 1 亿美元交易从 Contextual AI 招募 20 多名研究人员,其中包括 CEO Douwe Kiela,并获得其技术授权。原文未披露更细的交易结构和时间安排。

Andrej Karpathy 加入 Anthropic

Andrej KarpathyAnthropic

BestBlogs 汇总称 Andrej Karpathy 已官宣加入 Anthropic,这被视为对研究文化和人才结构都有信号意义的人事变动。相关信息与 Google I/O、Claude Managed Agents 更新并列成为当天简报重点。

Cohere 开源 Command A+

Cohere

Cohere 再次发布开源权重 Command A+,并强调希望开发者从实验直接走向生产。其商业定位是 enterprise-grade agentic 能力,模型提供 BF16、FP8、W4A4 三种量化,以适配不同 GPU 成本。

阿里云千问云

阿里云

阿里云推出“千问云”,并将云上 100 多个产品整体改造为可自己干活的 Agent,覆盖存储、数据库和运维等产品线。其商业模式被描述为按 Agent 完成的工作量收费,从卖资源转向卖劳动力。

Spotify Claude 使用分享

SpotifyAnthropic

Spotify 的 Chief Architect 在 Anthropic 现场展示团队如何借助 Claude 实现每天 4,500 次部署。帖子还称,Spotify 超过 99% 的工程师使用 AI 编码工具,且在 Opus 4.5 发布后采用率明显提升。

World Labs 举办 World Jam

World Labs

World Labs 公布首届 World Jam 获奖作品,并上线 Museum 交互式档案站点,展示空间体验创作。比赛为期两周,主题围绕 world models、spatial intelligence 和 immersive 3D experiences,前三名为 Vapor Splat、Fluxus 和 Moltblox。

政策与安全

Anthropic 扩展 frontier AI 对话

Anthropic

Anthropic 表示正在与 15+ 个宗教和跨文化群体中的学者、神职人员、哲学家和伦理学者讨论 frontier AI 的行为与“品格形成”问题。公司还在内部测试一个 self-reminder 工具,让 Claude 在重要动作前暂停并调用自身承诺,以降低不一致行为。

Anthropic 宗教伦理对话

Anthropic

Anthropic 另一篇说明称,这些对话未来还将扩展到法律学者、心理学家、作家和公民机构。公司表示,讨论可能影响 Claude 的 constitution、训练价值观和行为评估范围,并在内部实验中观察到 misaligned 行为率下降。