返回日报列表
AI 日报 收录 52 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月29日 00:00 ~ 2026年05月30日 00:00
生成于: 2026年05月30日 00:01
本期导读
本时段,Anthropic 完成 650 亿美元 Series H 轮融资,估值达 9650 亿美元,并发布 Claude Opus 4.8,显著提升编码和 Agent 任务能力。同时,AI 代理在 Windows 自动化、UI 开发及销售等场景持续落地,基础设施如 Kog AI 推理加速和字节跳动自研芯片也取得进展,显示 AI 行业在商业化和技术应用双向深化。

商业与人事

Anthropic 完成 650 亿美元 H 轮融资

AnthropicAltimeter Capitalxiaohu

Anthropic 完成 650 亿美元 Series H 融资,投后估值达 9650 亿美元,由 Altimeter Capital 等领投,Micron、Samsung、SK hynix 参投。年化收入突破 470 亿美元,其中 5 月底 ARR 达 470 亿美元,较 2024 年底增长 47 倍。公司还与 Amazon (5GW)、Google/Broadcom (5GW TPU)、SpaceX (Colossus 1/2 GPU) 签署算力协议。

波士顿儿童医院 AI 应用

OpenAI

Boston Children’s Hospital 将 AI 嵌入临床和运营,已部署 50 多项自动化,节省约 60,000 小时,相当于 700 万美元劳动成本。构建“co-pilot geneticist”已帮助完成 40 多个罕见病诊断,并发现新基因靶点。

欧洲 AI 技能需求激增

McKinseyrohanpaul_ai

McKinsey 报告称,欧洲近 1/5 职业要求 AI 技能,较 2023 年增长 3 倍。AI fluency 需求增长最快 (5 倍至 940 万人),技术型 AI 技能增长 1.7 倍。需求扩散至物流、HR、合规等领域。

Anthropic/Claude 争议时间线

Maria Rcksshao__meng

Maria Rcks 汇总 Anthropic 和 Claude 相关的争议与事故时间线,引用官方状态页面、事故分析、媒体报道、GitHub 问题、诉讼和政策公告等公开记录。

模型发布

Claude Opus 4.8 发布

Anthropicshao__mengtestingcatalog

Anthropic 发布 Claude Opus 4.8,编码和 Agent 任务能力显著提升。SWE-Bench Pro 达 69.2%,GDPval-AA 1890,Terminal-Bench 2.1 74.6%。诚实度提升 4 倍,代码缺陷漏检率降低 4 倍。Fast Mode 速度提升 2.5 倍,成本降低 3 倍,定价 $5/$25/百万 token。推出 Claude Code Dynamic Workflows,支持规划-并行-验证流程。

Step 3.7 Flash 发布

StepFunOpenRouterNielsRogge

StepFun 发布 Step 3.7 Flash,198B sparse MoE (11B active),支持 256K context 和 3 个推理级别。面向 agentic、coding、search 和多模态工作流,吞吐达 400 TPS。ClawEval-1.1 67.1,SimpleVQA Search 79.2,SWE-PRO 56.3,V* Python 95.3,τ²-bench 98%+。支持 Claude Code、KiloCode、Hermes Agent、OpenClaw、MCP 协议及 SGLang,可在 Mac Studio M4 Max、DGX Spark、AMD AI Max+ 395 上本地运行。

Liquid AI 发布 LFM2.5-8B-A1B

Liquid AIberryxiaabidlabs

Liquid AI 发布 LFM2.5-8B-A1B,8B MoE (1.5B active),128K 上下文,38T tokens 训练,大规模 RL。面向设备端(手机、PC、机器人),工具调用和多步 agent 能力接近 4 倍参数模型。支持 llama.cpp、MLX、vLLM,兼容 Apple、NVIDIA、AMD 硬件,采用 LFM2 open-weight license。

Meta 发布新 Llama 模型

Metapmarca

Meta 发布新的 Llama 模型,图片显示了模型的技术规格和性能指标,包括参数量和基准测试结果。

开源交互式世界模型 SCOPE

ModelScope2022

团队开发开源交互式世界模型 SCOPE,基于 Wan2.2-TI2V-5B 模型训练 69K 视频片段,实现 FPS 游戏零射程交互控制。支持 81 帧 20FPS 输出 (832x480),处理多动作组合,并解耦武器反冲与 HUD 元素。

智能体与平台

个人代理助手实现自动化

ttunguz

个人开发者通过训练小型本地模型,实现个人代理助手,自动处理邮箱、交易管道、博客、日历和研究工作,展示了 AI 在个人生产力自动化方面的潜力。

AI 代理将取代移动应用

rileybrown

作者预测未来两年内,传统移动应用将被 AI 代理生成的动态界面取代,直接连接用户工具和数据。作者团队已研发相关技术并将公开。

AI 监控群聊自动化代码生产

Barret_China

AI 系统监控群聊、会议纪要等工作数据,自动生成可执行 todo list,结合源码仓库和 OKR 文档,完成代码开发流程 15% 以上部分,包括需求生成、代码编写、测试、PR 提交及合并,并通过双模型交叉 review 实现自动化代码审查。

Explee 推出 AutoGTM 销售代理

Expleetestingcatalog

Explee 推出 AutoGTM,一个 24/7 AI 销售代理,包含七个自主代理,用于市场研究、客户发现、邮件撰写等。覆盖 1.05 亿公司和 5.36 亿个人资料,每封邮件成本 $0.03,声称比竞品成本低 15 倍,交付率 97%。

研究突破

Microsoft 提出 SkillOpt 框架

Microsoftrohanpaul_ai

Microsoft 提出 SkillOpt 框架,通过迭代可复用 skill document 训练 agent skills。优化器模型根据 agent 成功与失败提出 skill 编辑,仅在新 skill 通过 held-out check set 时接受。在 GPT-5.5 direct chat 设置下,平均准确率提升 23.5 个百分点。

LeJEPA 世界模型学习机制

Yann LeCunrohanpaul_ai

Yann LeCun 论文探讨 LeJEPA 何时学习隐藏世界变量,发现高斯结构是关键。证明当隐藏变量为独立高斯且观测视图来自稳定噪声过程时,最优 LeJEPA 解必须恢复这些变量。

文本频率定律 Adam’s Law

FaceMindberryxia

FaceMind 团队发现,当语义不变时,Prompt 或 Fine-tuning 使用预训练语料中频率更高的表达方式,模型表现显著提升。提出 Adam’s Law,强调数据工程应加入“频率”维度。

Agent Harnesses 扩展定律

omarsar0

研究提出 Effective Feedback Compute (EFC) 坐标,用于衡量 agent 可利用的反馈。EFC 将 agent 失败解释度从 0.33-0.42 提升至 0.99。在相同计算预算下,通过重新分配“有用反馈”,成功率可从 0.27 提升到 0.90。

LLM 上下文管理效率前沿

rohanpaul_ai

提出 Efficiency Frontier 框架,比较 LLM 上下文管理策略的答案质量与 token 成本。轻量检索在低重用场景节省 25% token,内存压缩在高重用场景节省 50% token。全上下文提示仍是最高分必要手段。

OpenAI 评测经验总结

OpenAI

OpenAI 总结可信第三方评测经验,强调评测需明确主张及结果有效性证据。指出 harness 显著影响模型表现,评测主张分能力显现、护栏稳健性和系统对比三类,并列出 reward hacking、数据污染等有效性风险。

BeliefTrack 优化 LLM 推理

HuggingPapers

研究团队提出 BeliefTrack 框架,通过优化信念状态管理 LLMs 在长程推理中的信息更新、保留或忽略,使推理失败率降低 70% 以上。

开发者工具

OpenAI Codex 支持 Windows 应用

OpenAIJamesZmSunguinnesschen

OpenAI 在 Codex app 中推出 Windows Computer Use,支持在 Windows 应用中查看、点击和输入,协助完成 PC 任务。ChatGPT 移动应用也新增对 Windows 上 Codex 的支持,可远程启动和引导任务。Codex 还新增自动化搜索、组织和工作树功能,支持并行任务。

Cursor 发布开发者习惯报告

Cursorop7418

Cursor 报告显示,头部 AI 编码用户 AI 代码产出、token 消耗和 PR 合并量显著高于中位数。AI 写代码前输入/输出 token 比例大幅上升,缓存、增量理解和长期记忆重要性提高,手动 diff acceptance 减少。单个 PR 新增行数和千行以上大 PR 占比上升。

pi-dynamic-workflows 上线

LinearUncle

LinearUncle 团队发布 pi-dynamic-workflows 工具,支持通过 JavaScript DSL 实现子代理工作流编排。代理可编写工作流代码并通过引擎执行,对标 Anthropic Opus 4.8 动态工作流,支持 DeepSeek、Codex-5.5 等模型集成。

Impeccable 3.5 发布

Paul Bakaus

Paul Bakaus 发布 Impeccable 3.5,主打用 AI agent 迭代生产级 UI,与 Claude Code、Codex 等配合。发现 74% 页面使用 AI 默认米色背景,76% 极端字间距,90% 未达对比度下限,已针对不同模型修正。新增 Live Mode,支持页面直接编辑,并有反模式检测器,规则扩展至 41 条。

基础设施

Kog AI 推理速度提升

Kog AIrohanpaul_ai

Kog AI 在 8× AMD MI300X 上实现 3,000 tokens/s,8× NVIDIA H200 上 2,100 tokens/s (FP16,未用 speculative decoding)。通过联合优化 runtime、GPU 代码和模型架构,将 2B 模型推理速度从典型 100-300 tokens/s 大幅提升。

德州电网数据中心互联请求差距

SemiAnalysis

SemiAnalysis 分析德克萨斯 ERCOT 电网数据中心互联请求与实际需求差距。每月 10 几 GW 请求,仅 1 GW 获批。2024 年夏季峰值负载 90 GW。

800VDC 电力系统重塑数据中心

SemiAnalysis

SemiAnalysis 分析 800VDC 电力系统在数据中心渗透趋势,预计 2030 年推动 39GW 增量容量。过渡分四阶段,2028 年市场空间达 110 亿美元,2030 年达 130 亿美元。

字节跳动自研推理芯片

ByteDancekimmonismus

字节跳动正研发基于 Groq LPU 架构的自研推理芯片,该架构曾被 Nvidia 授权。芯片将模型保存在 SRAM,规避美国对 HBM 出口限制,并与 InnoStar 合作在 TSMC 成熟制程工厂代工。

产品更新

Anthropic 解决 Mythos 安全问题

Anthropicmenhguin

Peter Steinberger 转发 Nhat Nguyen 消息,称 Anthropic 已解决 Claude Mythos 的安全担忧,预示新模型即将上线。

ElevenLabs 推出 Dubbing V2

ElevenLabsxiaohu

ElevenLabs 发布 Dubbing V2,端到端 AI 配音模型,支持 90 种语言和口音,保留原声音情绪、停顿和语气。适用于视频、文字和音频输入,具备音色穿越、情感保真和多语言同步能力。

PaddleOCR-VL 1.6 发布

PaddlePaddleberryxia

PaddlePaddle 发布 PaddleOCR-VL 1.6,在 OmniDocBench 上达 96.33% SOTA,OmniDocBench v1.5 和 Real5-OmniDocBench 均排名第 1。提升了表格、经典文本、稀有字符及印章、图表识别能力,与 1.5 版本架构完全兼容。

政策与安全

OpenAI 推出 Rosalind Biodefense

OpenAI

OpenAI 推出 Rosalind Biodefense,帮助受信任开发者基于 GPT-Rosalind 构建生物防御与疫情准备能力,并为部分美国政府和盟友合作伙伴扩展受限访问。计划面向流行病建模、早期检测等公共卫生场景。

NVIDIA 采用 OpenMDW 标准

NVIDIAkimmonismus

NVIDIA 将 Cosmos、Isaac GR00T、Ising 和 Nemotron 四个开源模型家族迁移至 Linux Foundation 的 OpenMDW-1.1 框架。OpenMDW 提供单一许可,覆盖权重、代码、文档和数据,减少法律审查,与 NVIDIA 计算业务策略一致。