返回日报列表
AI 日报 收录 25 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年05月22日 00:00 ~ 2026年05月23日 00:00
生成于: 2026年05月23日 00:00
本期导读
OpenAI 围绕 Codex 连续更新并被 Gartner 评为企业编码智能体 Leader,是本时段最集中的产品线事件。Anthropic 则同时放出 Project Glasswing 进展和漏洞利用评测,显示安全与攻防能力正在成为前沿模型的重要验证方向。

模型发布

腾讯 Hy-MT2 翻译模型

腾讯

腾讯发布 Hy-MT2-1.8B、Hy-MT2-7B 和 Hy-MT2-30B-A3B 三个翻译专用大模型。官方称 30B-A3B 在 DomainMTBench 和 IFBench 上均优于 DeepSeek-V4-Pro,支持 33 种语言,包括粤语,1.8B 量化版本地内存占用不到 1GB。

LongCat-Video-Avatar 1.5 开源

美团

美团开源音频驱动的人体视频生成框架 LongCat-Video-Avatar 1.5。v1.5 用 Whisper-Large 替换 Wav2Vec2,采用 DMD2 蒸馏实现 8-step 推理,官方人工评测覆盖 508 组 image-audio pairs、770 名标注者和 4 个质量维度,并支持 INT8 量化。

Cartesia Sonic-3.5 登顶

CartesiaArtificial Analysis

Cartesia 的 Sonic-3.5 在 Artificial Analysis Speech Arena Leaderboard 升至第 1 名,获得 1,218 Elo,超过 Inworld Realtime TTS 1.5 Max 的 1,194 和 Gemini 3.1 Flash TTS 的 1,209。该模型支持 42 种语言、500+ 预置声音,定价为每 100 万字符 39 美元。

Stable Audio 3 本地化

dadabots

dadabots 发布 Stable Audio 3,称其可在 MacBook Pro 的 M-series 机器上本地运行。官方给出的数据是 M5 Pro 上可达 59x realtime,LoRA 微调不到 1 小时即可完成,并提供 Sm 与 Medium 两种模式。

网易有道开源 Confucius4

网易有道

网易有道开源 Confucius4 双模型,分别用于数学视觉推理和语音克隆,并直接提供完整权重。其语音模型支持跨语言测试,中文声说英文 WER 为 3.19,韩文声说英文 WER 为 3.42,均优于对应对照模型。

BitCPM-CANN 开源

ModelBestTsinghua UnivOpenBMB

ModelBest、Tsinghua Univ 和 OpenBMB 社区发布并开源 BitCPM-CANN,这是全球首个完全在中国自研 AI 基础设施上训练的 1.58-bit 三值 LLM。开源家族覆盖 0.5B–8B,8B 模型可在手机、PC 和汽车等端侧运行,1B–8B 相较全精度 MiniCPM4 在 11 个基准上保留 95%–97% 性能,内存占用约降低 6 倍。

智能体平台

OpenAI 获企业编码 Leader

OpenAI

OpenAI 被 Gartner® Magic Quadrant™ 评为 Enterprise AI Coding Agents 的 Leader。OpenAI 称 Codex 每周使用人数超过 400 万,已被 Cisco、Datadog、Dell Technologies 和 NVIDIA 等采用,并新增 GPT‑5.5、增强工具调用、更快性能及更深的企业开发工作流支持。

Codex 新增 Appshots

OpenAI Developers

OpenAI Developers 为 Codex app 新增 Appshots:在 Mac 上按住双 CMD 键即可把当前应用窗口附加到线程,Codex 会接收截图与文本,包括屏幕外内容。该功能覆盖 Mac 全套餐,enterprise 访问“coming soon”,同时 /goal 已正式上线,可让 Codex 连续执行数小时甚至数天。

Codex 支持锁屏运行

OpenAI Developers

OpenAI Developers 说明 Codex 现在可在 Mac 锁屏、屏幕关闭且未解锁的情况下安全使用应用,用户还可从手机远程操控自己的 Mac。配合 remote Codex,这意味着机器可以在未解锁状态下持续运行任务。

MiniMax Agent 接入 Perplexity Search

MiniMax_AgentPerplexity

MiniMax Agent 改用 Perplexity Search,并对 3 个 AI-native search provider、700+ 个 agent tasks 做了基准测试。相较默认 Serper,Perplexity 使 tool calls per task 从 32.6 降至 17.8,token usage 从 162.3M 降至 94.6M,pass rate 提升 2%,总成本下降 27%。

ChatGPT 进 PowerPoint

OpenAI

ChatGPT 现在可以直接在 PowerPoint 里创建、编辑、理解和润色演示文稿,并保持幻灯片可编辑,不会导出成死图。该能力目前处于 beta,还支持在 PowerPoint 里直接生成图片,官方正在征集反馈。

Polsia 融资 3000 万美元

PolsiaBen Cera

Polsia 完成 3000 万美元融资,融资后估值 2.5 亿美元。创始人 Ben Cera 表示公司接近 1000 万美元 annual run rate,已有 7600+ 家企业使用,且团队只有 1 名创始人、0 名员工,本轮融资过程也由平台自身完成。

研究突破

OpenAI 破平面单位距离问题

OpenAIaran_nayebi

OpenAI 在 Paul Erdős 于 1946 年提出的平面单位距离问题上取得突破,称模型自主发现了一类全新的构造。OpenAI 表示,这一结果推翻了数学界近 80 年来对最优解接近方格结构的普遍判断。

Google DeepMind 形式化证明搜索

Google DeepMind

Google DeepMind 发表论文《Advancing Mathematics Research with AI-Driven Formal Proof Search》,提出 AlphaProof Nexus:让 LLM 在 Lean 环境中反复编辑证明、读取编译错误并继续搜索,部分子问题还可调用更强证明工具。论文在 353 个已形式化 Erdős 问题和 492 个 OEIS 开放猜想上测试,最佳 agent 解决了 9 个 Erdős 问题并证明了 44 个序列猜想。

Anthropic 漏洞利用评测

AnthropicNewton Cheng

Anthropic 的 Newton Cheng、Keane Lucas、Winnie Xiao、Nicholas Carlini 和 Milad Nasr 评测 Claude Mythos Preview 在漏洞利用开发上的能力,并对比 ExploitBench、ExploitGym 与更新版 SCONE-bench。结果显示 Mythos Preview 在三项基准上持续优于所有被测模型,ExploitBench 使用 41 个已打补丁漏洞、统一 300 turn 预算并重复 3 次。

子词分词收益分解

Nous Research

Nous Research 在 1.7B 参数 byte-level 预训练管线中,逐一验证 7 个关于 subword LLM 优于 byte-level LLM 的假设。结果显示只有 3 个假设显著影响验证损失,其中 end-of-subword 标记带来持续收益,start-of-subword 标记即使只在前 50k 步使用后移除,收益仍可保留。

RAEv2 发布

谢赛宁团队Adobe ResearchANU

谢赛宁团队、Adobe Research 和 ANU 发布 RAEv2,面向视觉重建、扩散模型、原生多模态与世界模型。新工作提出把最后 K 层视觉特征相加、让 RAE 与 REPA 在 27 个编码器上互补,并证明 REPA 可实现 self-guidance,且不增加推理时 CFG 前向计算。

Replication Radar

Rhea KartyGreg LukianoffCosmos Institute

Harvard 的 Rhea Karty 开发了 Replication Radar,并由 Cosmos Institute 和 The FIREorg 支持。该工具用 AI 抓取论文、引用、撤稿和失败结果,Rhea Karty 用 pre-crisis 数据验证后称其可识别心理学复制危机中的大多数论文,并从 citation rings、机构单一化和小样本量等方面发出预警。

开发工具

Cursor Composer 2.5 基准

Artificial AnalysisCursor

Artificial Analysis 基于 API 定价和 Coding Agent Index 比较 Cursor Composer 2.5、Claude Code 中的 Opus 4.7 与 Codex 中的 GPT-5.5。结果显示 Composer 2.5 每任务成本比 Opus 4.7 低 3–18 倍、比 GPT-5.5 低 5–32 倍,完成任务仅用 160 万 token,平均 Time per Task 约 9 分钟。

Appshots in Codex

OpenAI Developers

OpenAI 的 Codex app 新增 Appshots,按下双 CMD 键后会把当前应用的截图和文本上下文发送给 Codex,连屏幕外不可见内容也会一并传入。相比普通截图,这种方式更适合在 Google Doc 等场景中保留完整上下文。

TLMs 边缘智能体

AI Engineerswyx

AI Engineer 转发了 swyx 关于边缘设备上 Tiny LLMs 和 Agents 的分享,重点讨论 on-device AI 的两种开发路径。文中提到 Function Gemma 只有 2.7 亿参数,在 Pixel 7 上 prefill 速度接近每秒 2,000 tokens,且经过合成数据微调后,固定 app intents 的准确率可显著提升。

Stable Audio 3 安装命令

dadabots

dadabots 的 Stable Audio 3 提供一行命令安装方式,并强调其 MLX 优化版可在 MacBook Pro 的 M-series 上本地运行。官方还给出 M5 Pro 上 59x realtime 和 LoRA 微调不到 1 小时的参数,降低了本地部署门槛。

基础设施

Project Glasswing 初步进展

AnthropicAnthropic-news

Anthropic 公布 Project Glasswing 初步进展,目标是在更强 AI 模型被用于攻击前提前加固全球关键软件。约 50 家合作伙伴使用 Claude Mythos Preview 已在重要软件中发现超过 1 万处高危或严重漏洞;Cloudflare 报告发现 2000 个漏洞,其中 400 个为高危或严重级别。

Anthropic 年化收入 450 亿美元

Anthropic

Anthropic 的年化收入从 1 月的 90 亿美元增长到 2 月 140 亿美元、3 月 190 亿美元、4 月 300 亿美元,5 月达到 450 亿美元。该数据体现出其商业扩张速度显著高于常规软件公司增长曲线。

DeepSeek V4-Pro 永久折扣

DeepSeek

DeepSeek 宣布将 DeepSeek-V4-Pro 的 75% 折扣永久化,输出价格为 $0.87/M tokens。此前这一折扣经历了限时、延长一个月到永久化的连续调整。

商业与人事

Anthropic 收入跃升

Anthropic

Anthropic 的年化收入从 1 月 90 亿美元一路升至 5 月 450 亿美元,月度节奏依次为 140 亿、190 亿、300 亿和 450 亿美元。该增长使其成为本期最突出的 AI 公司商业进展之一。