AI HOT 日报 (morning)

模型发布

腾讯 Hy-MT2 翻译模型

腾讯

腾讯发布 Hy-MT2-1.8B、Hy-MT2-7B 和 Hy-MT2-30B-A3B 三个翻译专用大模型。官方称 30B-A3B 在 DomainMTBench 和 IFBench 上均优于 DeepSeek-V4-Pro，支持 33 种语言，包括粤语，1.8B 量化版本地内存占用不到 1GB。

LongCat-Video-Avatar 1.5 开源

美团

美团开源音频驱动的人体视频生成框架 LongCat-Video-Avatar 1.5。v1.5 用 Whisper-Large 替换 Wav2Vec2，采用 DMD2 蒸馏实现 8-step 推理，官方人工评测覆盖 508 组 image-audio pairs、770 名标注者和 4 个质量维度，并支持 INT8 量化。

Cartesia 的 Sonic-3.5 在 Artificial Analysis Speech Arena Leaderboard 升至第 1 名，获得 1,218 Elo，超过 Inworld Realtime TTS 1.5 Max 的 1,194 和 Gemini 3.1 Flash TTS 的 1,209。该模型支持 42 种语言、500+ 预置声音，定价为每 100 万字符 39 美元。

Stable Audio 3 本地化

dadabots

dadabots 发布 Stable Audio 3，称其可在 MacBook Pro 的 M-series 机器上本地运行。官方给出的数据是 M5 Pro 上可达 59x realtime，LoRA 微调不到 1 小时即可完成，并提供 Sm 与 Medium 两种模式。

网易有道开源 Confucius4

网易有道

网易有道开源 Confucius4 双模型，分别用于数学视觉推理和语音克隆，并直接提供完整权重。其语音模型支持跨语言测试，中文声说英文 WER 为 3.19，韩文声说英文 WER 为 3.42，均优于对应对照模型。

BitCPM-CANN 开源

ModelBestTsinghua UnivOpenBMB

ModelBest、Tsinghua Univ 和 OpenBMB 社区发布并开源 BitCPM-CANN，这是全球首个完全在中国自研 AI 基础设施上训练的 1.58-bit 三值 LLM。开源家族覆盖 0.5B–8B，8B 模型可在手机、PC 和汽车等端侧运行，1B–8B 相较全精度 MiniCPM4 在 11 个基准上保留 95%–97% 性能，内存占用约降低 6 倍。

智能体平台

OpenAI 获企业编码 Leader

OpenAI

OpenAI 被 Gartner® Magic Quadrant™ 评为 Enterprise AI Coding Agents 的 Leader。OpenAI 称 Codex 每周使用人数超过 400 万，已被 Cisco、Datadog、Dell Technologies 和 NVIDIA 等采用，并新增 GPT‑5.5、增强工具调用、更快性能及更深的企业开发工作流支持。

Codex 新增 Appshots

OpenAI Developers

OpenAI Developers 为 Codex app 新增 Appshots：在 Mac 上按住双 CMD 键即可把当前应用窗口附加到线程，Codex 会接收截图与文本，包括屏幕外内容。该功能覆盖 Mac 全套餐，enterprise 访问“coming soon”，同时 /goal 已正式上线，可让 Codex 连续执行数小时甚至数天。

Codex 支持锁屏运行

OpenAI Developers

OpenAI Developers 说明 Codex 现在可在 Mac 锁屏、屏幕关闭且未解锁的情况下安全使用应用，用户还可从手机远程操控自己的 Mac。配合 remote Codex，这意味着机器可以在未解锁状态下持续运行任务。

MiniMax Agent 接入 Perplexity Search

MiniMax_AgentPerplexity

MiniMax Agent 改用 Perplexity Search，并对 3 个 AI-native search provider、700+ 个 agent tasks 做了基准测试。相较默认 Serper，Perplexity 使 tool calls per task 从 32.6 降至 17.8，token usage 从 162.3M 降至 94.6M，pass rate 提升 2%，总成本下降 27%。

ChatGPT 进 PowerPoint

OpenAI

ChatGPT 现在可以直接在 PowerPoint 里创建、编辑、理解和润色演示文稿，并保持幻灯片可编辑，不会导出成死图。该能力目前处于 beta，还支持在 PowerPoint 里直接生成图片，官方正在征集反馈。

Polsia 融资 3000 万美元

PolsiaBen Cera

Polsia 完成 3000 万美元融资，融资后估值 2.5 亿美元。创始人 Ben Cera 表示公司接近 1000 万美元 annual run rate，已有 7600+ 家企业使用，且团队只有 1 名创始人、0 名员工，本轮融资过程也由平台自身完成。

研究突破

OpenAI 破平面单位距离问题

OpenAIaran_nayebi

OpenAI 在 Paul Erdős 于 1946 年提出的平面单位距离问题上取得突破，称模型自主发现了一类全新的构造。OpenAI 表示，这一结果推翻了数学界近 80 年来对最优解接近方格结构的普遍判断。

Google DeepMind 形式化证明搜索

Google DeepMind

Google DeepMind 发表论文《Advancing Mathematics Research with AI-Driven Formal Proof Search》，提出 AlphaProof Nexus：让 LLM 在 Lean 环境中反复编辑证明、读取编译错误并继续搜索，部分子问题还可调用更强证明工具。论文在 353 个已形式化 Erdős 问题和 492 个 OEIS 开放猜想上测试，最佳 agent 解决了 9 个 Erdős 问题并证明了 44 个序列猜想。

Anthropic 漏洞利用评测

AnthropicNewton Cheng

Anthropic 的 Newton Cheng、Keane Lucas、Winnie Xiao、Nicholas Carlini 和 Milad Nasr 评测 Claude Mythos Preview 在漏洞利用开发上的能力，并对比 ExploitBench、ExploitGym 与更新版 SCONE-bench。结果显示 Mythos Preview 在三项基准上持续优于所有被测模型，ExploitBench 使用 41 个已打补丁漏洞、统一 300 turn 预算并重复 3 次。

子词分词收益分解

Nous Research

Nous Research 在 1.7B 参数 byte-level 预训练管线中，逐一验证 7 个关于 subword LLM 优于 byte-level LLM 的假设。结果显示只有 3 个假设显著影响验证损失，其中 end-of-subword 标记带来持续收益，start-of-subword 标记即使只在前 50k 步使用后移除，收益仍可保留。

RAEv2 发布

谢赛宁团队Adobe ResearchANU

谢赛宁团队、Adobe Research 和 ANU 发布 RAEv2，面向视觉重建、扩散模型、原生多模态与世界模型。新工作提出把最后 K 层视觉特征相加、让 RAE 与 REPA 在 27 个编码器上互补，并证明 REPA 可实现 self-guidance，且不增加推理时 CFG 前向计算。

Replication Radar

Rhea KartyGreg LukianoffCosmos Institute

Harvard 的 Rhea Karty 开发了 Replication Radar，并由 Cosmos Institute 和 The FIREorg 支持。该工具用 AI 抓取论文、引用、撤稿和失败结果，Rhea Karty 用 pre-crisis 数据验证后称其可识别心理学复制危机中的大多数论文，并从 citation rings、机构单一化和小样本量等方面发出预警。

开发工具

Cursor Composer 2.5 基准

Artificial AnalysisCursor

Artificial Analysis 基于 API 定价和 Coding Agent Index 比较 Cursor Composer 2.5、Claude Code 中的 Opus 4.7 与 Codex 中的 GPT-5.5。结果显示 Composer 2.5 每任务成本比 Opus 4.7 低 3–18 倍、比 GPT-5.5 低 5–32 倍，完成任务仅用 160 万 token，平均 Time per Task 约 9 分钟。

Appshots in Codex

OpenAI Developers

OpenAI 的 Codex app 新增 Appshots，按下双 CMD 键后会把当前应用的截图和文本上下文发送给 Codex，连屏幕外不可见内容也会一并传入。相比普通截图，这种方式更适合在 Google Doc 等场景中保留完整上下文。

TLMs 边缘智能体

AI Engineerswyx

AI Engineer 转发了 swyx 关于边缘设备上 Tiny LLMs 和 Agents 的分享，重点讨论 on-device AI 的两种开发路径。文中提到 Function Gemma 只有 2.7 亿参数，在 Pixel 7 上 prefill 速度接近每秒 2,000 tokens，且经过合成数据微调后，固定 app intents 的准确率可显著提升。

Stable Audio 3 安装命令

dadabots

dadabots 的 Stable Audio 3 提供一行命令安装方式，并强调其 MLX 优化版可在 MacBook Pro 的 M-series 上本地运行。官方还给出 M5 Pro 上 59x realtime 和 LoRA 微调不到 1 小时的参数，降低了本地部署门槛。

基础设施

Project Glasswing 初步进展

AnthropicAnthropic-news

Anthropic 公布 Project Glasswing 初步进展，目标是在更强 AI 模型被用于攻击前提前加固全球关键软件。约 50 家合作伙伴使用 Claude Mythos Preview 已在重要软件中发现超过 1 万处高危或严重漏洞；Cloudflare 报告发现 2000 个漏洞，其中 400 个为高危或严重级别。

Anthropic 年化收入 450 亿美元

Anthropic

Anthropic 的年化收入从 1 月的 90 亿美元增长到 2 月 140 亿美元、3 月 190 亿美元、4 月 300 亿美元，5 月达到 450 亿美元。该数据体现出其商业扩张速度显著高于常规软件公司增长曲线。

DeepSeek V4-Pro 永久折扣

DeepSeek

DeepSeek 宣布将 DeepSeek-V4-Pro 的 75% 折扣永久化，输出价格为 $0.87/M tokens。此前这一折扣经历了限时、延长一个月到永久化的连续调整。

商业与人事

Anthropic 收入跃升

Anthropic

Anthropic 的年化收入从 1 月 90 亿美元一路升至 5 月 450 亿美元，月度节奏依次为 140 亿、190 亿、300 亿和 450 亿美元。该增长使其成为本期最突出的 AI 公司商业进展之一。