AI HOT 日报 (evening)
模型发布
LongCat-Video-Avatar 1.5 开源
美团发布开源音频驱动人体视频生成框架 LongCat-Video-Avatar 1.5。v1.5 用 Whisper-Large 替换 Wav2Vec2,采用 DMD2 蒸馏实现 8-step 推理,支持 AT2V、ATI2V、视频续写以及单流/多流音频输入,并可用 INT8 量化降低 VRAM 占用,许可证为 MIT。
网易有道开源 Confucius4
网易有道开源 Confucius4 双模型,分别面向数学视觉推理和语音克隆,且直接提供完整权重而非仅 API。语音模型宣称可保留情感并支持跨语言测试,原文给出的 WER 为中文声说英文 3.19、CosyVoice2 为 17.10,韩文声说英文 3.42、CosyVoice3 为 13.70。
智能体平台
Codex 新增 Appshots
OpenAI Developers 为 Codex 增加 Appshots,Mac 上同时按住 Command-Command 可把当前应用窗口附加到 Codex 线程,Codex 会接收窗口截图和文本内容,包括屏幕上未直接显示的文本。该功能适用于 Mac 的所有套餐,enterprise 访问显示为 coming soon。
Codex 上线 /goal
OpenAI Developers 还把 /goal 正式上线到 Codex App,用户可给定目标让 Codex 持续执行数小时甚至数天,并可随时更改目标、引导、暂停和恢复。此次更新把 Codex 从单次任务执行推进到持续型工作流。
Codex 支持锁屏远程
OpenAI Developers 说明 Codex 现在可在 Mac 锁屏、屏幕关闭且未解锁的情况下安全使用应用,用户还可以从手机远程让 Codex 使用自己的 Mac。原文未披露版本号、价格或时间表。
开发者工具
Codex 插件批量安装
OpenAI Developers 为 Team 版补充了面向 Business 用户的插件批量安装能力,便于统一分发与管理开发插件。该更新与 Appshots、/goal 一同构成 Codex 的一轮 Mac 端能力扩展。
Codex 浏览器注释升级
Codex 内置浏览器新增更快、更流畅的高级注释模式,支持直接评论并编辑页面元素。该能力面向网页工作流,进一步强化了 Codex 的交互式开发与审阅场景。
研究突破
Replication Radar 识别复制风险
Marc Andreessen 转发 Greg Lukianoff 的帖子,介绍由 Harvard 的 Rhea Karty 开发、并获 Cosmos Institute 和 TheFIREorg 支持的 Replication Radar。该工具用 AI 抓取论文、书籍、主张、引用、重复验证、撤稿和失败结果,并在 pre-crisis 数据上验证后,能识别心理学复制危机中的大多数论文,且从 citation rings、机构单一化和小样本量等方面给出预警。