AI HOT 日报 (morning)
商业与人事
OpenAI 联手巴西媒体
OpenAI 宣布与 Grupo Folha、Grupo UOL 建立战略内容合作,这是其在巴西的首个媒体合作。合作覆盖美国、英国、法国、德国和巴西等市场,ChatGPT 用户可访问带署名、透明度和原始链接的新闻摘要;OpenAI 还透露巴西有超过 5000 万月活用户、日均交换约 1.4 亿条消息。
Apple 被指采用 1.2T Google 模型改造 Siri
据 Reuters 报道,Apple 正在使用一个定制的 1.2T 参数 Google 模型重构下一代 Siri。报道还称,简单查询预计在本地运行;对比之下,Gemini 3.5 Flash 估计约 3000 亿参数,Apple 采用的模型规模明显更大。
OpenAI 三方合作披露独立部署架构
BestBlogs 早报转述称,OpenAI 斥资 40 亿美元成立独立部署公司,并收购了 150 名 FDE 的 Tomoro;Anthropic 也跟进建立同类架构。该消息同时提到 Google 将 FDE 面试从“4-6 轮数周”压缩到“2 天 2 轮”,反映企业级交付链条正在围绕部署速度重构。
模型发布
Grok V9-Medium 训练完成
xAI 表示 Grok foundation model V9-Medium(1.5T)已完成训练,当前正进行微调,强化学习将在几天后开始。官方称该模型加入了大量 Cursor 数据,预计 2 到 3 周后向公众发布,并将明显强于当前承载全部 Grok 生产流量的 v8-small(0.5T)。
MiniCPM5-1B 完全开源
MiniCPM5-1B 已完全开源,包含权重、训练数据和部署代码。该模型为 1B 参数,在 Artificial Analysis 的所有 2B 以下开源模型中排名第 1,得分 17.9 分,超过 Qwen3.5-2B 的 16.3 分;INT4 量化后体积约 0.5GB,可运行在手机、浏览器和边缘设备上。
NuMind 发布 NuExtract3
NuMind 发布 NuExtract3,一款 4B vision-language model,面向文档理解与结构化抽取。它可从扫描件、收据、表单、发票、合同和表格中按 JSON 模板抽取结果,也能转成含 HTML 表格和 LaTeX 公式的 Markdown,并在结构化抽取基准上优于 gemma-4-E4B-it、Qwen3.5-9B 和 GLM-4.6V-Flash。
NeuralNet 2.0 提升准确率
PixVerse 相关账号披露 NeuralNet 2.0 已推出,重点目标是提升准确率。当前公开信息未给出模型规模、基准或价格等更多量化指标,但确认这是一次正式版本更新。
产品更新
Claude Memory Files 上线
Anthropic 官宣 Claude 将推出 Memory Files,用户可在 Memory Files 与经典记忆模式之间二选一。Claude 会在对话中自动写入结构化笔记,并在相关时读取,用户还可以随时浏览和编辑这些笔记。
Claude Design 流程公开
Anthropic 的 Claude Design 团队展示了如何用 Claude 把设计工具从 0 做到可上线,并打通“自然语言 → 品牌一致的设计 → 生产代码”的流程。团队采用每天与用户对话、每 1–2 天发布、24 小时内修复问题的节奏,复杂页面从通常 20+ 轮 prompt 压缩到约 2 轮。
TypeNo v1.4.0 增强预览与稳定性
TypeNo v1.4.0 维护更新新增流式实时预览,改进录音稳定性和界面设计,修复空文件与键盘焦点问题,并补充卸载说明。对比上一版本,这次更新更强调状态识别清晰度与交互连续性。
Grok Build 开启测试
xAI 的 CLI 工具 Grok Build 开启测试,定位对标 Claude Code 和 Codex。它支持 macOS、Linux、Windows,提供 TUI 和 Headless 两种模式,并包含 Plan、Always-approve、子 Agent 并行、MCP、Skills/Plugins/Hooks 等能力;同款模型 grok-build-0.1 也已开放到 API。
OpenAI 内容合作覆盖 ChatGPT 资讯流
OpenAI 表示,与 Grupo Folha、Grupo UOL 的合作会把带署名和原始链接的新闻摘要引入 ChatGPT 内容流,覆盖 9 亿周活用户。对媒体方而言,合作还将开放 Codex、ChatGPT Enterprise 和 API,用于新闻产品、读者功能与内部工作流。
开发者工具
Zero to Claude Code 免费课程
Wix VP IShmool 推出免费课程《Zero to Claude Code》,覆盖文件、终端、Git、Node.js、API、MCP、Subagents 等 14 级 147 课,支持完全在浏览器运行。课程已吸引 17,000+ 学员,覆盖 30+ 国家,平台日请求量达到 6.4M,错误率低于 0.003%。
llmfit 按硬件推荐模型
Sumanth 发布开源 CLI 工具 llmfit,可自动检测 CPU、RAM、GPU 和 VRAM,并从 206 个模型中按实际可运行性排序。工具默认从 Q8_0 匹配,必要时逐级降精度,支持 TUI、CLI 表格、JSON 和 REST API 输出。
飞书桥接 Claude Code
Zara Zhang 开源 feishu-claude-code-bridge,可在飞书中直接向 Claude Code 发指令、编辑文档并实时同步处理过程。工具支持绑定工作区并利用 CLAUDE.md、Skills 和 Hooks,通过 `npx` 启动,需配置 App 凭证。
Grok Build 开放 API
xAI 为 Grok Build 提供了独立 API 入口 grok-build-0.1,配合其 CLI 测试一起开放。当前公开信息显示,该工具强调订阅可用性、跨平台支持和多 Agent 编排,意在切入 coding agent 工具链。
Claude 设计工具链打通
Claude Design 团队披露其内部已用 Claude 自建反馈追踪、分析和探索工具,并把设计到代码的流程压缩到更短迭代周期。该实践属于典型开发者工具更新,重点是把自然语言设计直接落到可部署代码。
智能体平台
高德地图 AI 自主增长
阿里云开发者团队披露,高德地图 PC 站在 SEO 增长场景下构建了多 Agent 自主增长系统,覆盖机会发现、方案设计、PRD、架构、代码、测试到发布全链路。文中称三轮优化后评审均分从 64.5 提升到 83.4,精确匹配率从 25% 升至 78%,并实现从提案到日常环境发布 0 人为介入。
高德增长系统引入多 Agent
同一实践的另一篇转述强调,该系统借鉴 Harness Engineering 和 OPC 思路,将 Planner 拆成 product、design、arch 三个 Agent,将 Builder 拆成 testcase 和 builder 两个 Agent,以缓解上下文污染与爆炸问题。系统连续运行 4 小时,主流程无 P0 Bug。
Onyx 开源深度研究员
Onyx 发布并开源深度研究员系统,采用两层架构:上层 orchestrator 不直接搜索,只负责拆解问题和评估中间报告;下层 3 个 research agent 每个最多运行 8 轮“搜索-阅读-思考”循环。系统可接入 100+ 企业数据源,并在 DeepResearch Bench 上排名第 1。
Grok Build 对标 coding agent
Grok Build 以 coding agent 形态测试上线,支持子 Agent 并行、MCP 外部工具、Skills/Plugins/Hooks 和读写改代码跑测试。它与 Claude Code、Codex 同场竞争,说明 xAI 正把基础模型能力向开发者工作流前端推进。
Claude Memory Files 走向持久记忆
Claude Memory Files 允许 Claude 在聊天过程中持续写入结构化笔记,并在相关时自动读取,用户可手动编辑。这一设计更接近 always-on agent 的持久记忆方案,也意味着 Anthropic 在 agent 状态管理上进一步产品化。
基础设施
Together AI 开源 OSCAR
Together AI 开源 OSCAR,这是面向长上下文服务的 attention-aware 近 2-bit KV Cache 量化系统。官方称其在 2.28 bits 下,Qwen3-4B-Thinking 与 BF16 相差 3.78 分;在 100K context 下解码速度最高提升 3 倍,固定 VRAM 预算下 job-level 吞吐最高提升 7 倍,KV 内存约减少 8 倍。
华为 LogicFolding 重新定义芯片指标
华为发布 LogicFolding 芯片设计思路,把芯片进步指标从“晶体管更小”转向“全机时延更少”,并提出 τ scaling。方案通过将协同逻辑电路垂直堆叠、用细间距 hybrid bonds 缩短信号路径,原文还称其已按该思路量产 381 颗芯片,目标指向 2031 年达到 14Å、即 1.4nm 级密度。
SemiAnalysis 指出燃气发电成默认供电
SemiAnalysis 指出,美国下一波 AI 训练集群的燃气发电已从临时方案变成多个园区的实际架构。供应链数据包括 GE Vernova 约 24 GW/年目标、Siemens Energy 到本世纪末约 30 GW/年、Wärtsilä 单一项目 800 MW,以及 Bloom 计划 2026 年底达到 2 GW/年燃料电池产能。
研究突破
Meta 综述:code 应居于 agent harness 中心
Meta、Stanford 和 Illinois 的综述指出,AI agents 在把 code 作为主要工作层时表现更好,因为 code 可被运行、检查、保存、编辑和共享。作者将围绕模型的系统称为 agent harness,并强调 tests、repositories、logs 和 sandboxes 应成为 agent 的核心基础设施。
JEPA-WM v2 进入 TMLR
Yann LeCun 转发宣布 Basile Terver 的 JEPA-WM v2 论文被 TMLR 接受,并获得 reproducibility certification。论文补充了新的数据扩展实验、多步回滚训练的 Lipschitz 分析及扩展讨论,arXiv 编号为 2512.24497。
单次输注降 LDL
Verve Therapeutics 在《NEJM》发表 VERVE-102 的 Phase 1 结果,这是一种单次输注的 base-editing 基因编辑治疗,靶向肝脏 PCSK9。最高剂量下 PCSK9 下降 88%、LDL 胆固醇下降 62%,降幅至少维持 1 年;研究纳入 35 名患者,未出现剂量限制性毒性。
AI 医疗进步
该条资讯仅给出“AI在医疗领域的持续创新推动进步”,缺少明确主体、动作与量化信息,无法形成可核验的独立报道。