AI HOT 日报 (morning)

NVIDIA Computex/GTC Taipei

NVIDIA 发布全栈 AI 解决方案

NVIDIAArtificialAnlyskimmonismus

NVIDIA 在 Computex/GTC Taipei 发布 Nemotron 3 Ultra 模型（550B 参数，48 AI 智能指数，300 token/s 推理速度），RTX Spark 超级芯片（1 PetaFLOP 性能，Windows 原生 AI 代理），Vera Rubin NVL72 平台（用于 Agentic AI），并开源 Cosmos 3 世界模型和 Alpamayo 2 Super 自动驾驶模型。同时宣布与 TSMC 合作加速芯片设计，并推出 DSX 平台提供 AI 工厂全栈方案。

模型发布

MiniMax M3 开源模型发布

MiniMax_AISiliconFlowAIOpenRouter

MiniMax 发布 M3 模型，是首个融合编码与智能体、1M 上下文、原生多模态能力的开源权重模型。在 SWE-Bench Pro 达 59.0%、Terminal Bench 2.1 达 66.0%、MCP Atlas 达 74.2%，BU Bench 提升 26%。OpenRouter 上输入 $0.6/M token，输出 $2.4/M token，首周 50% 折扣。

Meta 发布 Llama 3 8B 模型

Metavista8

Meta 发布 Llama 3 8B 模型，MMLU 基准得分 85 分，超越 Llama 2 7B 的 78 分，参数量为 8B。

Qwen3.7-Max 实测性能提升

Qwenkarminski3

Qwen3.7-Max 在 34 个模型中唯一实现 IVF-PQ+ADC 索引，后端得分从 GPT-5.5-Pro 的 4000 提升至 6947 分，Agent 能力提升至第一梯队，并成功实现 AI 磁盘恢复系统。

Perplexity 发布 Search as Code 架构

Perplexityperplexity_ai

Perplexity 发布 Search as Code 架构，可直接生成 Python 调用搜索栈，WANDR 基准得分 0.386，优于最佳系统 0.152。该系统已在 Perplexity Agent API 默认启用。

Baidu 发布 Daily Active Agents 指标

Baidu_Inc

Baidu Inc. 发布 Daily Active Agents (DAA) 指标，用于衡量代理人时代的价值，并结合其代理人组合进行分析，量化用户活跃度。

Andrej Karpathy 推荐 LFM-2.5-8B 模型

Andrej Karpathy0xSero

Andrej Karpathy 转发并推荐 LFM-2.5-8B 模型及其技术细节，强调其在 AI 领域的应用潜力。

智能体与平台

Coze 3.0 提升多 Agent 协作效率

CozeAstronaut_1216

Coze 团队发布 3.0 版本，重点改进多 Agent 协作流程，解决用户提到的效率低下问题，增加自动任务分配功能。

Antigravity 推出多 Agent 文件管理系统

Antigravitygoogleaidevs

Antigravity 推出多 Agent 系统，通过并行子代理自动分类和重命名数百个营销资产，消除人工文件管理，通过视频演示展示其处理大规模文件的能力。

OpenClaw 发布 Hy-Memory 插件

OpenClawTencentHunyuan

OpenClaw 发布 Hy-Memory 插件，基于 6 层记忆框架和 System1/System2 双系统，宣称解决记忆碎片化，内存数量降低 70%，信息密度提升 45%，超长上下文 token 用量降低 35%。

AI 通过世界模型解谋杀谜题

DanielMiessler

AI 通过构建世界模型解决新谋杀谜题，需推理未知线索和奇幻物理规则，证明其具备超越简单自动补全的世界理解能力。

多 Agent 协作认知瓶颈研究

shao__meng

Pejman John 展示多 Agent 工作流如何复制人类认知瓶颈，指出每个 Agent 独立记忆导致的上下文盲，强调通过共享记忆层实现协同心智，并指出 GBrain 和 CASS 等项目作为信号项目。

Luma 推出开放物理 AI 实验室 OPAL Lab

Lumagravicle

Luma 推出开放物理 AI 实验室 OPAL Lab，旨在解决机器人领域泛化问题，开发世界模型以理解物理世界互动，强调开放科学路径，与学术界和行业合作推动物理 AI 普及。

研究突破

Agent Harnesses 的 Scaling Laws

rohanpaul_ai

研究人员提出 Effective Feedback Compute (EFC) 指标，用于衡量 AI 智能体系统中有用反馈的质量和影响力。在相同预算下，改进反馈使成功率从 0.27 提升至 0.90，同时成本和工具调用次数保持不变。

自改进代理模型能力研究

omarsar0

研究团队发现自改进代理中，编写 harness 更新的能力与模型能力无关，Qwen3.5-9B 与 Claude Opus 4.6 表现相当；而受益于这些更新的能力呈倒 U 型曲线，中型模型表现最佳。

商业 AI 聊天机器人新闻中介评估

rohanpaul_ai

研究评估主流商业 AI 聊天机器人在新闻问答场景的表现，在干净多选题上对最新事件可达 90% 准确率，但在自由生成回答或错误前提问题上准确率显著下降，70% 错误源于检索失败或来源偏差。

OmniNFT 多模态 NFT 框架

ModelScope2022

OmniNFT 是一个基于强化学习的 NFT 框架，使用 LTX-2/2.3 并提供预训练 LoRA 权重，实现音视频同步生成。该框架通过模态内奖励路由、层级梯度手术和区域损失重新加权解决多模态奖励合并导致的梯度冲突。

开发者工具

StemDeck 开源本地音乐拆轨工具

Yann LeCunXAMTO_AI

Meta AI 的 Yann LeCun 转发 StemDeck 项目，该开源工具基于 Demucs 模型实现本地音乐拆轨，支持 GPU 加速运行，提供 DAW 级别混音界面，无需注册或上传数据。

Cursor 增加团队使用额度与免费 Pro

CursordoteyAYi_AInotes

Cursor 团队宣布增加所有 Teams 用户使用额度，并推出 Premium 团队席位（5x 使用额度 3x 成本）。同时为通过 .edu 邮箱验证的大学生提供 1 年免费 Cursor Pro (价值 $240)。

Claude AI 逆向工程恢复丢失报告

Claudegiansegato

Claude AI 在 11 小时飞行中通过检查 Alfred Clipboard 数据库（SQLite 格式）逆向工程数据格式，绕过 24 小时删除政策，成功恢复用户丢失的报告。

OpenAI 模型与 Codex 集成 AWS Bedrock

OpenAIOpenAIDevsAWS

OpenAI 将前沿模型和 Codex 全面集成到 AWS Bedrock，使企业能够通过 AWS 环境和控制构建 AI 应用和软件工程工作流，这是 OpenAI 在 AWS 上更广泛扩展的开始，未来将包括网络安全功能如 Daybreak 的可用性。

基础设施

OpenAI 启动密歇根州 1GW 数据中心项目

OpenAIrohanpaul_ai

OpenAI 启动名为 Stargate 的 1GW 数据中心项目，采用闭环冷却技术减少用水量，并承诺自筹资金，避免向当地用户收费。项目还提供 4000 万美元免费 Codex 学分，惠及全州学生。

低成本高效浏览器基础设施发布

gregpr07milindS_

新的浏览器基础设施（Chromium fork）发布，强调性能提升、成本降低（低于 $0.02）、加载速度和隐蔽性，支持无限扩展，提供了试用链接。

全球 Token 需求激增 40 倍

Qualcommrohanpaul_ai

全球 AI 对话量呈爆炸增长，2026 年每 10 秒约 31.7 亿 token 需求，2030 年预计达 1.27 万亿 token，增长 40 倍。Qualcomm CEO Cristiano Amon 预测 Agentic AI 将大幅增加 token 消耗，推动软件使用方式从按点击量转向按每用户 token 消耗衡量。