AI HOT 日报 (morning)

模型发布

美团LongCat MoE模型OpenRouter登顶

EMostaqueOpenRouterMeituan

美团LongCat的Owl Alpha模型（1.6万亿参数MoE）在OpenRouter上成为最流行模型，月处理量达10万亿tokens，使用35万亿tokens在5万块中国ASIC上训练完成，无需GPU。其性能接近Gemini/Opus 4.6级别，并在Hermes Agent、Claude Code等基准测试中排名前列。

DeepSeek 团队在 ModelScope 上发布 DeepSeek‑V4‑Pro‑DSpark，加入推理解码模块，并在 LiveCodeBench 93.5、Codeforces 3206 等指标上超越 DeepSeek‑V3.2。该模型支持 1M 上下文，使用 27% 单-token 推理 FLOPs 与 10% KV 缓存，采用混合 CSA+HCA 注意力、mHC 与 Muon 优化器提升效率。

NVIDIA C-Fast-FoundationStereo 模型发布

NVIDIAModelScope

NVIDIA 发布 C-Fast-FoundationStereo 模型，基于 FoundationStereo 进行蒸馏、架构搜索和结构化剪枝，参数量 14.6M。在零样本立体深度估计上比 FoundationStereo 快 10 倍以上且精度接近，支持 PyTorch、NVIDIA TAO、TensorRT 和 ONNXRuntime 导出。

MOSS 发布 MOSS-Transcribe-preview-2B ASR模型

MOSSModelScope

MOSS 发布 2.4B 参数的英语自动语音识别模型 MOSS-Transcribe-preview-2B，文件大小 4.84GB。模型在 Open ASR Leaderboard 上平均 WER 为 4.87，在 LibriSpeech test.clean 上 WER 为 1.21，test.other 为 2.84。采用 Apache-2.0 许可证。

Matrix 在 GDPval-Bench 超越 Codex 和 Claude Code

kimmonismus

Matrix 在 GDPval-Bench 基准测试中取得 95.45% 的成绩，超过 Codex 的 84.9% 和 Claude Code 的 80.3%，显示出其在特定领域的强大能力。分析认为 Matrix 更像一个真正的 AI 公司操作系统层。

SpaceXAI 在 Vercel AI Gateway 发布实时语音模型

SpaceXAIVercel AI Gateway

SpaceXAI 在 Vercel AI Gateway 上推出了新的实时语音模型，该更新包含新的参数和优化路径，用户可与 Monichab 讨论其功能与实现细节。

智能体与平台

国产大模型助教推荐用于评测AI工具

vista8

一项推荐指出，国产大模型助教被推荐用于评测人工智能工具，以协助用户更好地评估和选择适合自身需求的AI解决方案。

Giga 推出 Scout AI 代理平台优化业务KPI

Gigarohanpaul_ai

Giga 推出 Scout 平台，通过 AI 代理自动优化业务关键绩效指标(KPI)。用户定义目标后，系统会创建代理、从对话中学习、测试更新并持续改进。例如，在金融科技领域，Scout 代理成功挽回潜在收益，平台具备自修复集成、命令中心监控及审批机制。

Anthropic Claude 正式登陆 Microsoft Azure Foundry

AnthropicMicrosoft

Anthropic 宣布 Claude 在 Microsoft Foundry 上通过 Azure 正式可用，提供 Claude Opus 4.8 和 Claude Haiku 4.5。Azure 客户现可使用 Claude 模型，并支持 Azure 认证、计费、prompt caching 和 extended thinking，确保企业级合规与优化。

研究突破

Meta Brain2Qwerty v2 非侵入式脑机接口解码能力大幅提升

MetaNature NeuroscienceBCBL

Meta 发布 Brain2Qwerty v2，实现非侵入式脑信号的句子级实时解码，平均单词准确率达 61%，最佳被试者达 78%，显著超越此前非侵入式方法仅 8% 的准确率。该系统基于 MEG 记录，使用 9 名志愿者各 10 小时、约 22000 个句子的打字数据训练，并开源全部代码，BCBL 开放 v1 数据集。

Red Queen Gödel Machine：代理与评估器共同进化

Cambridge UnivNVIDIArohanpaul_ai

Cambridge Univ和NVIDIA等团队提出Red Queen Gödel Machine方法，通过让AI agent和evaluator共同进化，避免固定评估导致的停滞。在编码实验中，比最佳自改进代理节省 1.35×-1.72× token；在论文写作实验中，共同进化的作者比固定评估基线提高约 1.86X 接受率。

Intelligent Internet 开源 Zenith 自改进框架

Intelligent Internetii_posts

Intelligent Internet 开源 Zenith 框架，通过自适应自改进（adaptive self improvement）将基础模型提升至 FrontierSWE 榜单顶端，并预告 GLM 5.2 的相关进展。

RPC-Bench：长上下文多模态论文理解基准

ModelScope

RPC-Bench 是一个长上下文和多模态文档理解基准，包含 61.3K QA 对（来自 4150 篇论文），其中约 15K 经过人工验证。GPT-5 在该基准上的正确性-完整性得分为 68.2%，调整简洁性后降至 37.46%，揭示了模型在复杂文档理解方面的现有差距。

开发者工具

Roboflow 开源 CV 工具包 Supervision 获 45K 星

Roboflowberryxia

Roboflow 发布的开源计算机视觉工具包 Supervision 获得 45K GitHub Stars，三周内增长 5K。该工具将常见 CV 工作流抽象为可复用组件，包括模型无关推理、标注器、数据集加载转换等，支持 YOLO、RF-DETR 等检测模型，将复杂 Pipeline 简化为几行代码。

Google Paper Assistant Tool 自动化科学论文审查

Googlerohanpaul_ai

Google 提出 agentic verification 框架并推出 Paper Assistant Tool，用于自动化科学论文审查。该工具将论文分拆审查，重点检测证明错误、实验漏洞等客观问题。在 STOC 和 ICML 测试中，工具比单次模型调用发现更多已知错误，多位作者据此修正了理论漏洞或补充了实验。

开源工具发布支持移动开发验证

Let's Visiononevcat

与 Let's Vision 联合发布的开源专用验证模块，相较于之前的 API 工具，在功能和效率上显著提升。新增的 screen 映射与交互方式增强了用户体验，并支持 iOS 和 Android 平台。

GitHub 开源 1324 个健身动作数据库

AYi_AInotesGitHub

GitHub 上开源了一个包含 1324 个健身动作的数据库，内含 JPG 图片、GIF 动画、详细说明和目标肌肉信息，并集成本地搜索和过滤功能。该数据库提供开箱即用的安装指南和可下载媒体文件，并附带官方网站支持高效查询。

基础设施

DeepSeek 模型在 NVIDIA 芯片上性能优异

阿里巴巴 TeamChatTemtem LabsDeepSeekrohanpaul_ai

阿里巴巴 TeamChat 和 Temtem Labs 研究显示，DeepSeek-Lite 系列模型在 NVIDIA H100 和 A100 芯片上的张量运算速度比 Llama3、Gemini Ultra 等竞品提升约 25-40%，同时保持模型质量与推理成本平衡。实测中 70B 参数模型在 NVIDIA 芯片 T500tok/sec 可达 1800，优于 Llama3 14B，开源社区持续优化适配。

菲律宾批准 Starlink 直连手机服务商业化

GlobeStarlinkcb_doge

Globe公司获得菲律宾政府批准，将商业化推出Starlink Direct-to-Cell服务，允许标准LTE智能手机直接连接卫星信号，无需额外硬件。这是东南亚首次以移动运营商形式部署该技术，预计将扩展偏远地区覆盖。

GLM-5.2 744B MoE 实现 4-bit 量化加速

Canada Quant Labshxiao

Canada Quant Labs 实现了 GLM-5.2 (744B MoE) 的 4-bit 量化版本，保留 MTP draft head BF16，质量匹配 FP8。仅需 4×H200 即可运行，在 batch-1 下比 AWQ/NVFP4 快 69-79%，显著提升了推理效率。

SpaceX 完成 60 次 Starlink 发射部署近 1600 颗卫星

SpaceXXFreeze

SpaceX 今年已完成第 60 次专用 Starlink 发射任务，在不到 6 个月内成功部署近 1600 颗新卫星，持续扩大其全球卫星互联网覆盖能力。

前沿实验室仅用全球 21% AI 算力

EpochAIrohanpaul_ai

EpochAI 数据显示，OpenAI、Anthropic 和 xAI 等前沿实验室在 2025 年底仅使用了全球约 21% 的运营 AI 算力。全球部署的 H100 等效芯片约 1600 万片，售出约 2000 万片，表明大部分算力仍分布在其他机构。

商业与人事

谷歌云企业 AI 推动 Q1 收入与利润增长

Google CloudSundar Pichaitinyfool

Google Cloud 在 2026 年 Q1 实现收入首次超过 200 亿美元（同比增长 63%），营业利润达 66 亿美元。Sundar Pichai 强调，企业 AI 已成为 Google Cloud 增长的主要动力来源。

Arena AI Evaluations 业务年收入达 1 亿美元

ArenaUC Berkeleyrohanpaul_ai

Arena 从 UC Berkeley 研究项目起步，通过将公开模型比较转化为针对 AI 实验室和企业的付费性能测试服务 AI Evaluations，已发展成为年收入 1 亿美元的业务。它利用用户投票创建人类偏好数据集，弥补了传统基准测试的不足。

AI 推动动画制作成本下降 90%

Bloombergrohanpaul_ai

Bloomberg 报道，AI 正在推动动画制作成本大幅下降，好莱坞电影制作人表示长片制作成本可能下降 90%。这导致工作室、员工和工会面临就业压力，好莱坞就业市场已因罢工、减产、并购和 AI 重组而承压。

政策与安全

Matt Shumer 反驳 AI 模型禁令有效论

Matt Shumer

Matt Shumer 回驳了开源模型禁令可能无效的论点，认为政府虽可能阻断美国实验室供应最前沿模型，但可能无法阻止同等性能的中国模型通过开源渠道传播。他提及 Fable/5.6 模型被延迟的情境，质疑美国模型被封锁后中国模型的传播能力。

产品更新

特斯拉 FSD V14 Lite 自动驾驶系统评测引争议

SawyerMerrittTesla

社交媒体用户非正式比较特斯拉 FSD V14 Lite 自动驾驶能力与非特斯拉新车系统，声称前者更优。然而，此观点缺乏用户快照或数据支持，尚无法独立验证。