返回日报列表
AI 日报 收录 38 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年06月29日 00:00 ~ 2026年06月30日 00:00
生成于: 2026年06月30日 00:01
本期导读
本时段,模型发布活跃,Meta发布Llama 4 7000B参数模型,美团LongCat MoE模型在OpenRouter登顶,而Anthropic Claude正式登陆Azure Foundry,显示头部模型持续迭代与商业化。AI技术在脑机接口、动画制作、科学审查等领域实现突破性进展,同时对算力和就业市场的影响也日益显现。

模型发布

Meta 开源 Llama 4 7000B 参数模型

Meta

Meta 宣布开源 Llama 4 大模型版本,参数量达 7000 亿级,在关键基准测试中准确率达 95%,比前代提升 5%,并规划 2024 年 Q3 发布商用接口。该模型在多个基准测试中表现优于上一代 Llama 3,支持多语言和复杂任务。

美团LongCat MoE模型OpenRouter登顶

EMostaqueOpenRouterMeituan

美团LongCat的Owl Alpha模型(1.6万亿参数MoE)在OpenRouter上成为最流行模型,月处理量达10万亿tokens,使用35万亿tokens在5万块中国ASIC上训练完成,无需GPU。其性能接近Gemini/Opus 4.6级别,并在Hermes Agent、Claude Code等基准测试中排名前列。

DeepSeek V4-Pro 发布推理解码模块

DeepSeekModelScope

DeepSeek 团队在 ModelScope 上发布 DeepSeek‑V4‑Pro‑DSpark,加入推理解码模块,并在 LiveCodeBench 93.5、Codeforces 3206 等指标上超越 DeepSeek‑V3.2。该模型支持 1M 上下文,使用 27% 单-token 推理 FLOPs 与 10% KV 缓存,采用混合 CSA+HCA 注意力、mHC 与 Muon 优化器提升效率。

NVIDIA C-Fast-FoundationStereo 模型发布

NVIDIAModelScope

NVIDIA 发布 C-Fast-FoundationStereo 模型,基于 FoundationStereo 进行蒸馏、架构搜索和结构化剪枝,参数量 14.6M。在零样本立体深度估计上比 FoundationStereo 快 10 倍以上且精度接近,支持 PyTorch、NVIDIA TAO、TensorRT 和 ONNXRuntime 导出。

MOSS 发布 MOSS-Transcribe-preview-2B ASR模型

MOSSModelScope

MOSS 发布 2.4B 参数的英语自动语音识别模型 MOSS-Transcribe-preview-2B,文件大小 4.84GB。模型在 Open ASR Leaderboard 上平均 WER 为 4.87,在 LibriSpeech test.clean 上 WER 为 1.21,test.other 为 2.84。采用 Apache-2.0 许可证。

Matrix 在 GDPval-Bench 超越 Codex 和 Claude Code

kimmonismus

Matrix 在 GDPval-Bench 基准测试中取得 95.45% 的成绩,超过 Codex 的 84.9% 和 Claude Code 的 80.3%,显示出其在特定领域的强大能力。分析认为 Matrix 更像一个真正的 AI 公司操作系统层。

SpaceXAI 在 Vercel AI Gateway 发布实时语音模型

SpaceXAIVercel AI Gateway

SpaceXAI 在 Vercel AI Gateway 上推出了新的实时语音模型,该更新包含新的参数和优化路径,用户可与 Monichab 讨论其功能与实现细节。

智能体与平台

国产大模型助教推荐用于评测AI工具

vista8

一项推荐指出,国产大模型助教被推荐用于评测人工智能工具,以协助用户更好地评估和选择适合自身需求的AI解决方案。

Giga 推出 Scout AI 代理平台优化业务KPI

Gigarohanpaul_ai

Giga 推出 Scout 平台,通过 AI 代理自动优化业务关键绩效指标(KPI)。用户定义目标后,系统会创建代理、从对话中学习、测试更新并持续改进。例如,在金融科技领域,Scout 代理成功挽回潜在收益,平台具备自修复集成、命令中心监控及审批机制。

Anthropic Claude 正式登陆 Microsoft Azure Foundry

AnthropicMicrosoft

Anthropic 宣布 Claude 在 Microsoft Foundry 上通过 Azure 正式可用,提供 Claude Opus 4.8 和 Claude Haiku 4.5。Azure 客户现可使用 Claude 模型,并支持 Azure 认证、计费、prompt caching 和 extended thinking,确保企业级合规与优化。

研究突破

Meta Brain2Qwerty v2 非侵入式脑机接口解码能力大幅提升

MetaNature NeuroscienceBCBL

Meta 发布 Brain2Qwerty v2,实现非侵入式脑信号的句子级实时解码,平均单词准确率达 61%,最佳被试者达 78%,显著超越此前非侵入式方法仅 8% 的准确率。该系统基于 MEG 记录,使用 9 名志愿者各 10 小时、约 22000 个句子的打字数据训练,并开源全部代码,BCBL 开放 v1 数据集。

Red Queen Gödel Machine:代理与评估器共同进化

Cambridge UnivNVIDIArohanpaul_ai

Cambridge Univ和NVIDIA等团队提出Red Queen Gödel Machine方法,通过让AI agent和evaluator共同进化,避免固定评估导致的停滞。在编码实验中,比最佳自改进代理节省 1.35×-1.72× token;在论文写作实验中,共同进化的作者比固定评估基线提高约 1.86X 接受率。

Intelligent Internet 开源 Zenith 自改进框架

Intelligent Internetii_posts

Intelligent Internet 开源 Zenith 框架,通过自适应自改进(adaptive self improvement)将基础模型提升至 FrontierSWE 榜单顶端,并预告 GLM 5.2 的相关进展。

RPC-Bench:长上下文多模态论文理解基准

ModelScope

RPC-Bench 是一个长上下文和多模态文档理解基准,包含 61.3K QA 对(来自 4150 篇论文),其中约 15K 经过人工验证。GPT-5 在该基准上的正确性-完整性得分为 68.2%,调整简洁性后降至 37.46%,揭示了模型在复杂文档理解方面的现有差距。

开发者工具

Roboflow 开源 CV 工具包 Supervision 获 45K 星

Roboflowberryxia

Roboflow 发布的开源计算机视觉工具包 Supervision 获得 45K GitHub Stars,三周内增长 5K。该工具将常见 CV 工作流抽象为可复用组件,包括模型无关推理、标注器、数据集加载转换等,支持 YOLO、RF-DETR 等检测模型,将复杂 Pipeline 简化为几行代码。

Google Paper Assistant Tool 自动化科学论文审查

Googlerohanpaul_ai

Google 提出 agentic verification 框架并推出 Paper Assistant Tool,用于自动化科学论文审查。该工具将论文分拆审查,重点检测证明错误、实验漏洞等客观问题。在 STOC 和 ICML 测试中,工具比单次模型调用发现更多已知错误,多位作者据此修正了理论漏洞或补充了实验。

开源工具发布支持移动开发验证

Let's Visiononevcat

与 Let's Vision 联合发布的开源专用验证模块,相较于之前的 API 工具,在功能和效率上显著提升。新增的 screen 映射与交互方式增强了用户体验,并支持 iOS 和 Android 平台。

GitHub 开源 1324 个健身动作数据库

AYi_AInotesGitHub

GitHub 上开源了一个包含 1324 个健身动作的数据库,内含 JPG 图片、GIF 动画、详细说明和目标肌肉信息,并集成本地搜索和过滤功能。该数据库提供开箱即用的安装指南和可下载媒体文件,并附带官方网站支持高效查询。

基础设施

DeepSeek 模型在 NVIDIA 芯片上性能优异

阿里巴巴 TeamChatTemtem LabsDeepSeekrohanpaul_ai

阿里巴巴 TeamChat 和 Temtem Labs 研究显示,DeepSeek-Lite 系列模型在 NVIDIA H100 和 A100 芯片上的张量运算速度比 Llama3、Gemini Ultra 等竞品提升约 25-40%,同时保持模型质量与推理成本平衡。实测中 70B 参数模型在 NVIDIA 芯片 T500tok/sec 可达 1800,优于 Llama3 14B,开源社区持续优化适配。

菲律宾批准 Starlink 直连手机服务商业化

GlobeStarlinkcb_doge

Globe公司获得菲律宾政府批准,将商业化推出Starlink Direct-to-Cell服务,允许标准LTE智能手机直接连接卫星信号,无需额外硬件。这是东南亚首次以移动运营商形式部署该技术,预计将扩展偏远地区覆盖。

GLM-5.2 744B MoE 实现 4-bit 量化加速

Canada Quant Labshxiao

Canada Quant Labs 实现了 GLM-5.2 (744B MoE) 的 4-bit 量化版本,保留 MTP draft head BF16,质量匹配 FP8。仅需 4×H200 即可运行,在 batch-1 下比 AWQ/NVFP4 快 69-79%,显著提升了推理效率。

SpaceX 完成 60 次 Starlink 发射 部署近 1600 颗卫星

SpaceXXFreeze

SpaceX 今年已完成第 60 次专用 Starlink 发射任务,在不到 6 个月内成功部署近 1600 颗新卫星,持续扩大其全球卫星互联网覆盖能力。

前沿实验室仅用全球 21% AI 算力

EpochAIrohanpaul_ai

EpochAI 数据显示,OpenAI、Anthropic 和 xAI 等前沿实验室在 2025 年底仅使用了全球约 21% 的运营 AI 算力。全球部署的 H100 等效芯片约 1600 万片,售出约 2000 万片,表明大部分算力仍分布在其他机构。

商业与人事

谷歌云企业 AI 推动 Q1 收入与利润增长

Google CloudSundar Pichaitinyfool

Google Cloud 在 2026 年 Q1 实现收入首次超过 200 亿美元(同比增长 63%),营业利润达 66 亿美元。Sundar Pichai 强调,企业 AI 已成为 Google Cloud 增长的主要动力来源。

Arena AI Evaluations 业务年收入达 1 亿美元

ArenaUC Berkeleyrohanpaul_ai

Arena 从 UC Berkeley 研究项目起步,通过将公开模型比较转化为针对 AI 实验室和企业的付费性能测试服务 AI Evaluations,已发展成为年收入 1 亿美元的业务。它利用用户投票创建人类偏好数据集,弥补了传统基准测试的不足。

AI 推动动画制作成本下降 90%

Bloombergrohanpaul_ai

Bloomberg 报道,AI 正在推动动画制作成本大幅下降,好莱坞电影制作人表示长片制作成本可能下降 90%。这导致工作室、员工和工会面临就业压力,好莱坞就业市场已因罢工、减产、并购和 AI 重组而承压。

政策与安全

Matt Shumer 反驳 AI 模型禁令有效论

Matt Shumer

Matt Shumer 回驳了开源模型禁令可能无效的论点,认为政府虽可能阻断美国实验室供应最前沿模型,但可能无法阻止同等性能的中国模型通过开源渠道传播。他提及 Fable/5.6 模型被延迟的情境,质疑美国模型被封锁后中国模型的传播能力。

产品更新

特斯拉 FSD V14 Lite 自动驾驶系统评测引争议

SawyerMerrittTesla

社交媒体用户非正式比较特斯拉 FSD V14 Lite 自动驾驶能力与非特斯拉新车系统,声称前者更优。然而,此观点缺乏用户快照或数据支持,尚无法独立验证。