AI HOT 日报 (morning)
模型发布与更新
GLM-5.2 新算法超 GPT-5.5/Opus 4.8
研究团队发布新版 GLM-5.2,优化芯片性能,在复杂推理任务中表现超越 GPT-5.5 和 Opus 4.8。该模型通过公开源协议发布,与同类模型形成对比,展示出更卓越的性能。
Meta 发布 Llama 4 版 700B 参数模型
Meta 技术团队发布了基于 Llama 4 的 700 亿参数 AI 模型,并公开开源。报告包含对比上一代和竞品的性能表现,数据覆盖多个应用场景。
GLM-5.2 整合反hacking模块
GLM-5.2 在设计任务上达到 Opus 级别表现,并展现出色长时任务能力。官方博客介绍,模型训练中加入反 hacking 模块以解决 RL 中的 reward hacking 问题,可提升长时任务结果,属前沿开放权重模型中的罕见应用。
GLM-5.2 与 Fable 5 价格性能对比
GLM-5.2 在 3D 地球可视化任务中,以不到 0.10 美元成本提供接近 Fable 5 (5 美元) 90% 的效果,展现 50 倍价格性能优势。模型体积从 1.5TB 缩减至 238GB,可在 256GB 内存/显存机器上运行,定位为高性价比开源模型。
AI 视频模型舌头旋转评测:Gemini Omni Flash 居首
Alpha Mom 评测 Seedance 2.0、Kling 3.0 Pro、Gemini Omni Flash 和 Grok Imagine 1.5 在 10 秒舌头旋转任务中的表现。Gemini Omni Flash 排名第一,Grok Imagine 1.5 第二,Seedance 2.0 第三,Kling 3.0 Pro 第四。
Opentop模型发布与市场动态分析
文章聚焦 opentop 模型公布,对比公开产品,并分析市场动向。资讯描述技术突破,版本号和商业规模提供可比数据。
基础设施
AI 基建投资达 5.3 万亿美元,面临金融风险
高盛预测 2025-2030 年 AI 资本支出周期将达 5.3 万亿美元,主要覆盖超大规模云服务商在 AI 和数据中心的建设需求。融资正从传统公司资产负债表转向基础设施、私募股权、房地产和私人信贷等另类资产。纽约大学斯特恩商学院教授 Aswath Damodaran 警告,此轮大规模且依赖债务融资的 AI 基础设施投资,若市场修正可能引发更严重的社会冲击。潜在瓶颈包括融资能力、电力供应与项目执行能力。
Browser Use 推出新型浏览器基础设施
Browser Use 推出全新浏览器基础设施,基于 Chromium fork、Firecracker fork 和自定义 Linux 内核。宣称比竞品便宜 3-6 倍,价格 0.02 美元/小时,具备亚秒级冷启动、无限扩展和高度隐秘特性,并承诺为其他提供商用户免费迁移。
Starlink 肯尼亚活跃用户达 2.5 万
Starlink 在肯尼亚达到约 25,000 个活跃订阅用户,成为该国增长最快的固定互联网技术。订阅者数从 2025 年 9 月的 19,470 增长至 2026 年 3 月的 24,999,同比增长近 28%,推动数字工具使用和在线学习平台参与度。
研究突破与安全
Google AI 安全:加密异常行为监控
Google 内部研究提出基于深度学习的合成分析框架,通过隐空间结构分析识别异常行为,实现 Similarity Score 下降 67.2% 和计算效率提升 10.8 倍。该框架为企业级系统隐私安全设计提供了新思路。
OpenAI 发现“好行为”可泛化至多领域
OpenAI 通过 RL 训练模型在健康等特定领域展现诚实、认知谦逊等好行为,发现该行为可泛化到 44 个未见评测领域,显著降低欺骗、谄媚等不良输出,且模型在对抗性攻击下更稳健。
DeepMind 发布 AI 安全指南与防御策略
DeepMind 团队发布一份关于 AI 安全关键挑战的研究报告,提出五项核心防御策略,包括对抗攻击检测、模型鲁棒性增强和数据偏见修复方法。报告展示在 ImageNet 上对抗样本检测准确率提升 12%,并计划开源相关工具库。
厂商 X 用户安全架构通过认证
主要厂商 X 发布新用户安全架构方案,通过多层加密与行为分析模块确保隐私保护,已通过安全认证,未检测到重大漏洞。
商业与行业动态
微软成全球 AI 中转站,代理 GPT 和 DeepSeek
彭博社报道称微软已成为全球 AI 模型中转站,向中国企业销售 GPT 的同时测试并销售 DeepSeek-R1 和 DeepSeek-V4 给西方客户。微软获得的转售自由度可能足以抵抗 OpenAI 限制,形成跨中美模型双向贸易网络。
Anthropic CEO 预警 AI 企业面临生存风险
Anthropic 创始人预警,AI 企业若无数百亿美元收入,可能面临存在危机。这一预测基于当前企业财务模型,认为规模不足的企业将难以维持核心研发能力。相关数据显示,2023 年多个 AI 初创企业在 2.5 亿至 5 亿美元估值区间寻求资金。
DeepMind 员工爆料组织问题致士气低落
DeepMind 被爆在 Artificial Analysis 榜单仅排第 5,落后 Anthropic、OpenAI 和智谱 AI。上次显著进步的模型是 4 个月前的 3.5 Flash,即将发布的 Gemini 3.5 Pro 被内部认为不是突破性改进,员工士气低落,预计更多顶尖人才将离开。
AYi 推出 AI 创作者收益社群
AYi 基于 5.2 万粉丝积累,以 199 元定价开设 AI 创作者收益社群。内容包含 X 增长策略、AYi 技能、社媒运营解答,强调收费筛选专业用户,区别于免费群的广告驱动模式。
AI 赋能传统软件工程改进方案
内容探讨如何利用 AI 提升需求分析和代码生成效率,分享针对传统软件工程的简明改进方案,并引用多个行业故事情例。强调方案细致,但实际应用中挑战复杂。
开发者工具
OpenAI Codex 新增 'Record & Replay' 功能
OpenAI 的 Codex 团队开发 'Record & Replay' 功能,将重复性演示任务(如报销单据生成)转化为可检查的 Skill 模块。用户可控制录制时段,技术实现将引用演示行为转化为可编辑代码技能。
Anthropic Claude Code 配置指令全解析
Anthropic 官方博客详细解析 Claude Code 的 7 种配置方式:CLAUDE.md、Rules、Skills、Subagents、Hooks、Output Styles、Appending System Prompt。文章对比 Skills 与 Subagents 选择原则、Hooks 与 CLAUDE.md 区别,并给出 5 条实用决策原则。
Deep Agents 实战开源教程发布
zhanghaili0610 开源基于 LangChain 和 LangGraph 生态的《Deep Agents 实战》教程。教程提出 Agent 开发的“三层架构”,重点讲解通过虚拟文件系统优化上下文工程。包含 8 个章节,Skills 规范可兼容 Claude Code 和 Cursor 等 30 多个工具。
800 行 Python 代码构建浏览器协助工具的挑战
团队构建了仅需 800 行 Python 代码的浏览器协助工具,但功能复杂,每项功能迭代需要数千美元的评估成本,凸显实际应用中的高成本障碍。
智能体与平台
Hermes Agent 发布 Blank Slate 模式
Nom 美国 Hermes 公司推出新版 Blank Slate 策略,允许用户从基础模块着手构建 Agent,简化初期配置,支持文件和命令操作。重点强调用户可自定义功能,适用于快速实验,提高入门灵活性。
Skill-MAS:多智能体元技能进化方法
DAIR.AI 介绍了 Skill-MAS,一种多智能体系统的元技能进化方法,通过多轨迹展开和选择性反思的闭环,在不修改模型权重的情况下提升编排能力。该方法在四个基准测试和四种不同 LLM 上验证,进化出的元技能可迁移到未见过任务和模型。
AMOS Stealer 利用 Cursor AI Agent 攻击
Fieldeffect 公布 AMOS Stealer 木马攻击链,通过 Cursor AI Agent 实现合法/非法行为渗透。该木马利用 AI Agent 模拟用户操作行为,使恶意操作与真实交互难以区分,对安全防御构成新挑战。