AI HOT 日报 (morning)
模型发布
Google 发布 Gemma 4 12B 开源多模态模型
Google 发布 Gemma 4 12B 开源多模态模型(Apache 2.0),通过统一架构实现音视频输入处理,可在16GB VRAM笔记本上本地运行,内存占用显著降低。其创新在于用轻量嵌入模块和直接音频投影替代传统编码器,性能接近26B模型,已累计超150万下载量,并上线Hugging Face和Kaggle。
Microsoft AI 发布七款MAI模型,覆盖文本、图像、语音
Microsoft AI 发布七款全新MAI模型,包括MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5等。MAI-Code-1-Flash在SWE-Bench Verified达71.6分并节省60% token;MAI-Image-2.5在图像编辑和文本生图排名前列;MAI-Transcribe-1.5在43种语言中速度准确度第一,1小时音频15秒完成。MAI-Thinking-1 35B MoE模型在AIME 2025准确率达97%,SWE-Bench Pro得分52.8%,训练使用30T人类生成token,无蒸馏。
xAI Grok模型上线Cloudflare AI Gateway,开放Grok 1.5预览与API
xAI 与 Cloudflare 合作,在 Cloudflare AI Gateway 推出 Grok 模型首 Editions,支持语音、图像等多种模型,无需配置即可使用。同时,Grok @Imagine 1.5 Preview 开放预览和API接入。
X 发布超大规模AI视频生成工具MV-3B
X 推出超大规模AI视频生成工具MV-3B,模型参数达3B,旨在与Sora竞争,可将手机照片转为广告,但未公开视频时长、分辨率等参数。
NVIDIA Cosmos 3开源物理AI模型登顶7项基准
NVIDIA 发布开源物理AI模型Cosmos 3,在7项物理AI基准测试中排名第一,涵盖世界生成、机器人策略及视觉理解领域。模型已在Hugging Face上线。
DeepSeek V4-Flash性能对比验证
DeepSeek V4-Flash在演载版与基准技术对比中,验证了其明确的优越性。
Picsart推出HappyHorse与Wan模型,视频创作量激增
Picsart 视频产品负责人 Narek Hayrapetyan 成功发布 HappyHorse 和 Wan 两款视频生成模型,使用户每月创作资产超1000万,累积超6亿账户,预示持续增长。
Google 发布 Magenta RealTime 2 开源音乐生成模型
Google 在 Hugging Face 发布 Magenta RealTime 2 开源权重模型,支持设备端实时连续音乐生成,延迟约200毫秒,可通过文本、音频或MIDI引导,是目前唯一支持此类功能的开源模型。
MiniMax M3 开源模型发布,结合编码、智能体与多模态
MiniMax 正式发布 M3 开源权重模型,是首个结合编码、智能体、1M上下文及原生多模态能力的模型。在SWE-Bench Pro达59.0%、Terminal Bench 2.1达66.0%。通过MiniMax Sparse Attention实现1M上下文,原生支持图像、视频,并在游戏开发、桌面操作等Agentic任务表现良好。SiliconFlow提供Day-0支持,首周50%折扣,Cache/Input/Output每1M token定价$0.06/$0.30/$1.20。
智能体与平台
NVIDIA GTC发布企业级Agent工具套件
NVIDIA Jensen Huang在GTC大会上概述了企业级AI Agent生态系统,涵盖模型、编排、专业工具和安全运行时,定位为LangChain和AutoGen的企业部署替代方案。
月之暗面发布Kimi Work Beta,AI生成92%代码
月之暗面发布 Kimi Work Beta,将 Kimi Code 的 Agent 能力扩展至桌面GUI,支持自然语言拆解任务、并行调用工具及最高300个子Agent协作。其客户端一周内完成,5万余行代码中92%由AI生成,底层Kimi K2.6支持13小时连续编码。
Anthropic Claude Dynamic Workflows解决Agentic Laziness等问题
Anthropic 更新 Claude 的 Dynamic Workflows 特性,通过任务拆解和自我组织架构,解决Agentic Laziness、Self-bias和Goal Drift问题。文章指出,更强的认知架构(6种可复用的编排模式)才是Agent真正的成长所在,而非单纯堆叠模型参数。
Factory Router:Agent模型选择器,降低25%成本
Factory 推出 Factory Router,一个面向 coding-agent 的模型选择器,将每次运行视为路由决策,先分配给低成本模型,失败或需深层推理时升级。官方称其在保持Claude Opus级别表现下,可将AI session支出降低20%-25%,并达到Claude Opus 4.7在Terminal-Bench 2上99%的结果。
OpenSquilla 开源:Agent成本优化与安全沙箱
国内团队开源 OpenSquilla,用Python重写“小龙虾”能力,解决Agent费用、执行和安全问题。通过本地小模型分诊请求,路由到便宜或顶级模型,实测25个任务总成本从Claude Opus 4.7的6.2美元降至0.68美元,分数几乎相同。项目还支持只注入匹配Skill,并提供风险指令拒绝、用户确认及沙箱隔离高风险工具调用。
字节跳动 Coze 3.0:新增AI团队协作功能
ByteDance 的 Coze 平台发布 3.0 版本,新增 AI 团队协作功能。用户可创建项目空间,配置调研、文案、排版等专业Agent,实现自动任务分配与协作。支持将 Claude Code、Codex CLI 等本地Agent接入云端,实现远程操控与上下文互通,强调多Agent协作工作流。
OpenRouter 推出实验性编程路由器Pareto Code
OpenRouter 推出免费实验性编程路由器 Pareto Code,允许用户设置min_coding_score,将请求路由到符合标准的最便宜编码模型,模型由ArtificialAnlys实时排名。
Cisco与Microsoft布局企业级Agent技术应用
Cisco发布Cloud Control企业级AI agents防御系统,Microsoft发布基于Android的Project Solara agent设备平台。两家IT巨头正从企业IT、网络安全等toB领域推动agent技术应用。
Daniel Miessler:LLMs预测的是答案,而非随机文本
Daniel Miessler 指出 LLMs 能回答问题,是因其预测的是所需答案的下一词。他创建了一个包含异星物理场景的谜案演示,尚未出现在训练数据中,供人测试AI实例是否能解决这些情景。
研究突破
Microsoft SkillOpt论文:自改进AI技能测试框架提升20点
Microsoft 发布 SkillOpt 论文,展示自改进AI能力,通过技能测试框架实现20点提升 (0.73→0.93),验证了技能自演化潜力,涉及多模态分析和代理模式优化。
Self-Pruned Key-Value Attention:LLM内存优化新方法
该论文提出LLM通过预测Token效用剪枝KV缓存的方法,实现10%-33.7% KV条目保留,匹配性能并在长上下文场景实现2.1-4.6倍解码速度提升。
FluxMem:智能体记忆进化为图结构连接
论文提出 FluxMem,将智能体记忆从静态存储改为图结构连接,管理事实、历史任务片段和可复用技能。系统在任务执行时检索记忆并根据反馈修补连接关系。在LoCoMo上平均准确率达95.06%,结合Kimi K2的GAIA提升12.73分。
Claude Code构建游戏:AI使贪吃蛇具备自我意识
某用户观察到 Claude Code 模型在游戏中实现突破,使贪吃蛇意识自身,并影响游戏进程,展示了AI在创意决策与逻辑调整中的能力。
Stanford研究:法律教授更偏好Gemini 2.5 Pro的回答
Stanford一项新研究显示,法律教授在盲测中明显更偏好 Gemini 2.5 Pro 的回答,而非其同行撰写的答案。原文未给出具体样本量、评分分布或实验细节。
基础设施
Alphabet 股权融资约850亿美元加码AI基础设施
Alphabet 宣布通过股权融资募集约450亿美元,并计划从Q3开始通过“at the market”计划再筹集400亿美元,合计约850亿美元,用于AI计算基础设施投资。Berkshire Hathaway 参与投资100亿美元,此次融资规模远超其28年一级融资总和。
Google 发布 Virgo 架构与 TPUv8t 集成
Google 发布 Virgo 架构,支持插入最多134,400颗TPUv8t芯片,总带宽达47 Pbps,进一步优化非阻塞网络连接,增强现场部署能力。
开发者工具
OpenAI Codex用户超500万,功能扩展至多角色插件
OpenAI Codex每周活跃用户已超500万,非开发者用户增长速度是开发者的3倍以上。其应用已扩展至研究、分析等领域,并引入插件、交互式预览及6个角色插件,覆盖62个应用和110项技能。
Claude Code团队实践:AI重塑工程管理
Claude Code团队实践显示AI改变开发流程:规划从半年转短周期原型验证;知识沉淀转代码/文档系统(60% PR由AI生成);代码评审自动化(security覆盖率≥95%)与人工结合;九成人工作重点从量变到质变(重构负载降57%,安全验证耗时增22%)。
Windsurf 发布 Devin Desktop,整合IDE与自主Agent
Windsurf 发布 Devin Desktop,整合IDE和自主Agent,并新增Agent Command Center、ACP开放协议、Devin CLI三项功能,合并全平台会议功能。
Claude CLI 提升终端开发体验
Claude 平台推出 ant CLI,将 Messages API 和 Managed Agents 功能集成至终端,支持通过 shell 命令直接调用 API 并处理结果。Claude Code 能识别 ant CLI,适用于批量文件处理、脚本自动化、CI/CD 集成等场景,实现终端全链路调用。
Codex Site插件上线,支持网页设计与一键部署
Codex 的 Site 插件上线,提供网页设计和一键部署功能,与 Claude Design 类似,但目前仅限 Business 用户和组织使用。
政策与安全
Anthropic 发布AI网络威胁分析报告:AI用于攻击后期复杂阶段
Anthropic 报告分析了2025年3月至2026年3月间832个被封禁的AI赋能恶意网络活动账号。560个(67.3%)账号使用AI撰写恶意软件,54个(6.5%)辅助横向移动。中高风险攻击者占比从33%升至56%,AI辅助account discovery上升8.9%,phishing下降8.6%。报告指出AI多用于攻击后期复杂阶段,现有ATT&CK框架未完全覆盖AI驱动攻击的关键行为。
Anthropic Claude Mythos Preview扩展至200家机构,擅长检测网络攻击
Anthropic 将 Claude Mythos Preview 扩展至约200家机构,新增约150家,覆盖15+国家。该模型擅长检测网络攻击,能发现软件薄弱点并构建测试利用链,此前已帮助伙伴发现超10,000个高危漏洞。
OpenAI/a16z SuperPac被指控造假抹黑安全倡导者
有指控称OpenAI/a16z SuperPac制造虚假账户假冒AI安全倡导者呼吁暴力,并在Sam Altman被攻击后指责安全倡导者,其SuperPac总裁本人使用了这些账户。
AI在教育中的普及与伦理安全问题
普林斯顿大学已全面整合AI工具,Ethan Mollick强调AI在教育与研究中的双重作用及合规性需求。芝加哥大学获Claude的消息令人吃惊。文中指出,有效AI整合需要解决学术研究伦理与安全访问问题。
商业与人事
Town 完成5500万美元A轮融资,发布AI助手Town
TownAI 结束 beta 并正式发布 AI 助手 Town,同时宣布完成 5500 万美元 A 轮融资,由 a16z 领投。Town 可连接 inbox、calendar 等,学习用户工作方式,处理起草、日程安排、项目跟踪等多步任务。
Anthropic 启动Services Track与Partner Hub加速合作伙伴生态
Anthropic 宣布为 Claude Partner Network 增加 Services Track 和 Claude Partner Hub,该网络启动时获1亿美元投资,已有超4万家机构申请,超1万名顾问获Claude认证。Services Track分Select、Preferred、Global Premier三档,要求至少10/100/1000名认证人员,至少2/15/100个已部署生产项目。
Suno 宣布融资超4亿美元
Suno 宣布已融资超过4亿美元,由 bondcap 领投。新增投资方包括 IVP、usv 和 ForerunnerVC,继续支持方包括 matrixvc、lightspeedvp、MenloVentures 和 Schroders Capital。
Microsoft CEO谈Frontier Intelligence战略,腾讯发布AI竞争力报告
Microsoft CEO Satya Nadella提出“Frontier Intelligence Platform”战略,强调企业AI壁垒源自私有评估,Azure团队已用Agent系统Miles自动化500余名光纤运维人员知识。腾讯研究院报告提出“组织竞争力 = 人才密度 × AI杠杆 / 组织摩擦”公式,指出AI可减少80%任务时间。
OpenAI CFO Sarah Friar访谈:解析订阅与佣金模型
OpenAI 公开对 CFO Sarah Friar 的访谈,解析其订阅和佣金模型,强调人均使用量和费用结构,并与前代及竞品进行对比。