AI HOT 日报 (evening)
基准测试
Qwen3.7 Max 跻身 ITBench-AA 前三
Artificial Analysis 与 IBM Research 联合推出 ITBench-AA,评估模型在企业 IT 代理任务(SRE场景)上的能力。该基准包含 59 个 SRE 任务,基于 Kubernetes 故障快照,通过 Stirrup 框架评测。结果显示,Claude Opus 4.7 以 47% 领先,GPT-5.5 46%,Qwen3.7 Max 42%。所有前沿模型得分均低于 50%。在开源模型中,GLM-5.1 以 40% 领先,DeepSeek V4 Pro 38%,Gemma 4 31B 37%。
Artificial Analysis 发布 Coding Agent 基准
Artificial Analysis 发布 Coding Agent 基准,并首次发布 YouTube 视频,比较不同编码智能体在性能、成本、token 使用量和速度上的差异。其中 Claude Code 的 Opus 4.7 表现领先,Composer 2.5 在 Coding Agent Index / Cost Pareto frontier 上位置突出。
智能体与平台
腾讯云发布 Agent Memory 方案
腾讯云技术工程团队推出 TencentDB Agent Memory 短期记忆压缩方案,通过“上下文卸载”与 Mermaid 任务画布结合,将外部信息保存并保留摘要和索引,组织任务进度。方案提出四层记忆架构,Flowchart 比 StateDiagram 更适合 Agent 探索式执行,效果提升约 15%。在四组超长 Session 评测中,WideSearch 节省 61.38% Token 且通过率提升 51.52%,SWEbench 节省 33.09% Token 且完成率提升 9.93%,Toolathlon 通过率从 20% 提升到 35%,AA-LCR 节省 31% Token 且准确率提升 3.5 个百分点。
基础设施
SpaceX 完成自研 AI 训练栈 V1.0
SpaceX 几乎完成一套用 C 编写的内部 AI 训练栈 V1.0,该系统可精确映射到 22 万块配备 800G NIC 的 GB300,并大量使用 pipeline parallelism,尽可能贴近 bare metal。该训练栈在大规模训练任务上的潜在速度提升相较 JAX 可达到一个数量级以上。
政策与安全
Anthropic 披露 Claude 产品约束工程方法
Anthropic Engineering 介绍了其在 Claude.ai、Claude Code 和 Claude Cowork 三个产品中约束 AI 智能体的工程方法,区分用户滥用、模型行为不当和外部攻击者三类风险,并对应环境、模型、外部内容三类防御组件。披露了三种隔离模式:临时容器、人工参与沙箱、本地虚拟机,并分享了预信任对话利用、用户作为注入向量攻击、通过已批准域名数据窃取等失败案例。一项红队结果显示,25 次尝试中有 24 次可能导致凭证泄露。
研究突破
Qwen 团队发布 T2I 评估工具 Q-Judger
Qwen 团队发布自动化文本到图像(T2I)评估工具 Q-Judger 和 Qwen-Image-Bench。Q-Judger 基于 Qwen3.6-27B 模型,生成结构化评分(质量、美感、对齐度、现实贴合度、创意生成),与人工评分一致性 Spearman ρ=0.92。评估 18 个前沿模型,GPT Image 2 以 64.7 分总分领先,Qwen Image 2.0 Pro 排名第 5。研究发现物理逻辑、解剖学、动物、接触交互等四个系统性瓶颈得分均低于 44,创意生成方差是质量的 11 倍。
产品更新
Kling AI 展示原创短片
Kling AI 在 Lot's Community Day 上展示原创短片,推动 AI 电影界进步。
行业动态
Anthropic 调查 AI 编程代理在社科研究中的应用
Anthropic 基于对 1,260 名定量社会科学家的调查发现,81% 的受访者曾使用生成式 AI 模型辅助研究,但仅 20% 经常使用命令行集成 AI 编码助手(如 Codex、Cursor、Claude Code)。在这些用户中,86% 使用 Claude Code,31% 使用 Codex。调查还显示,男性研究者使用编码代理的比例是女性的两倍,顶尖大学研究者使用率高 40%;使用编码代理的研究者更常提交 working papers 和 grant proposals。
Agent 技术演变与未来趋势分析
文章分析了 Agent 技术在过去几年中快速演变,重点转向任务管理、工具使用、工作流设计和环境搭建。作者强调模型应与系统流程紧密结合,推崇结构化工作流和可读性强的工具,指出模型能力提升与工程化运用并重。