AI 日报收录 12 条重要资讯

AI HOT 日报 (evening)

时间范围: 2026年05月28日 04:00 ~ 2026年05月28日 10:00

生成于: 2026年05月28日 10:00

本期导读

本时段，AI 行业在智能体基准测试与基础设施方面取得进展。Artificial Analysis 发布 ITBench-AA 和 Coding Agent 基准，揭示现有模型在企业 IT 代理任务上的局限性。同时，腾讯云推出 Agent Memory 方案，SpaceX 披露自研 AI 训练栈，显示行业正持续深化智能体工程化与底层算力优化。

基准测试

Qwen3.7 Max 跻身 ITBench-AA 前三

Artificial AnalysisIBM ResearchAlibaba_Qwen

Artificial Analysis 与 IBM Research 联合推出 ITBench-AA，评估模型在企业 IT 代理任务（SRE场景）上的能力。该基准包含 59 个 SRE 任务，基于 Kubernetes 故障快照，通过 Stirrup 框架评测。结果显示，Claude Opus 4.7 以 47% 领先，GPT-5.5 46%，Qwen3.7 Max 42%。所有前沿模型得分均低于 50%。在开源模型中，GLM-5.1 以 40% 领先，DeepSeek V4 Pro 38%，Gemma 4 31B 37%。

Artificial Analysis 发布 Coding Agent 基准

Artificial Analysis

Artificial Analysis 发布 Coding Agent 基准，并首次发布 YouTube 视频，比较不同编码智能体在性能、成本、token 使用量和速度上的差异。其中 Claude Code 的 Opus 4.7 表现领先，Composer 2.5 在 Coding Agent Index / Cost Pareto frontier 上位置突出。

智能体与平台

腾讯云发布 Agent Memory 方案

Tencent Cloud

腾讯云技术工程团队推出 TencentDB Agent Memory 短期记忆压缩方案，通过“上下文卸载”与 Mermaid 任务画布结合，将外部信息保存并保留摘要和索引，组织任务进度。方案提出四层记忆架构，Flowchart 比 StateDiagram 更适合 Agent 探索式执行，效果提升约 15%。在四组超长 Session 评测中，WideSearch 节省 61.38% Token 且通过率提升 51.52%，SWEbench 节省 33.09% Token 且完成率提升 9.93%，Toolathlon 通过率从 20% 提升到 35%，AA-LCR 节省 31% Token 且准确率提升 3.5 个百分点。

基础设施

SpaceX 完成自研 AI 训练栈 V1.0

SpaceXElon Musk

SpaceX 几乎完成一套用 C 编写的内部 AI 训练栈 V1.0，该系统可精确映射到 22 万块配备 800G NIC 的 GB300，并大量使用 pipeline parallelism，尽可能贴近 bare metal。该训练栈在大规模训练任务上的潜在速度提升相较 JAX 可达到一个数量级以上。

政策与安全

Anthropic 披露 Claude 产品约束工程方法

Anthropic Engineering

Anthropic Engineering 介绍了其在 Claude.ai、Claude Code 和 Claude Cowork 三个产品中约束 AI 智能体的工程方法，区分用户滥用、模型行为不当和外部攻击者三类风险，并对应环境、模型、外部内容三类防御组件。披露了三种隔离模式：临时容器、人工参与沙箱、本地虚拟机，并分享了预信任对话利用、用户作为注入向量攻击、通过已批准域名数据窃取等失败案例。一项红队结果显示，25 次尝试中有 24 次可能导致凭证泄露。

研究突破

Qwen 团队发布 T2I 评估工具 Q-Judger

QwenModelScope2022

Qwen 团队发布自动化文本到图像（T2I）评估工具 Q-Judger 和 Qwen-Image-Bench。Q-Judger 基于 Qwen3.6-27B 模型，生成结构化评分（质量、美感、对齐度、现实贴合度、创意生成），与人工评分一致性 Spearman ρ=0.92。评估 18 个前沿模型，GPT Image 2 以 64.7 分总分领先，Qwen Image 2.0 Pro 排名第 5。研究发现物理逻辑、解剖学、动物、接触交互等四个系统性瓶颈得分均低于 44，创意生成方差是质量的 11 倍。

产品更新

Kling AI 展示原创短片

Kling AI

Kling AI 在 Lot's Community Day 上展示原创短片，推动 AI 电影界进步。

行业动态

Anthropic 调查 AI 编程代理在社科研究中的应用

Anthropic

Anthropic 基于对 1,260 名定量社会科学家的调查发现，81% 的受访者曾使用生成式 AI 模型辅助研究，但仅 20% 经常使用命令行集成 AI 编码助手（如 Codex、Cursor、Claude Code）。在这些用户中，86% 使用 Claude Code，31% 使用 Codex。调查还显示，男性研究者使用编码代理的比例是女性的两倍，顶尖大学研究者使用率高 40%；使用编码代理的研究者更常提交 working papers 和 grant proposals。

Agent 技术演变与未来趋势分析

hongming731

文章分析了 Agent 技术在过去几年中快速演变，重点转向任务管理、工具使用、工作流设计和环境搭建。作者强调模型应与系统流程紧密结合，推崇结构化工作流和可读性强的工具，指出模型能力提升与工程化运用并重。