AI 日报收录 7 条重要资讯

AI HOT 日报 (noon)

时间范围: 2026年05月27日 00:00 ~ 2026年05月27日 04:00

生成于: 2026年05月27日 04:00

本期导读

本期关注微软发布的终端原生 Web Agent 框架 Webwright，其在复杂网页任务上表现出色。同时，Claude Code 推出安全审查插件，Qwen3.7-Max 在 Code Arena Frontend 榜单取得新进展，CMU 也发布了新的 Odysseys 基准，显示智能体工具链与评测体系正持续细化。

开发者工具

微软发布 Web Agent 框架 Webwright

Microsoft

微软发布终端原生 Web Agent 框架 Webwright，让 LLM 直接生成 Playwright 脚本驱动网页操作。它在 Online-Mind2Web 300 任务上达 86.7%（GPT-5.4），Odysseys 200 长程任务达 60.1%（GPT-5.4），比 SOTA 高 15.6%，比基线高 26.6%。Claude Opus 4.7 在其上达 84.7%。

Claude Code 推出安全审查插件

Anthropic

Claude Code 发布 security-guidance 插件，用两个 Claude 实例配合完成代码审查。插件采用 per-edit 正则匹配、diff review 和 agentic review 三层机制，将问题反馈给写代码的 Claude 自行修改，支持 org-specific 规则配置。

模型发布

Qwen3.7-Max 跃居 Code Arena Frontend 第4

Alibaba Cloud

Qwen3.7-Max (20250517 版本) 在 Code Arena: Frontend 评测中首次进入第 4 名，与 Claude Opus 4.6 在 agentic web development 任务上持平，并超过 GLM-5.1。Alibaba_Qwen 是榜单上排名最高的中国实验室。

产品更新

PrismML 发布 Bonsai Studio iOS 应用

PrismML

PrismML 发布免费 iOS 应用 Bonsai Studio，支持手机本地离线生成图片。其 Bonsai Image 4B 模型压缩至 1-bit (0.93GB) 和 3-bit (1.21GB)，在 Mac M4 Pro 上生成速度最高快 5.6 倍。iPhone 15 Pro 以上可运行，512x512 图片约占 1.5GB 内存。

研究突破

CMU 发布新基准 Odysseys

CMU

CMU 发布新基准 Odysseys，用于评测更困难的任务。Microsoft Webwright 在该榜单上以 61% 领跑，Alexander Yue 称其用 BrowserCode 和 Opus 4.7 跑出 70%。该基准旨在推动智能体在复杂长程任务上的能力发展。