返回日报列表
AI 日报 收录 7 条重要资讯

AI HOT 日报 (noon)

时间范围: 2026年05月27日 00:00 ~ 2026年05月27日 04:00
生成于: 2026年05月27日 04:00
本期导读
本期关注微软发布的终端原生 Web Agent 框架 Webwright,其在复杂网页任务上表现出色。同时,Claude Code 推出安全审查插件,Qwen3.7-Max 在 Code Arena Frontend 榜单取得新进展,CMU 也发布了新的 Odysseys 基准,显示智能体工具链与评测体系正持续细化。

开发者工具

微软发布 Web Agent 框架 Webwright

Microsoft

微软发布终端原生 Web Agent 框架 Webwright,让 LLM 直接生成 Playwright 脚本驱动网页操作。它在 Online-Mind2Web 300 任务上达 86.7%(GPT-5.4),Odysseys 200 长程任务达 60.1%(GPT-5.4),比 SOTA 高 15.6%,比基线高 26.6%。Claude Opus 4.7 在其上达 84.7%。

Claude Code 推出安全审查插件

Anthropic

Claude Code 发布 security-guidance 插件,用两个 Claude 实例配合完成代码审查。插件采用 per-edit 正则匹配、diff review 和 agentic review 三层机制,将问题反馈给写代码的 Claude 自行修改,支持 org-specific 规则配置。

模型发布

Qwen3.7-Max 跃居 Code Arena Frontend 第4

Alibaba Cloud

Qwen3.7-Max (20250517 版本) 在 Code Arena: Frontend 评测中首次进入第 4 名,与 Claude Opus 4.6 在 agentic web development 任务上持平,并超过 GLM-5.1。Alibaba_Qwen 是榜单上排名最高的中国实验室。

产品更新

PrismML 发布 Bonsai Studio iOS 应用

PrismML

PrismML 发布免费 iOS 应用 Bonsai Studio,支持手机本地离线生成图片。其 Bonsai Image 4B 模型压缩至 1-bit (0.93GB) 和 3-bit (1.21GB),在 Mac M4 Pro 上生成速度最高快 5.6 倍。iPhone 15 Pro 以上可运行,512x512 图片约占 1.5GB 内存。

研究突破

CMU 发布新基准 Odysseys

CMU

CMU 发布新基准 Odysseys,用于评测更困难的任务。Microsoft Webwright 在该榜单上以 61% 领跑,Alexander Yue 称其用 BrowserCode 和 Opus 4.7 跑出 70%。该基准旨在推动智能体在复杂长程任务上的能力发展。