AI HOT 日报 (noon)
开发者工具
微软发布 Web Agent 框架 Webwright
微软发布终端原生 Web Agent 框架 Webwright,让 LLM 直接生成 Playwright 脚本驱动网页操作。它在 Online-Mind2Web 300 任务上达 86.7%(GPT-5.4),Odysseys 200 长程任务达 60.1%(GPT-5.4),比 SOTA 高 15.6%,比基线高 26.6%。Claude Opus 4.7 在其上达 84.7%。
Claude Code 推出安全审查插件
Claude Code 发布 security-guidance 插件,用两个 Claude 实例配合完成代码审查。插件采用 per-edit 正则匹配、diff review 和 agentic review 三层机制,将问题反馈给写代码的 Claude 自行修改,支持 org-specific 规则配置。
模型发布
Qwen3.7-Max 跃居 Code Arena Frontend 第4
Qwen3.7-Max (20250517 版本) 在 Code Arena: Frontend 评测中首次进入第 4 名,与 Claude Opus 4.6 在 agentic web development 任务上持平,并超过 GLM-5.1。Alibaba_Qwen 是榜单上排名最高的中国实验室。
产品更新
PrismML 发布 Bonsai Studio iOS 应用
PrismML 发布免费 iOS 应用 Bonsai Studio,支持手机本地离线生成图片。其 Bonsai Image 4B 模型压缩至 1-bit (0.93GB) 和 3-bit (1.21GB),在 Mac M4 Pro 上生成速度最高快 5.6 倍。iPhone 15 Pro 以上可运行,512x512 图片约占 1.5GB 内存。
研究突破
CMU 发布新基准 Odysseys
CMU 发布新基准 Odysseys,用于评测更困难的任务。Microsoft Webwright 在该榜单上以 61% 领跑,Alexander Yue 称其用 BrowserCode 和 Opus 4.7 跑出 70%。该基准旨在推动智能体在复杂长程任务上的能力发展。