AI HOT 日报 (morning)
研究突破
Meta 论文:测试时扩展应压缩摘要而非简单多试
Meta 提出编程 agent 在测试时扩展时应把每次尝试压缩为短摘要后用 tournament 筛选,而非简单增加尝试次数。该方法使 Claude 4.5 Opus 在 SWE-Bench Verified 上从 70.9% 提升至 77.6%,Terminal-Bench v2.0 从 46.9% 提升至 59.1%。
Agent 表现受 harness 影响,论文提出自然语言化描述
论文指出 agent 的表现更多依赖外部 harness 而非 prompt,提出用结构化自然语言描述阶段、角色、契约、失败模式等。在 SWE-bench 上 harness 重量显著改变调用次数与工具使用模式,但并非越复杂越好。
AI 检测器对学生写作存在结构性误判
论文从统计学论证 AI 检测器在学生写作中存在结构性限制:由于学生写作风格差异大,能识别 AI 文本的检测器必然误伤公式化或 ESL 学生。这一误判不是当前工具的缺陷,而是由分布重叠导致的根本问题。
开发者工具
《Zero to Claude Code》免费课程上线
Wix VP IShmool 推出免费课程 'Zero to Claude Code',覆盖文件/终端/Git、Node.js、API、MCP、Subagents 等共 14 级 147 课,完全在浏览器运行。已有 17,000+ 学员,覆盖 30+ 国家,平台日请求量 6.4M,错误率低于 0.003%。
llmfit:按本地硬件自动推荐推理模型
Sumanth 发布开源 CLI 工具 llmfit,自动检测 CPU、RAM、GPU、VRAM,从 206 个模型中按实际可运行性排序。默认从 Q8_0 匹配,必要时逐级降精度,支持 TUI、CLI 表格、JSON 和 REST API 输出。
feishu-claude-code-bridge 开源:飞书中指挥 Claude Code
Zara Zhang 开源飞书与 Claude Code 桥接工具,支持在飞书中发指令、编辑文档、实时同步处理过程。可绑定指定工作区,利用 CLAUDE.md、Skills 和 Hooks。通过 `npx` 启动,需配置 App 凭证。此外提及 Claude CLI 独立计费从 2026-06-15 起。
基础设施
SemiAnalysis:园区内燃气发电已成 AI 集群默认供电架构
SemiAnalysis 指出美国下一波 AI 训练集群的燃气发电已从临时方案变为多个园区的实际架构。供应链产能数据:GE Vernova 目标约 24 GW/年,Siemens Energy 到本世纪末约 30 GW/年,Wärtsilä 单一项目 800 MW,Bloom 计划 2026 年底 2 GW/年燃料电池产能。