AI HOT 日报 (noon)
研究突破
Anthropic 公布 AI 递归自改进研究进展
Anthropic 透露 Claude 加速 AI 开发,可能走向递归自改进。内部数据显示,工程师平均季度代码量提升 8 倍,AI 任务时长每 4 个月翻倍(Opus 3 约 4 分钟,Opus 4.6 约 12 小时)。研究报告指出,Claude 系统提升代码产出超 80%,实验执行加速 52 倍,人类研究判断优于人类比例从 51% 升至 64%。SWE-bench 和 CORE-Bench 在特定时间内趋于饱和。
探究 LLM Agent 自演化:Harness 更新非效益
论文挑战将最强大模型作为进化器,发现小型 Qwen3.5-9B 进化器编写的更新效果可与 Claude Opus 4.6 持平。研究指出,弱模型难以加载技能,强模型接近天花板,中等模型是 Agent 自演化最佳选择。
Harness-1:外部 harness 管理搜索 agent 记忆
论文提出 Harness-1 框架,将搜索 agent 的记忆与状态管理从模型内部移到外部 harness。该设计让 20B 模型专注于语义决策,而 harness 维护候选、文档、标签等,在 held-out benchmarks 上实现更好搜索表现。
模型发布
Google Gemma 4 12B 更新,集成多模态与本地能力
Google 发布 Gemma 4 12B,Apache 2.0 许可的 encoder-free 多模态模型,支持文本、图像、音频、视频输入,拥有 256K 上下文。可在 8GB RAM (或 16GB VRAM) 设备上本地运行,性能接近 26B MoE 模型。已部署于 Red Hat OpenShift AI,累计超过 150 万下载量。
LLM-5 开源,参数 800B 提升 GLUE 30%
国内技术团队 domink kundel 宣布开源大模型 LLM-5,参数量达 800B。该模型在 GLUE 基准测试中实现 30% 的性能提升,数据集覆盖 85 种语言。
开发者工具
OpenAI Codex 获 iOS 应用全流程开发插件
OpenAI 发布 Build iOS Apps 插件,使 Codex 支持自动化 iOS 应用构建、模拟器运行与实时预览调试。预览机制依赖 SnapshotPreviews 项目,底层采用 XcodeBuildMCP 工作流,核心组件 serve-sim 开源。工具减少了 Xcode/SwiftUI 构建流程的跨工具跳转时间。
AI API 获取高质量数据教程发布
一篇技术报告详细介绍了如何利用最新 AI API 技术,系统化查询、评估与总结特定模型性能的完整流程,旨在帮助用户高效获取高质量数据。
产品更新
Cursor 发布 Canvases 功能,支持应用创建与共享
Cursor 推出 Canvases 功能,允许用户创建仪表盘、报告和内部工具等应用程序。这些作品可通过 URL 与团队共享,提升了团队协作和定制化应用开发的效率。
商业与人事
Kimi-Code 架构重构,程序员产能提升 20 倍
Kimi-Code 团队在一个月内完成架构重构,通过深度代码分析和团队协作,使程序员生产力提升 20 倍。团队强调集体主义在提升效率中的作用,挑战了传统上对个人创新与代码质量的单一关注。