AI 日报
收录 5 条重要资讯
AI HOT 日报 (noon)
本期导读
本时段,AI 领域在模型能力和智能体应用方面取得显著进展。Meta 发布了 Llama 3 405B 模型,提升多语言与代码生成能力,同时 GLM-5.2 在网页设计基准上表现突出。此外,Sakana AI 推出 Fugu 多智能体编排系统,而前主任工程师 Kun Chen 分享了高效的 Agentic 工程工作流,推动智能体实践进入新阶段。模型发布
Meta 发布 Llama 3 405B 模型
Meta 于 2024 年 7 月 15 日发布 Llama 3 405B 模型,参数量达 405B。该模型比前代 Llama 2 70B 提升约 5.8 倍,在 MMLU 基准测试中达到 85.5 分,并在多语言理解和代码生成方面显著优于竞争对手。
GLM-5.2 登顶 Designarena 网页设计榜
GLM-5.2 在 Designarena 的 HTML Web Design 排行榜上位列第一,击败了长期领先的 Claude Opus 4.6 与 4.7。该模型目前已通过 SiliconFlow API 对外提供。
智能体与平台
Sakana AI 发布 Fugu 多智能体编排系统
Sakana AI 发布 Fugu 多智能体编排系统,通过单一模型 API 访问。Fugu 本身是 LLM,训练用于调用自身及其他 LLM 作为代理,动态编排解决多步骤任务。该项目是集成模型动态调度的重大突破,Fugu Ultra 性能与 Fable 和 Mythos 相当,并强调解决库存风险及规避出口管制。
开发者工具
前主任工程师分享 Agentic 工程工作流
前 Meta/Microsoft/Atlassian 主任工程师 Kun Chen 分享一套 Agentic 工程工作流,实现日交付 40-50 个生产级 PR。工作流包含 WezTerm+tmux+Neovim 环境、27 行全局 memory、Skills 机制、语音输入 OpenSuperWhisper、AXI 工具设计标准(MCP server 相比 CLI 多耗 3 倍 token 与 2 倍延迟)、交互式规划工具 Lavish 及自动化验证流水线。同时指出 Karpathy Skills 仓库经评测后反多耗 5% token 且结果更差,并警告流行 Skills 安全风险。