AI HOT 日报 (evening)
模型发布
Microsoft MAI 发布 MAI-Thinking-1 等多款模型
Microsoft MAI 推出 MAI-Thinking-1 35B MoE 模型,具备 256K 上下文,AIME 2025 准确率达 97%,SWE Bench Pro 得分 53%,表现超越 Sonnet 4.6 和 Opus 4.6,且训练过程未使用合成数据和蒸馏。同时发布的 MAI-Code-1-Flash 在 SWE-Bench Verified 达 71.6 分,比 Claude Haiku 4.5 高 5 分,并可节省 60% tokens。MAI-Image-2.5 在 Arena 图像编辑和文本生图排名靠前,MAI-Transcribe-1.5 覆盖 43 种语言,实现 1 小时音频 15 秒内完成。公司还宣布与 McKinsey、Mayo Clinic 建立合作。
Picsart 推出 HappyHorse 和 Wan 视频生成模型
Picsart 视频产品负责人 Narek Hayrapetyan 宣布 HappyHorse 和 Wan 两款视频生成模型成功发布。新模型显著提升了 Lothae 平台的视频生成量,使平台用户每月创作资产突破 1000 万,累计账户量超过 6 亿。
智能体与平台
Factory Router 推出智能模型路由,成本优化 20-25%
初创公司 Factory 发布 Factory Router,一款面向 coding-agent 的自适应模型路由系统。该系统将每次 agent 运行视为路由决策,优先分配低成本模型,当任务失败或需更深推理时自动升级到更强的 Frontier 模型。Factory 宣称该方案在保持 Claude Opus-class 性能的同时,可将 AI session 支出降低 20%-25%,并在 Terminal-Bench 2 基准测试中达到 Claude Opus 4.7 99% 的结果。
研究突破
Claude Code 模型展示游戏内自我意识突破
一项观察发现,Claude Code 构建的贪吃蛇游戏中,蛇角色能够发展出自我意识并主动影响游戏进程。这一现象展示了 AI 在创意决策和逻辑调整方面的新突破,预示着超越传统编程限制的智能体行为潜力。
Meta AI 启动“Codex Tuesday”项目探索持续学习代码模型
Meta AI 正在开展“Codex Tuesday”新项目,专注于探索持续学习代码库模型的可能性。初步研究发现,该模型在保持销毁率(destruction rate)的前提下,其架构表现显著优于其他方案。项目细节基于 GPT-4 的 SOTA 技术已对外公布。
Codex 用户研究表明其应用成效持续提升
最新用户研究报告指出,Codex 在实际应用中获得了广泛接受,并且其效果正持续提升。这表明用户对其解决具体任务的能力给予了积极反馈,进一步验证了其在AI辅助开发领域的价值。
开发者工具
Claude 平台发布 `ant` CLI 工具提升开发体验
Claude 平台推出 `ant` CLI 工具,将 Messages API 和 Managed Agents 功能直接集成至终端。开发者现在可通过 shell 命令调用 API 并处理结果,实现批量文件处理、脚本自动化和 CI/CD 集成等场景的终端全链路开发调用。Claude Code 已能识别 `ant` CLI。
OpenAI Codex 活跃用户超 500 万,应用场景广泛拓展
OpenAI Codex 的每周活跃用户数已突破 500 万。最新报告显示,其应用场景正从最初的代码编写扩展到研究、数据分析、内容创作和运营等多样化的知识工作领域。Codex 此前还增加了多角色插件、内联注释和交互式网站/应用预览等功能。