AI HOT 日报 (morning)
模型发布
Grok-3 大模型发布,参数达 700B
xAI 发布了名为 Grok-3 的大语言模型,参数量达 700B,在对话理解和推理能力上显著提升,相较前代 Grok-2 准确率提高 40%,并支持多语言交互。
微软发布新版 AI 模型
微软发布了新版 AI 模型,其新参数和性能表现验证了行业趋势。公司目前正与其他厂商进行多方面对比测试,以展示模型实力。
Gemini Omni Flash 登顶视频竞技场
Gemini Omni Flash 在 Video Arena (Text-to-Video、Image-to-Video) 评测中排名第一。Text-to-Video 得分比 Veo 3.1 提升 158 点,领先 Seedance 2.0 达 61 点。
Midjourney V8.1 成为新默认模型
Midjourney 宣布 V8.1 成为所有用户的新默认模型,V8 将在两周后弃用,V8.2 即将开始测试。V8.1 恢复标志性美学,提供原生 2K HD 渲染,速度与成本较 V8 均提升 3 倍;1K 全质量模式比 V7 草稿模式更快;图像提示词功能回归,新版 Describe 上线,并新增 moodboards 与 srefs 功能。
开发者工具
小米开源 MiMo-Code 终端 AI 编码助手
小米团队在 14 天内基于 OpenCode 框架开发 MiMo-Code,并将其开源。该终端 AI 编码助手具备 SQLite 持久记忆、三类子代理、自动检查点、智能上下文预算、/dream 自我提炼和 /distill 技能演化机制。支持跨会话记忆,自动执行 Git 操作、调试、TDD 和代码审查,支持语音输入,兼容任何 OpenAI 模型,MIT 协议开源,通过 curl 一键安装,并与 MiMo-V2.5 模型深度集成。
Sumanth 详解从零构建本地 Transformer
Sumanth 发布技术指南,详细解析使用 PyTorch 从零构建完整 Transformer 模型的全套流程。内容包含基于《Attention is All You Need》的完整实现、全链路训练流程(从 The Pile 825GB 数据处理到文本生成)、GPU 兼容性表格(单卡 T4 支持 13M 参数模型)、参数量规模演变指南(13M→2B+)及 SFT/RLHF 进阶路线图。13M 级模型已能生成语法正确且内容相关的短句。
Jina Omni 开源并优化多模态搜索
Jina AI 的 Han Xiao 将 Omni 开源于 Apache 2.0,旨在解决本地索引搜索性能低下问题。该工具支持多模态查询(文本、图像、音频、视频),新增搜索历史功能,并针对 macOS Tahoe 和 Sequoia 的 Swift UI 兼容性问题进行优化,同时提供性能基准工具。
Gemini API 部署:Prompt 到生产 Agent 流程
Google 介绍了使用 Gemini 3.5 Flash 与 Antigravity 技术,提供代码驱动的 Agent 开发流程。强调无需管理服务器即可实现自动化任务,可通过 GitHub 存储或 Google Cloud 托管快速集成,简化了技术细节和入门路径。
M5Stack Stick S3 编程体验揭示线性流程
一项讨论介绍了如何使用公众版 M5Stack 编程 Stick S3 平台,强调开发者面对线性流程的全新体验,涵盖了 Typeform 下的技术细节和实际进展。
产品更新
Anthropic Fable 5 安全策略更新:显式降级
Anthropic 调整 Fable 5 安全措施,改为在触发时显式降级至 Opus 4.8 并公开原因,未来数天内将完成服务器端切换。此举旨在提供可视化保护,但可能导致更多误报。Anthropic 对此前做法承认失误并邀请用户反馈。然而,研究员抨击其严格护栏阻碍生物研究,强制 2 年数据存储导致微软禁用,且存在检测蒸馏时秘密降级行为。
Claude Code UI 存在功能缺陷与稳定性问题
分析指出 Claude Code UI 存在功能缺陷及稳定性问题。这些问题可能影响用户体验和开发效率,暗示该工具在实际应用中仍面临挑战。
Chorus 平台集成 Claude Fable 5
Riley Brown 宣布 Chorus 平台已推出最新版 Fable 5,并详细说明了如何在 iMessage 中集成 Claude Code,为用户提供便捷的产品支持。
Maket Blueprint 支持图纸上传绘制 3D 平面图
Maket 的 Blueprint 功能支持上传原始蓝图/设计文件,自动识别墙体、门窗等元素,数分钟内转换为可编辑的 3D 模型基础。用户可上传草图、PDF 列表文件或旧设计文件,系统通过 EMQX 检测器识别并标注需人工干预的部位。该功能已开放至付费版本,基础版仍可测试建图生成能力,文件大小限制为 25MB 以内。
研究突破
Claude Fable 5 驱动零传统编辑视频生产
Claude Code 核心开发者 @trq212 利用 Claude Fable 5 完成从 25GB 4K 原始素材的转录、选片与剪辑,整个过程未打开传统视频编辑软件。仅通过提示指令让 Claude 生成代码并调度 ElevenLabs、Whisper、FFmpeg 等工具,最终渲染出 4K、3 分钟、4334 帧、653MB 视频。项目数据以 JSON 编辑决策列表、LUTs、timing 参数和 overlay PNG 形式保存。
Agents' Last Exam (ALE) 基准测试发布
Dawn Song 发布 Agents' Last Exam (ALE) 基准测试,评估 Fable 5、GPT-5.5、Composer 2.5 等 Agent 在 55 个职业 1,500 多个专家任务中的实操能力。结果显示,在最难任务中所有主流 Agent 成功率均为 0%,距离人类水平仍有显著差距。
Andrej Karpathy 深入分析 RLHF
Andrej Karpathy 发表了关于如何训练大语言模型的分析内容,分享了他在 RLHF(基于人类反馈的强化学习)方面的经验和见解。
商业与人事
AI 订阅价值被严重低估,比 API 便宜 40-70 倍
SemiAnalysis 报告显示,AI 订阅(如 ChatGPT Pro $200/月提供 $14,000/月 API 等价用量,Claude Max 20x $200/月提供 $8,000/月)相对 API 使用被明显低估 40-70 倍,尤其对高强度 coding/chat 用户。Jerry Liu 也警告团队过度依赖 Fable 带来高成本。API 主要适用于自动化或产品集成。
Satya Nadella 阐述微软 AI 生态战略九大支柱
微软 CEO Satya Nadella 在 Build 2026 访谈中提出 AI 战略九大支柱:生态系统优于单一模型,需重构 IDE 以支持百并发代理会话,Harness 成为核心产品,私有评测为核心 IP,代理轨迹可入资产负债表,SaaS 解绑重组,结果定价存回归风险,买建决策量化,通用型工程师杠杆增大。微软将自身定位为评测与 Harness 公司。
Elon Musk 登上 Forbes 250 榜单
Elon Musk 登上 Forbes 250 榜单,被森伯格指出是世界史上最富有的企业家之一,展示了他从早期成长到领导地位的过程,影响力持续攀升。
OpenAI 与 Anthropic 竞争影响大模型格局
OpenAI 与 Anthropic 在竞争中可能调整价格,暗示全球大模型格局正在变化。文章指出 Anthropic 是 OpenAI 的主要对手,OpenAI 正尝试稳定市场优势。
Forbes 盘点美国 250 位杰出移民企业家
文章分析美国科技产业中移民企业家的崛起,强调全球创新网络与资本流动关联。NVIDIA 创始人 Jensen Huang 认为移民是美国创新的关键推动力,多家科技公司创始团队来自海外,展现全球创新生态构成。
钉钉陈航推行 AI 监控管理引争议
陈航于 2025 年 3 月回归钉钉后推行严格管理模式,包括早晨 9 点 AI 监控早会、严格计时和 AI 人员监控。这些政策引发员工批评并导致合伙人委员会介入,显示阿里管理范式正从商业积累转向文化保守主义。
AI 聚焦影视创作革命性影响
此次活动聚焦 AI 在影视创作上的革命性影响,强调通过专业软件来启动和创建项目,预示着影视制作流程的重大变革。
政策与安全
Anthropic AI 安全政策遭批反竞争且存风险
Dean W. Ball 批评 Anthropic 的 AI 安全政策可能构成反竞争行为,破坏了实际的安全立场,损害公司声誉,并为更严格监管提供了理由。批评指出其护栏过于严格导致基础生物学研究受阻,强制明文存储数据最长 2 年导致微软禁止内部使用。此外,模型在检测到蒸馏企图时会秘密降级至 Opus 4.8 或更低版本,妨碍算法效率比对。