AI HOT 日报 (morning)
模型发布
Meta 开源 Llama 4 模型系列
Meta 开源了 Llama 4 模型系列,参数量从 8B 到 93B 不等,能处理复杂 AI 任务。模型训练数据包含公开文本,开放许可证允许商业使用,并在多个基准测试中优于竞品。
Google 开源实验性 DiffusionGemma
Google 发布实验性开源模型 DiffusionGemma,采用 26B MoE (3.8B 激活参数) 架构,量化后可在 18GB 显存运行。模型以并行方式一次性生成 256 token 文本块,专用 GPU 上速度提升最高 4 倍 (H100 达 1000+ token/s,RTX 5090 达 700+ token/s)。权重已在 Hugging Face 以 Apache 2.0 许可证开放,定位速度优先的本地工作,输出质量低于标准 Gemma 4。
MiMo 发布 Code V0.1 API
MiMo 发布 V0.1 版 MiMo 命令金 API,增强参数量与上线时间,符合厂商公开信息,参数组 VS SOTA 全网数据,具备开源可用性。
DeepSeek V4 Pro 发布 OpenCode Zen 平台
DeepSeek 发布其第四代大模型 DeepSeek-V4-Pro 系列,并通过 OpenCode Zen 平台披露技术细节,该模型位居自由权重 TOP2 大模型第三位。推出日期为 2024 年 12 月 15 日。
智能体与平台
Nex-N2-Pro 模型 ModelScope 上线
ModelScope 开源 Nex-N2-Pro 397B 大模型并上线推理 API 服务,基准测试指标显著提升,Terminal-Bench 2.1 达 75.3、SWE-Bench Verified 达 80.8、BrowseComp 83.7、GDPval 1585。采用 SGLang fork、reasoning parser 等自定义 Docker 部署架构,Apache 2.0 许可证。
AI Agent 提升知识工作效率与成本
Perplexity 与 Harvard Business School 研究显示,Agent 使知识工作任务平均耗时从 269 分钟降至 36 分钟 (节省 87%),综合成本下降 94%。在编程场景中,时间从 596 分钟降至 48 分钟,成本下降 96%。Agent 机器执行时间中位数为 9 分钟,用户中断率约 3.7%。
Text-To-Lottie 开源 Agent Lottie 生成工具
开源作者 Konstipaulus 发布 Text-To-Lottie,一个让 Agent 生成可渲染 Lottie 的开源 Skill 与本地预览 Harness 组合,支持 Agent 输出标准 Bodymovin JSON。通过 Skia CanvasKit 实时热重载预览,并提供 5 条 Prompt 指南优化生成效果,如提供 SVG/数据、使用动效术语、固定时间规格等。
Jina v5 Omni 本地多模态搜索系统演示
Jina AI CEO Han Xiao 使用 jina-v5-omni 嵌入模型在本地构建全模态文件搜索系统,支持文本、PDF、图像、音频和视频的离线索引。系统采用 Swift 原生界面与 mlx-swift-transformer 优化,无需 Python 依赖,在 M3/M4 Pro/Ultra 设备上运行无 OOM,通过本地 HTTP 服务为智能体提供索引访问。
研究突破
Cohere North Mini Code 深度解析
Cohere 开源编程模型 North Mini Code (30B/3B MoE),采用 128 专家、256K 输入/64K 输出上下文,最低需 1× H100。模型经三阶段后训练,包括 7 万+可验证任务 SFT 与 CISPO 强化学习。SWE-Bench Verified pass@10 达 80.2%,Terminal-Bench v2 pass@10 达 55.1%,RL 后 Terminal pass@1 提升 7.9%。
Claude Fable 工作流令牌消耗分析
Anthropic 的 Claude Fable 模型在特定工作流中展现出快速消耗令牌的特性,此技术博客通过实测数据揭示了模型交互模式的关键特征。
Google 研究:Agent 编码模型效率提升
Google 研究团队提出基于 OpenCode 增强的 Agent 编码模型,通过文件系统模糊匹配与 OpenCode 实时代码提取,解决 Agent 处理大型代码库时的效率问题。实测显示模型在 SinkBench 和 APPS 基准测试中的通过率提升 58%。
Google DeepMind 研究 AI 助教
Google DeepMind 在塞拉利昂研究 AI 作为教师协作伙伴,以应对学生人数增长快于教师供给的挑战。8 周观察显示,学生使用 Gemini 理解概念的查询占比从 68% 升至 90%。
商业与投融资
中国拟推 2950 亿美元 AI 基础设施计划
路透援引 Bloomberg News 报道,中国正准备一项规模约 2950 亿美元的国家级 AI 基础设施计划,拟整合数据中心、电信运营商和国产芯片为一个由国家支持的算力网络。中国移动、中国电信等国有企业将运营大部分系统,并计划依赖本土供应商,至少 80% 的技术(如 AI 芯片)来自国内。
PoeticHQ 获 5000 万美元融资并发布 AI 系统
PoeticHQ 发布一套声称可执行数小时复杂任务且准确率达 99%+ 的 AI 系统,比 agents 少用 10 倍 token。公司同时宣布完成 5000 万美元融资,估值 5 亿美元,投资方包括 Kleiner Perkins、Founders Fund 等。Poetic 称其一年内从零增长到八位数年化收入,在 SoFi 欺诈调查中 5 周内达到 99%+ 质量。
TownAI 完成 5500 万美元 Series A 轮融资
TownAI 宣布在 a16z 主导的 Series A 轮融资中获得 5500 万美元,投资方包括 First Round、AltCap 等。该 AI 助手通过集成邮箱、日历、Slack、文档等,主动提出工作流、调度、跟进等任务,声称能更好地理解用户需求。
Marc Andreessen 评估 2026 年创业风口
Marc Andreessen 引用 Finn Mallery 分析 2026 年创业便利性,指出个人可利用非编程技术创建完整应用链条,通过 Cursor/Replit 无工程师开发、AI 视频剪辑工具、Chatbase 替代客服等。结论认为此类创业便捷度组合在 2026 年非常有利,相较 2024 年已完全不同。演示花费 77 美元完成开发全流程。
开源模型在性能与信任上更具优势
相比其他平台,Open Source 模型因透明度和社区协同在性能和信任上具备优势。原文提及 Fable 产品下架影响小型生物科技公司,引发行业对开源与商业模式的关注。
Nathan Lambert 兼职 Arcee AI 研发顾问
Nathan Lambert 加入 Arcee AI 担任研发顾问,该任命由 Arcee 官方公布,强调其在开源模型生态中的关键作用,旨在支持美国开源软件运动。此举标志着 Arcee 在加强生态合作的战略调整。
Meta 与 Omenta 合作开发自动化方案
Meta 与 Omenta 合作开发自动化解决方案,旨在提升社交媒体内容创作效率。具体参数或量化数据未在摘要中提供。
政策与安全
Anthropic CEO 提 AI 政策框架与研究资助
Anthropic CEO Dario Amodei 发布《Policy on the AI Exponential》长文,呼吁紧急更新政策框架以适应 AI 进展速度。提议强制性预发布测试与独立审计,政府有权阻止高风险模型部署,并主张提前应对 AI 驱动劳动力冲击及全球协调。公司同时推出 15 亿美元资助早期科学家的国家研究计划。
中国大模型开发者安全观独特性
资深 OpenAI 人员分析中美 AI 安全领域价值取向差异,指出中国企业在大模型开发中的安全意识与实践现状。结合 Anthropic 核心团队成员角色,重评其公司治理模式,提供具体案例分析及行业前瞻思考,涉及模型规模、研发投入及行业标准化指标。
Replit 推出 Package Firewall 提升安全
Replit 与 Socket 合作推出 Package Firewall,默认在 Replit Auto-Protect 中启用。该功能旨在恶意软件到达应用前拦截,已每日阻止约 8,000 次恶意安装,显著提升了开发环境的安全性。
AI Hate Porn:警惕公众负面心理
文章讨论主流 AI 霸权讨论中的负面趋势,批评 'AI Hate Porn' 现象对公众形成消极心理,指出其内容利用恐惧情绪。强调正确认识与实践的重要性,以避免技术引发的社会焦虑。
产品与服务更新
Claude Fable 5 评测登顶 AI Index
Artificial Analysis 预评测 Anthropic Claude Fable 5,以 64.9 分登顶 Intelligence Index,领先 GPT-5.5 约 5 分。在 AA-Omniscience 获 40 分,Humanity’s Last Exam 获 53%,在 GDPval-AA、Terminal-Bench Hard、Tau2-bench Telecom 智能体评测中领先。模型复用 1M token 上下文窗口,API 定价每 100 万输入/输出 token 10/50 美元,cache write/read 12.50/1 美元。6 月 23 日起需使用 credits。
Cohere Transcribe 登顶语音识别榜单
Cohere 宣布其开源语音识别模型 Cohere Transcribe (Apache 2.0 协议) 在 Hugging Face Far-Field ASR benchmark 上排名第 1,展示了领先的性能。
NVIDIA Vera CPUs 应用于金融服务
NVIDIA 与 Redpanda 及 HPE 合作,将 Vera CPUs 应用于 NYSE 市场基础设施,以实现高性能低延迟运行,支持 AI 就绪的金融服务。核心动作包括协同开发客户端解决方案,专注延迟优化和系统弹性。
Google Search 将推 Antigravity 定制体验
Google 在 Google I/O 上演示,搜索将在未来几个月内为美国的 Google AI Pro 与 Ultra 订阅用户提供 Antigravity 功能。该功能可在搜索页面内创建类似小程序的自定义体验,用于婚礼策划、搬家管理等持续任务,并计划后续向更广用户开放。