AI HOT 日报 (noon)
模型发布与更新
Meta 发布 Llama 4:700B 参数,MMLU 超 GPT-4
Meta 近日发布 Llama 4 模型,包含 700B 参数并提供多语言支持。该模型在 MMLU 基准上比 GPT-4 高出 3 分,单 token 推理成本为 $0.02。
PaddleOCR PP-OCRv6 上架 Hugging Face,支持多后端
PaddleOCR 发布 PP-OCRv6 (版本号 3.7),新增 Transformers 与 ONNX Runtime 两个后端,支持在不同推理框架间无缝切换,并在精度上较之前模型有提升。该版本已迁移至 Hugging Face,降低了使用门槛。
基础设施
OpenAI 联合 Broadcom 发布自研 AI 推理芯片 Jalapeño
OpenAI 联合 Broadcom 发布自研 LLM 推理芯片 Jalapeño,设计到流片仅用 9 个月,创高性能芯片 ASIC 研发最快周期,并由自家 AI 模型辅助完成。该芯片专为 LLM 推理优化,已成功运行 GPT-5.3-Codex-Spark,目标降低 50% 推理成本,提升能效,计划 2026 年底吉瓦级部署。此举标志 OpenAI 构建“模型反哺芯片设计、芯片支撑更便宜推理”的全栈飞轮,旨在持续降低先进 AI 访问成本。
商业与政策
Anthropic 升级指控:阿里大规模蒸馏 Claude,涉及 IPO 与监管
Anthropic 致信美国参议院银行委员会和白宫,指控阿里巴巴旗下通义千问实验室在 4 月 22 日至 6 月 5 日期间,通过约 25,000 个虚假账户对 Claude 进行超 2,880 万次交互,以蒸馏其软件工程和 Agent 推理能力。此次阿里一家的规模接近此前 DeepSeek 等三家被指控总和 (1,600 万次) 的两倍。Anthropic 目前估值 9,650 亿美元并已秘密提交 IPO 申请,同时面临美国商务部模型出口限制的矛盾境地。
开发者工具与实践
逸尘分享 Codex 实战路径:从赚钱到开源模板
逸尘分享 Codex 实战教程体系,涵盖赚钱模型、App 开发、记忆系统优化和 Agent 技术。提供 60+ 篇教程、一款付费用户超百人的 App,开源多 Agent 记忆系统模板,并集成了 GPT-5.5 与 Computer Use 技术,将 Codex 应用从研究推向工程化落地。
研究与洞察
Qwen-AgentWorld 环境世界模型解析与独特优势
原文深入探讨 Qwen-AgentWorld 模型在多环境中的应用,重点分析其环境模拟能力,并引用多篇论文与官方链接。指出该模型在当前环境模拟任务中具备独特优势,为语言世界模型在多环境下的应用提供了深入见解。
LLM 循环工程反思:内/外层循环与认知依赖
The Coming Loop 作者反思 LLM 循环工程,将循环分为内层 agent loop 和外层 harness loop。文章指出循环可能放大 LLM 代码的系统性缺陷,担忧认知依赖和判断力让渡,强调在拥抱循环的同时保留工程规则。