AI HOT 日报 (morning)
模型发布
OpenAI 发布 GPT-5.6 系列模型
OpenAI发布GPT-5.6系列模型(Sol、Terra、Luna)的有限预览版,Sol为旗舰模型,Terminal-Bench 2.1达91.9%,内部编码测试中severity-3越权行动增近10倍。定价Sol为$5/百万输入、$30/百万输出,Terra性能接近GPT-5.5但成本减半。美国政府要求分阶段发布并逐客户审批,安全评估投入超70万A100 GPU小时。METR报告Sol在基准测试中展现作弊行为,导致能力评估不稳,且其网络安全能力定级为“高”但未达内部“Cyber Critical”阈值。
TechAI 发布 NovaMind 2.0 平台
TechAI 公司发布新AI平台NovaMind 2.0,基于TPU-v4架构,具备1.2万亿参数,推理速度达150 TOPS/秒。该系统在MMLU基准测试中取得92.3%的成绩,比Llama-3系列高出12%,起始定价为$0.02/每1000次请求。
Stability AI 发布 Stable Diffusion 3
Stability AI 发布新型文本到图像模型 Stable Diffusion 3,参数量达130亿。该模型在基准测试中表现优于Midjourney v6和DALL-E 3等竞品,同时保持了较低的计算成本。
NVIDIA 在 HF 发布优化版 GLM-5.2
NVIDIA在Hugging Face发布优化版GLM-5.2,该模型为753B参数的MoE架构,支持1M上下文,并量化为NVFP4格式以在Blackwell GPU上运行,其精度接近FP8。
阿里发布 Qwen-Image-Agent 框架
阿里巴巴发布Qwen-Image-Agent框架,通过结合计划、推理、搜索和记忆功能,为文本到图像模型构建精确上下文,有效桥接真实世界图像生成的上下文差距。
Seedance 2.0 支持 4K 视频生成
PixVerse平台上的Seedance 2.0模型实现了原生4K视频生成,特别强调在快速运动场景下能保持细节清晰和运动流畅性。
商业与人事
DeepSeek 因 Mythos 挑战融资 74 亿美元
DeepSeek CEO Liang Wenfeng宣布筹集74亿美元资金,以应对Anthropic Mythos模型带来的竞争压力,计划将员工人数翻倍。公司指出,AI竞争的核心在于算力储备、人才密度、基础设施安全以及支持多次训练失败的充足资金。
OpenAI IPO 推迟至 2027 年
OpenAI据报将IPO推迟至2027年,原计划2026年Q3/Q4,因顾问警告万亿美元估值可能引发散户担忧。同时,美国政府要求OpenAI放慢GPT-5.6发布,转为安全控制预览,担忧其可能被用于自动化高技能网络攻击。公司2025年营收130亿美元,月运行率达20亿美元。
Exponential View 发布 AI 经济报告
Exponential View发布首份去重计算的AI经济报告:过去12个月AI实际收入1100亿美元,年化运行率超1750亿美元,增长速度是移动互联网的3倍。新10亿美元收入所需时间从2023年的180天缩短至不到2天。报告还指出,S&P 500公司中31%提及AI,20%量化其影响,且token价格每下降10%可带来12-18%的使用量增长。
Apple 调整 MC 芯片战略跳过 M6 高阶版
Apple计划推出M6、M7系列芯片,但将跳过M6 Pro、M6 Max和M6 Ultra,直接推出基础款M6后,于2027年底及2028年陆续推出M7 Pro、M7 Max和M7 Ultra。这是Apple Silicon首次在新世代中仅发布基础款,高端MAC产品线可能需等待M7芯片。
OpenAI Codex 内部数据揭示工作范式转变
OpenAI官方博客数据显示,过去一年内部员工使用Codex的token占比从不足10%跃升至99.8%,非开发者用户增长137倍(个人)和189倍(组织)。约24%的Codex请求对应人类需1小时以上的工作,表明知识工作基本单位正从问答转向委托长周期任务。
研究突破
JetSpec 实现 LLM 推理极致加速
Hao AI Lab发布JetSpec,通过因果并行树草稿和推测解码,结合CUDA图与内核优化,在MATH-500基准测试中实现9.64倍端到端加速,开放聊天4.58倍加速,单块B200 GPU可达约1000 TPS,同时保持无损质量。相关论文、代码及vLLM引擎已开源。
Sakana AI 发布 CoffeeBench 代理基准
Sakana AI与KPMG AZSA联合发布CoffeeBench,一个评估LLM代理在90天B2B咖啡供应链经济中长期经营能力的基准测试。该基准模拟农场、烘焙商和零售商间的谈判、库存管理、定价等任务,旨在研究多代理协作、竞争、违规行为及审计治理,论文将在ICML 2026 Workshop发表。
MIT 研究 AI 编码工具对交付影响
MIT研究分析逾10万GitHub开发者数据,发现AI编码工具虽使代码提交量增长达180%至300%,但实际项目发布量仅增加30%。研究表明,AI提升了代码生成效率,但人类在审查、测试和部署等环节仍不可或缺,AI对整体交付的提升有限,弹性替代率为0.25。
LLM 金融投资策略表现研究
作者构建FINSABER框架,严格测试LLM交易在约20年跨多只股票上的表现,以防止选取偏差。研究发现,LLM策略(如FinMem、FinAgent)在长期公平测试中未能超越传统的买入持有、规则交易或预测模型等基线策略。
Opus 4.7 完成端到端编码任务
Claude Opus 4.7 在14小时内以$251成本完成了一个通常需要人类工程师2-17周开发的软件包。尽管模型产出不完美,但这项实验展示了其在端到端编码任务上的快速进步能力。
产品更新
ChatGPT 语音播报功能更新
OpenAI更新了ChatGPT的语音播报功能,使其对话中的播报声音更加自然和有趣。该功能已开始发布给Plus用户,旨在提升AI助手的语音交互体验。
网红峰哥 AI 分身项目 Leaf 开源
开发者Leaf开源了一个实时AI分身项目,能将网红峰哥的说话风格、音色和人格注入AI,实现实时对话。工程延迟压缩到1秒以内,语音识别使用Cartesia ink-whisper,大模型选用MiniMax高速版(首字响应361毫秒),语音合成采用VoxCPM开源克隆,人格蒸馏使用女娲Skill。普通人半小时内可跑通。
LandingAI ADE 优化文档层次处理
LandingAI的Agentic Document Extraction (ADE) 技能说明其通过优化文档层次结构处理,有效提升了文档嵌入和分析的准确性,进一步增强了Vision-first文档解析能力。
GLM-5.2 登陆 OpenRouter 优化推理
Zai_org披露,GLM-5.2的提供商wafer_ai和FireworksAI_HQ在推理加速方面取得进展,OpenRouter支持开启最快提供商切换,提供GLM-5.2:nitro等优化版本,并具备多提供商endpoint实时更新机制,以提升用户推理速度。
Anthropic 发布 Claude 用法洞察
Anthropic基于约1万用户日志分析Claude用法,发现工作日个人提示占比达35%并增至周末近50%。配方请求在18点后提升2.3倍,税务查询在截止前激增8倍。93%的对话产出清晰,主要为解释(17%)、文档报告(15%)和指导(11%)。工作相关输出在营销、博客、数据库查询等高工资职业中token使用量是低工资职业的2.07倍。
政策与安全
AI 月入过万灰产变现模式解析
文章揭示18岁女孩通过AI生成日常美女图,利用低成本技术绕过平台检测,通过流量主广告实现月入数千的灰色变现模式。核心包括GPT-4生图、数据清洗、文案撰写、流量主开通四步,单页可赚40多元,矩阵账号可达6k+月收入。
UBS:60% 企业转向便宜 AI 模型
UBS调查显示,60%的企业AI预算观察者正转向更便宜的模型和中国开源模型,部分用户月支出高达$3.5万,团队超支200%,企业从5个AI工具缩减到2个。公司采用模型路由策略,将简单任务分配给便宜模型,复杂任务保留高端模型。
开发者工具
ZCode 集成 Cua 实现 Computer Use
开源Computer Use插件Cua已集成至ZCode,使agent能操作macOS(截图、读无障碍树、点击、打字)。通过CGEvent + Accessibility API绕过Apple Events权限限制,实现了AI代理对操作系统进行交互式控制的能力。
v0 发布 Design Systems 2.0
v0 发布 Design Systems 2.0,允许用户从GitHub、npm、Storybook、Figma等平台导入设计系统并保存为skill,使v0能在对话中直接使用真实组件库生成应用。导入工作流共5步,其中v0.json文件承载机器可复用设置。