AI HOT 日报 (morning)
智能体与平台
Sakana AI发布Fugu多智能体编排系统
Sakana AI发布Fugu多智能体编排系统,通过单一API指挥多智能体协同,其中Fugu Ultra模型性能匹敌Fable与Mythos,且无出口管制风险。Fugu Ultra在原子聊天交易桌面编码测试中耗费22,225 tokens/$0.51,高出其他模型17倍,并在机械虹膜CAD设计任务中生成功能性设计。非Ultra版本作为分类器/路由器,Ultra版本采用5步计划模式。
GLM-5.2在Agent基准GDPval-AA排名第三
Artificial Analysis评测显示,GLM-5.2在真实世界Agentic工作基准GDPval-AA上获1524 Elo,排名第三,仅次于Claude Fable 5 (1783) 和Claude Opus 4.8 (1615),与GPT-5.5 (xhigh, 1509)持平,为开源模型最高分。定价为每百万输入/输出token $1.40/$4.40。
Google Interactions API正式发布GA版
Google正式发布Interactions API GA版,提供稳定脚本架构,作为模型推理和自主代理的统一接口。新功能包括托管代理(安全远程Linux沙盒,支持默认antigravity-preview-05-2026或自定义指令)、线性化简化流程、异步后台执行,并扩展支持计算机使用、文件搜索、Google地图等工具,及图像生成(Nano Banana 2)、音乐合成(Lyria 3)和多声道语音合成。
Delos推出Workers:持久AI员工
Delos开发了Workers,一种具有持久身份和长期内存的AI员工,可通过邮件、电话、Slack等方式联系。每个Worker专注于单一业务,学习公司流程和工具,两天内达成100万美元ARR,旨在减少重复性工作。
Hermes Agent举办NVIDIA Nemotron 3 Hackathon
Nous Research与NVIDIA AI、Stripe合作举办Hermes Agent Accelerated Business Hackathon,主打通用代理商业应用,整合NemoClaw安全控制、Nemotron 3 Ultra快速推理及Stripe Skills付费能力,鼓励开发自建SaaS或全自动企业解决方案,奖金池17,500美元,截止6月30日投稿。
GLM-5.2移动端应用开发能力提升
Zixuan Li分享一套Prompt架构,通过量化约束和资产审计提升生成质量。在35个移动开发任务的70次内部测试中,GLM-5.2完成率为48/70,较GLM-5.1的21/70提升两倍以上,但低于Claude Fable 5的56/70。
AA-Briefcase代理知识工作基准发布
Artificial Analysis发布AA-Briefcase代理知识工作基准测试,评估模型构建金融模型、董事会演示等能力。Claude Fable 5单次任务成本超20美元。GLM 5.2 (max) 以2.40美元/次成本达Claude Opus 4.8的90 Elo分内(成本低65%);DeepSeek V4 Pro (max) 以0.08美元/次成本比Gemini 3.5 Flash高约60 Elo分(成本低98%)。
GLM-5.2有望颠覆代理模型
阿里巴巴发布大模型GLM-5.2,其代理能力达到技术突破,可能颠覆传统代理模型。该模型通过开源实现高度自主功能,展现技术领先性。
ShadowFrog:开源持久影子知识库
Microsoft Research发布ShadowFrog,一套开源技能,为编码代理构建持久影子知识库,使其理解跨会话累积,提升编码代理在长时间、多会话场景下的表现和一致性。
LLM Agent通信协议报告发布
一份报告构建了五维分类法,分析了九个活跃维护的开源Agent协议,发现所有协议都采用混合payload和会话状态持久化,而去中心化发现机制仍然罕见,揭示了Agent通信协议的当前发展状况与未来挑战。
Agentic工程工作流提高开发效率
前Meta/微软/Atlassian主任工程师Kun Chen分享一套Agentic工程工作流,声称每天能交付40-50个经测试的生产级PR。工作流包含全终端环境、精简的全局memory、分离的skills机制、语音输入、AXI工具设计标准以及自动化验证流水线。
模型发布
Meta发布Llama 3 405B模型
Meta于2024年7月15日发布Llama 3 405B模型,参数量达405B,比前代Llama 2 70B提升约5.8倍,在MMLU基准测试中达到85.5分,在多语言理解和代码生成方面显著优于竞争对手。
新AI模型参数达1750亿,性能SOTA
一家科技公司宣布推出新一代人工智能模型,参数量达到1750亿,比上一代提升30%,并在多项基准测试中超过最新SOTA水平。
百度开源Unlimited-OCR:处理数百页文档
百度在Hugging Face发布Unlimited-OCR,其核心创新R-SWA(Reference Sliding Window Attention)使KV Cache在解码时保持恒定,支持一次性处理数百页文档。该模型在OmniDocBench上取得93分,比DeepSeek-OCR高6个百分点。
GLM-5.2登榜Designarena HTML网页设计榜首
GLM-5.2在Designarena的HTML Web Design排行榜上位列第一,击败长期第一的Claude Opus 4.6与4.7,模型已通过SiliconFlow API对外提供,展示了其在网页设计任务中的卓越表现。
BooguTeam开源统一图像生成与编辑模型
Boogu团队开源Boogu-Image-0.1模型系列,采用Apache 2.0许可证,包含Base、Turbo、Edit三个变体,支持双语文本渲染(中英文)和精细编辑,训练数据量约为类似闭源系统的1/10。
JoyAI开源实时视频语言交互模型预览
JoyAI团队发布JoyAI-VL-Interaction-Preview模型,8B参数,开源Apache 2.0许可。在实时视频监控与警报场景中,与Doubao和Gemini视频通话助手进行人类成对比较,胜率100%。训练数据为4M+时间对齐的秒级标注片段。
AI 安全与研究
OpenAI发布GPT-5.5-Cyber与Daybreak安全计划
OpenAI扩展Daybreak网络安全计划,发布GPT-5.5-Cyber模型,在CyberGym基准上击败Mythos 5,并支持漏洞发现、验证和修复。计划包括Codex Security插件、Cyber Partner Program和Patch the Planet倡议,旨在利用AI自动生成关键漏洞补丁,将修复周期从数周缩短至数小时,保障主流浏览器、Linux内核等项目安全。
Five Eyes警告AI将升级网络攻击
Five Eyes网络机构警告称,前沿AI模型可能在数月内(而非数年)大幅升级针对政府和企业的网络攻击,并引用Anthropic的Fable和Mythos模型为例,强调了AI在网络安全攻防两端带来的紧迫挑战。
LLM-as-a-Judge可靠性审计报告
研究人员对9家供应商的21个LLM-as-a-Judge模型在MT-Bench、JudgeBench和RewardBench上约541,000次评判进行可靠性审计,发现使用Cohen's kappa指标替代精确匹配会使MT-Bench一致性得分降低33-41分,且模型排名最高波动14位。此外,研究指出存在一致性悖论。
Nature研究:AI削弱专业技能
Nature发表研究指出,AI辅助可能削弱专业技能。波兰结肠镜研究发现AI辅助后,有经验内镜医师的未辅助腺瘤检出率从28.4%降至22.4%。另一研究显示AI帮助开发者完成任务但削弱概念理解与调试技能。
基础设施与商业
SpaceX签署63亿美元AI计算协议
Reflection AI与SpaceX签署63亿美元计算合同,Reflection将获GB300芯片用于训练开源模型,并从2026年7月1日起每月支付1.5亿美元至2029年。预计SpaceX从Anthropic、Google和Reflection获得每月约23.2亿美元的AI计算收入,年化近280亿美元。
NVIDIA优化GB200 NVL72推理成本
NVIDIA团队在70天内通过软件优化(重写NVFP4 MoE内核)将GB200 NVL72的推理服务成本降低2.5倍,利用铜背板带宽优势,该架构与xAI的Cursor Composer 2.5相同,显著提升了推理服务的性价比。
SpaceX IPO取得突破
SpaceX完成IPO宣布,强调B2B模式与安全保障,标志着其在资本市场的重要进展,对其未来业务扩展和技术发展具有里程碑意义。
Astra AI年收入达2500万美元
Astra AI创始人宣布公司年经常性收入达2500万美元,12个月内增长约25倍。公司已运营3年,保持盈利且无外部投资,团队规模小,位于斯洛文尼亚,展现了其强劲的增长潜力和高效的运营模式。
液冷将数据中心用水降至近零
NVIDIA引用曼哈顿研究所数据称,AI数据中心用水仅占美国日用水0.2%,通过45°C液冷和干冷却器,每MW每年冷却用水从260万加仑降至近零,显著降低了数据中心对水资源的消耗。
Namibia阻止Starlink运营
Namibia因所有权规定,阻止Starlink在该国运营。此举反映出一些国家对外国科技公司运营的监管考量,对Starlink在非洲市场的扩张构成挑战。
Delta未采用Starlink影响客户
Delta公司决定不将其Starlink航班服务加入,影响乘客选择。同盟国已与美国签署相关协议,此举被外界视为一项弱势决策,可能影响其在航空服务竞争中的用户体验。
Sam Altman回应GPT-5延期传闻
Sam Altman回应了关于GPT-5发布延期的传闻,Meta对其发布时间、参数量及行业影响进行了评价,指出发布队伍更新,语气客观,引发了行业对OpenAI下一代模型进展的关注。
Elon Musk揭示“Ro”真正含义
Elon Musk揭示了代号“Ro”的实际含义。虽然具体内容未在原文详细说明,但网络推测可能指Tesla的新项目或隐喻,引发了公众对这一神秘代号的广泛猜测。