AI 日报收录 55 条重要资讯

AI HOT 日报 (morning)

时间范围: 2026年06月22日 00:00 ~ 2026年06月23日 00:00

生成于: 2026年06月23日 00:01

本期导读

本时段，AI 领域在模型能力、平台应用与安全方面均有显著进展。Sakana AI 发布 Fugu 多智能体编排系统，提供媲美前沿模型的性能；OpenAI 扩展 Daybreak 计划，通过 GPT-5.5-Cyber 模型增强网络安全能力。同时，GLM-5.2 在Agent基准测试中表现亮眼，SpaceX 也签署了巨额AI计算协议，共同推动行业发展。

智能体与平台

Sakana AI发布Fugu多智能体编排系统

SakanaAILabsomarsar0kimmonismus

Sakana AI发布Fugu多智能体编排系统，通过单一API指挥多智能体协同，其中Fugu Ultra模型性能匹敌Fable与Mythos，且无出口管制风险。Fugu Ultra在原子聊天交易桌面编码测试中耗费22,225 tokens/$0.51，高出其他模型17倍，并在机械虹膜CAD设计任务中生成功能性设计。非Ultra版本作为分类器/路由器，Ultra版本采用5步计划模式。

GLM-5.2在Agent基准GDPval-AA排名第三

ArtificialAnlysNielsRoggekimmonismus

Artificial Analysis评测显示，GLM-5.2在真实世界Agentic工作基准GDPval-AA上获1524 Elo，排名第三，仅次于Claude Fable 5 (1783) 和Claude Opus 4.8 (1615)，与GPT-5.5 (xhigh, 1509)持平，为开源模型最高分。定价为每百万输入/输出token $1.40/$4.40。

Google Interactions API正式发布GA版

Googlegoogleaidevs

Google正式发布Interactions API GA版，提供稳定脚本架构，作为模型推理和自主代理的统一接口。新功能包括托管代理（安全远程Linux沙盒，支持默认antigravity-preview-05-2026或自定义指令）、线性化简化流程、异步后台执行，并扩展支持计算机使用、文件搜索、Google地图等工具，及图像生成(Nano Banana 2)、音乐合成(Lyria 3)和多声道语音合成。

Delos推出Workers：持久AI员工

Delosrohanpaul_ai

Delos开发了Workers，一种具有持久身份和长期内存的AI员工，可通过邮件、电话、Slack等方式联系。每个Worker专注于单一业务，学习公司流程和工具，两天内达成100万美元ARR，旨在减少重复性工作。

Hermes Agent举办NVIDIA Nemotron 3 Hackathon

NousResearchNVIDIA AIStripe

Nous Research与NVIDIA AI、Stripe合作举办Hermes Agent Accelerated Business Hackathon，主打通用代理商业应用，整合NemoClaw安全控制、Nemotron 3 Ultra快速推理及Stripe Skills付费能力，鼓励开发自建SaaS或全自动企业解决方案，奖金池17,500美元，截止6月30日投稿。

GLM-5.2移动端应用开发能力提升

ZixuanLi_GLM-5.2

Zixuan Li分享一套Prompt架构，通过量化约束和资产审计提升生成质量。在35个移动开发任务的70次内部测试中，GLM-5.2完成率为48/70，较GLM-5.1的21/70提升两倍以上，但低于Claude Fable 5的56/70。

AA-Briefcase代理知识工作基准发布

ArtificialAnlys

Artificial Analysis发布AA-Briefcase代理知识工作基准测试，评估模型构建金融模型、董事会演示等能力。Claude Fable 5单次任务成本超20美元。GLM 5.2 (max) 以2.40美元/次成本达Claude Opus 4.8的90 Elo分内（成本低65%）；DeepSeek V4 Pro (max) 以0.08美元/次成本比Gemini 3.5 Flash高约60 Elo分（成本低98%）。

GLM-5.2有望颠覆代理模型

Alibabanatolambert

阿里巴巴发布大模型GLM-5.2，其代理能力达到技术突破，可能颠覆传统代理模型。该模型通过开源实现高度自主功能，展现技术领先性。

ShadowFrog：开源持久影子知识库

Microsoft Researchericxyuan

Microsoft Research发布ShadowFrog，一套开源技能，为编码代理构建持久影子知识库，使其理解跨会话累积，提升编码代理在长时间、多会话场景下的表现和一致性。

LLM Agent通信协议报告发布

omarsar0

一份报告构建了五维分类法，分析了九个活跃维护的开源Agent协议，发现所有协议都采用混合payload和会话状态持久化，而去中心化发现机制仍然罕见，揭示了Agent通信协议的当前发展状况与未来挑战。

Agentic工程工作流提高开发效率

Kun Chenshao__meng

前Meta/微软/Atlassian主任工程师Kun Chen分享一套Agentic工程工作流，声称每天能交付40-50个经测试的生产级PR。工作流包含全终端环境、精简的全局memory、分离的skills机制、语音输入、AXI工具设计标准以及自动化验证流水线。

模型发布

Meta发布Llama 3 405B模型

Metahongming731

Meta于2024年7月15日发布Llama 3 405B模型，参数量达405B，比前代Llama 2 70B提升约5.8倍，在MMLU基准测试中达到85.5分，在多语言理解和代码生成方面显著优于竞争对手。

新AI模型参数达1750亿，性能SOTA

gdbAI

一家科技公司宣布推出新一代人工智能模型，参数量达到1750亿，比上一代提升30%，并在多项基准测试中超过最新SOTA水平。

百度开源Unlimited-OCR：处理数百页文档

Baiduberryxia

百度在Hugging Face发布Unlimited-OCR，其核心创新R-SWA（Reference Sliding Window Attention）使KV Cache在解码时保持恒定，支持一次性处理数百页文档。该模型在OmniDocBench上取得93分，比DeepSeek-OCR高6个百分点。

GLM-5.2登榜Designarena HTML网页设计榜首

SiliconFlowAIGLM-5.2

GLM-5.2在Designarena的HTML Web Design排行榜上位列第一，击败长期第一的Claude Opus 4.6与4.7，模型已通过SiliconFlow API对外提供，展示了其在网页设计任务中的卓越表现。

BooguTeam开源统一图像生成与编辑模型

BooguModelScope2022

Boogu团队开源Boogu-Image-0.1模型系列，采用Apache 2.0许可证，包含Base、Turbo、Edit三个变体，支持双语文本渲染（中英文）和精细编辑，训练数据量约为类似闭源系统的1/10。

JoyAI开源实时视频语言交互模型预览

JoyAIModelScope2022

JoyAI团队发布JoyAI-VL-Interaction-Preview模型，8B参数，开源Apache 2.0许可。在实时视频监控与警报场景中，与Doubao和Gemini视频通话助手进行人类成对比较，胜率100%。训练数据为4M+时间对齐的秒级标注片段。

AI 安全与研究

OpenAI发布GPT-5.5-Cyber与Daybreak安全计划

OpenAIsamarohanpaul_ai

OpenAI扩展Daybreak网络安全计划，发布GPT-5.5-Cyber模型，在CyberGym基准上击败Mythos 5，并支持漏洞发现、验证和修复。计划包括Codex Security插件、Cyber Partner Program和Patch the Planet倡议，旨在利用AI自动生成关键漏洞补丁，将修复周期从数周缩短至数小时，保障主流浏览器、Linux内核等项目安全。

Five Eyes警告AI将升级网络攻击

Five Eyeskimmonismus

Five Eyes网络机构警告称，前沿AI模型可能在数月内（而非数年）大幅升级针对政府和企业的网络攻击，并引用Anthropic的Fable和Mythos模型为例，强调了AI在网络安全攻防两端带来的紧迫挑战。

LLM-as-a-Judge可靠性审计报告

dair_ai

研究人员对9家供应商的21个LLM-as-a-Judge模型在MT-Bench、JudgeBench和RewardBench上约541,000次评判进行可靠性审计，发现使用Cohen's kappa指标替代精确匹配会使MT-Bench一致性得分降低33-41分，且模型排名最高波动14位。此外，研究指出存在一致性悖论。

Nature研究：AI削弱专业技能

Naturerohanpaul_ai

Nature发表研究指出，AI辅助可能削弱专业技能。波兰结肠镜研究发现AI辅助后，有经验内镜医师的未辅助腺瘤检出率从28.4%降至22.4%。另一研究显示AI帮助开发者完成任务但削弱概念理解与调试技能。