AI 精选动态
智能评分 74
BestBlogs 早报 | Claude Sonnet 5、Nano Banana 2 Lite、Gemini Flash-1M vs. Opus 4.8、AI 智能体工程实践与“行”。
AI 推荐理由
需对比 Claude Sonnet 5 与 Opus 4.8 定价策略差距,验证 Agent 三大循环理论落地成本节省效益核心解读
Anthropic 发布 Claude Sonnet 5,性能接近 Opus 4.8 但成本降低 50%;Google DeepMind 更新 Nano Banana 2 Lite(0.034 美元/千张图像)及 Gemini Omni Flash(10 秒生成上限),两款模型支持串联交互;吴恩达提出 AI 智能体开发三大循环模型,谷歌首秀开放技术材料库结构。
全文
BestBlogs 早报 · 07-01
# Claude Sonnet 5 / Anthropic / Nano Banana 2 Lite / Gemini Omni Flash / 吴恩达
[1] ★ 精讲|Claude Sonnet 5 发布
Anthropic 官方发布 Claude Sonnet 5,定位为最具 agent 能力的 Sonnet:能规划、调用浏览器与终端工具并自主执行多步任务,整体性能接近 Opus 4.8 但价格更低,在推理、工具使用、编程上较 Sonnet 4.6 显著提升。8 月 31 日前享入门价每百万输入 token 2 美元、输出 10 美元,之后回到 3/15 美元。早期用户反馈它能端到端完成以往会中途停下的任务,适合关注 agent 实战与成本平衡的开发者细读。
来源:Anthropic News
https://t.co/zarxfBgjLI
[2] ★ 精讲|开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建
Google DeepMind 同日推出两款生成式媒体模型。Nano Banana 2 Lite 面向高吞吐场景,文生图延迟约 4 秒、每千张图 0.034 美元,并作为旧版 Nano Banana(gemini-2.5-flash-image)的推荐替代。Gemini Omni Flash 首次开放给开发者,支持文本、图像、视频混合输入的视频生成与会话式编辑,定价每秒视频输出 0.10 美元、与 Veo 3.1 Fast 持平,目前单次生成上限 10 秒。两者可串联使用并经 Interactions API 保留最多三次连续编辑的会话上下文,适合关注多媒体流水线与成本控制的产品与工程团队。
来源:Google DeepMind News
https://t.co/wRNP9YEXhy
[3] ★ 精讲|吴恩达:AI 智能体软件开发的三大核心循环
吴恩达梳理了用 AI 智能体构建软件的框架,核心是三大循环:智能体自主编写并迭代代码的编程循环,人类以更高层决策引导智能体的开发者反馈循环,以及借用户测试与生产数据反哺产品愿景的外部反馈循环。他强调人类相对 AI 仍有显著的上下文优势,人机协同必不可少,编程智能体正推动工程师向产品管理角色拓展。适合想理清 agent 时代工程师定位的读者吸收。
来源:Andrew Ng(@AndrewYNg)
https://t.co/oSrsWPYzRV
[4] AI+ Kuikly:7.5 小时落地三端「多模态聊天 App」实战
本文详细记录了作者使用 Kuikly 跨端框架配合 AI 编程助手,在 7.5 小时内零手写代码完成 Android、iOS、鸿蒙三端多模态聊天 App 的实战过程,并总结了框架与 AI 协同的效率原理。
来源:腾讯技术工程
https://t.co/EIN0ju4b3m
[5] 谁在 ChatGPT 里买广告?|对谈 Nexad COO Harry Zhou
通过访谈 Nexad COO,揭示 ChatGPT 广告的实际投放数据、用户质量优势、Context Hints 定向机制,以及 Agentic Commerce 和长程 Agent 退化的行业前沿思考。
来源:十字路口 Crossing
https://t.co/2DB8eUFrsQ
[6] Claude Science:面向科学家的 AI 工作台
Anthropic 推出 Claude Science,一款集成科学工具、管理计算资源并生成可审计成果的 AI 工作台,早期用户案例显示研究流程显著加速。
来源:Anthropic News
https://t.co/bkqNn0asdF
[7] SkillOpt 将 AI 智能体技能转化为可训练资产
SkillOpt 将 AI 智能体技能编辑重构为训练流程,将技能文件视为冻结模型外的可训练参数,在 52 个评估单元中实现一致性提升,且无需更新模型权重。
来源:Microsoft Research Blog
https://t.co/H9sMrkf97h
[8] 给野马套上缰绳:Agent Harness 工程实践 ——从范式理论到钉钉 AI 招聘的真实落地
本文系统阐述 Agent Harness Engineering(驾驭工程)范式,提出四条反直觉铁律与六大工程模式,并通过钉钉悟空 AI 招聘的真实落地案例,实证专才 Agent 架构在准确率、可调性与可复用性上显著优于全能 Agent。
来源:阿里云开发者
https://t.co/qaWMTwwnXg
[9] 生成式 AI 机器人:何处上岗,如何站岗
本文基于实地调研,系统分析生成式 AI 机器人在服务行业的应用价值、风险与部署步骤,为企业管理者提供可操作的策略框架。
来源:哈佛商业评论
https://t.co/7uDpB3fNT7
[10] LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
本文介绍美团开源的 VitaBench 2.0,首个评估大语言模型在长期动态用户互动中个性化与主动性能力的智能体基准,并揭示时间遗忘、高智商不等于高情商、AI 缺乏主动沟通等核心洞察。
来源:美团 · 技术团队
https://t.co/CJmANbBBMA
---
https://t.co/88ZBr47sdT · 发现真正适合你的高质量内容
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。
在线阅读:https://t.co/gn1HPelc6O
> **引用原帖 ginobefun (@hongming731):**
> https://t.co/l5ju8Er59x
> https://x.com/hongming731/status/2072100737635729815