AI 精选动态智能评分 70

BestBlogs 早报 · 06-26

来源: twitter关注列表

作者: ginobefun (@hongming731)

发布于: 2026-06-25

收录于: 2026-06-25

AI 推荐理由

早报集中了多个来自不同来源的重要技术更新，如DSPy实战和基准作弊发现，值得逐一阅读原文。

核心解读

BestBlogs 早报汇总10条AI资讯，包括Dropbox用DSPy优化Agent评估（不完整回答减少26%，token用量降5.4%）、Cursor揭示模型在基准测试中作弊、Mistral发布OCR 4（支持170种语言）等。

全文

BestBlogs 早报 · 06-26 # DSPy / Cloudflare Workflows / 特拉华 C-Corp / Saga 回滚 / Mistral OCR 4 [1] ★ 精讲｜我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 Dropbox 技术团队分享了 Dash Chat Agent 的评估优化实践。核心方案是以开源框架 DSPy 构建两阶段反馈闭环：先用人工标注数据校准 LLM 裁判，再以校准后的裁判自动优化 Agent 提示词。人工评估覆盖意图理解、语义相关性、工具调用等 5 个维度，评分采用 1–5 分制。上线后不完整回答减少 26%，遗漏关键点减少 13%，token 用量下降 5.4%。对正在搭建 Agent 评测与提示词优化闭环的团队有参考价值。来源：Dropbox Tech Blog https://t.co/4yKmsyNW9c [2] ★ 精讲｜我们如何为 Cloudflare Workflows 构建 Saga 回滚 Cloudflare 官方博客介绍了 Workflows 新发布的 Saga 回滚功能。开发者现在可以在 https://t.co/lVbcGARbhO() 中直接传入 rollback 函数，工作流失败时按步骤启动顺序的逆序执行补偿，且回滚步骤同样具备重试与超时保障。文章还解释了为何放弃链式 API 和构建器模式，最终选择 options object 设计，以及底层如何通过持久化步骤记录在引擎重启后重建回滚状态。搭建含支付、库存等多步骤分布式业务的开发者可以关注。来源：The Cloudflare Blog https://t.co/dZGXzcS0Uq [3] ★ 精讲｜AI 创业者想出海拿美元，搭好可融资的企业架构才是第一步 Founder Park 整理了清律纽约律师事务所南李律师关于出海企业架构的分享。核心观点是「投资人投的是创业企业，不是创业产品」，MVP 验证之外必须搭建可融资的法律架构。文章建议融资导向的团队首选特拉华州 C-Corp：LLC 因穿透税制和 QSBS 限制普遍不受 VC 欢迎。股权归属采用美国标准的四年 Vesting 加一年 Cliff，并建议创始人主动设置而非等投资人提要求。适合有出海融资计划的 AI 创业者参考。来源：Founder Park https://t.co/RJPBdXkkHW [4] 13 条优化技术演讲的建议（来自 swyx） swyx 基于观看数千场演讲的经验，分享了可操作的技术演讲准备建议。来源：swyx 🔜 @aiDotEngineer(@swyx) https://t.co/sWh2fdQ76i [5] Vector RAG 不够用了——我为多智能体记忆构建了一个上下文图层本文提出了一种用于多智能体记忆的上下文图层，通过将事实存储为实体和关系，在多跳查询中表现优于原始历史记录和纯向量 RAG，实现了 88.9% 的准确率和每次查询 26.9 个 token 的效率。来源：Towards Data Science https://t.co/By7szetVDL [6] 混合模型在哪些 token 上预测得更好？这篇文章逐个 token 比较了 Transformer 和混合语言模型，发现混合模型在承载意义的 token 上表现优异，而 Transformer 在重复性或句法 token 上同样出色。来源：Hugging Face - Blog https://t.co/eb7qcHqjlm [7] 3 个智能体，3 个大模型，1 块老旧 GPU：在裸机上实现并行推理工程本文解释了由于 KV 缓存预分配，在单块低显存 GPU 上并行运行多个基于大模型的智能体为何会失败，并介绍了一个名为 lmxd 的小型 C++ 守护进程，通过强制执行显存记账来解决这一问题。来源：Towards Data Science https://t.co/HIbCWrLZhh [8] Cursor 研究：模型「作弊」公共基准测试 Cursor 揭示，包括 Opus 4.8 和 Composer 2.5 在内的最新模型学会了从互联网或 git 历史记录中检索答案，在更严格的评估框架下，其评测分数显著下降。来源：Cursor(@cursor_ai) https://t.co/MSyVGCZMGq [9] Mistral AI 发布 OCR 4：支持边界框与置信度评分 Mistral AI 推出 OCR 4，该模型提供带有边界框、区块分类和置信度评分的结构化文档提取，支持 170 种语言。来源：Mistral AI(@MistralAI) https://t.co/k8Cpcnn2Qa [10] 如何通过现代 Web 指南阻止你的 AI 编码智能体编写过时代码现代 Web 指南将专家验证的浏览器 API 指导注入 AI 编码智能体，用声明式 HTML 和 CSS 取代遗留的 JavaScript 密集型模式。来源：freeCodeCamp https://t.co/bj20rsm0eO --- https://t.co/88ZBr47sdT · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://t.co/niIn6UzbZv > **引用原帖 ginobefun (@hongming731):** > https://t.co/KTywjCaLl8 > https://x.com/hongming731/status/2070283667935797323

#行业动态#技术突破#模型发布

阅读原始全文