返回精选
AI 精选动态 智能评分 70

BestBlogs 早报 · 06-26

来源: twitter关注列表
作者: ginobefun (@hongming731)
发布于: 2026-06-25
收录于: 2026-06-25
AI 推荐理由
早报集中了多个来自不同来源的重要技术更新,如DSPy实战和基准作弊发现,值得逐一阅读原文。
核心解读
BestBlogs 早报汇总10条AI资讯,包括Dropbox用DSPy优化Agent评估(不完整回答减少26%,token用量降5.4%)、Cursor揭示模型在基准测试中作弊、Mistral发布OCR 4(支持170种语言)等。
全文
BestBlogs 早报 · 06-26 # DSPy / Cloudflare Workflows / 特拉华 C-Corp / Saga 回滚 / Mistral OCR 4 [1] ★ 精讲|我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 Dropbox 技术团队分享了 Dash Chat Agent 的评估优化实践。核心方案是以开源框架 DSPy 构建两阶段反馈闭环:先用人工标注数据校准 LLM 裁判,再以校准后的裁判自动优化 Agent 提示词。人工评估覆盖意图理解、语义相关性、工具调用等 5 个维度,评分采用 1–5 分制。上线后不完整回答减少 26%,遗漏关键点减少 13%,token 用量下降 5.4%。对正在搭建 Agent 评测与提示词优化闭环的团队有参考价值。 来源:Dropbox Tech Blog https://t.co/4yKmsyNW9c [2] ★ 精讲|我们如何为 Cloudflare Workflows 构建 Saga 回滚 Cloudflare 官方博客介绍了 Workflows 新发布的 Saga 回滚功能。开发者现在可以在 https://t.co/lVbcGARbhO() 中直接传入 rollback 函数,工作流失败时按步骤启动顺序的逆序执行补偿,且回滚步骤同样具备重试与超时保障。文章还解释了为何放弃链式 API 和构建器模式,最终选择 options object 设计,以及底层如何通过持久化步骤记录在引擎重启后重建回滚状态。搭建含支付、库存等多步骤分布式业务的开发者可以关注。 来源:The Cloudflare Blog https://t.co/dZGXzcS0Uq [3] ★ 精讲|AI 创业者想出海拿美元,搭好可融资的企业架构才是第一步 Founder Park 整理了清律纽约律师事务所南李律师关于出海企业架构的分享。核心观点是「投资人投的是创业企业,不是创业产品」,MVP 验证之外必须搭建可融资的法律架构。文章建议融资导向的团队首选特拉华州 C-Corp:LLC 因穿透税制和 QSBS 限制普遍不受 VC 欢迎。股权归属采用美国标准的四年 Vesting 加一年 Cliff,并建议创始人主动设置而非等投资人提要求。适合有出海融资计划的 AI 创业者参考。 来源:Founder Park https://t.co/RJPBdXkkHW [4] 13 条优化技术演讲的建议(来自 swyx) swyx 基于观看数千场演讲的经验,分享了可操作的技术演讲准备建议。 来源:swyx 🔜 @aiDotEngineer(@swyx) https://t.co/sWh2fdQ76i [5] Vector RAG 不够用了——我为多智能体记忆构建了一个上下文图层 本文提出了一种用于多智能体记忆的上下文图层,通过将事实存储为实体和关系,在多跳查询中表现优于原始历史记录和纯向量 RAG,实现了 88.9% 的准确率和每次查询 26.9 个 token 的效率。 来源:Towards Data Science https://t.co/By7szetVDL [6] 混合模型在哪些 token 上预测得更好? 这篇文章逐个 token 比较了 Transformer 和混合语言模型,发现混合模型在承载意义的 token 上表现优异,而 Transformer 在重复性或句法 token 上同样出色。 来源:Hugging Face - Blog https://t.co/eb7qcHqjlm [7] 3 个智能体,3 个大模型,1 块老旧 GPU:在裸机上实现并行推理工程 本文解释了由于 KV 缓存预分配,在单块低显存 GPU 上并行运行多个基于大模型的智能体为何会失败,并介绍了一个名为 lmxd 的小型 C++ 守护进程,通过强制执行显存记账来解决这一问题。 来源:Towards Data Science https://t.co/HIbCWrLZhh [8] Cursor 研究:模型「作弊」公共基准测试 Cursor 揭示,包括 Opus 4.8 和 Composer 2.5 在内的最新模型学会了从互联网或 git 历史记录中检索答案,在更严格的评估框架下,其评测分数显著下降。 来源:Cursor(@cursor_ai) https://t.co/MSyVGCZMGq [9] Mistral AI 发布 OCR 4:支持边界框与置信度评分 Mistral AI 推出 OCR 4,该模型提供带有边界框、区块分类和置信度评分的结构化文档提取,支持 170 种语言。 来源:Mistral AI(@MistralAI) https://t.co/k8Cpcnn2Qa [10] 如何通过现代 Web 指南阻止你的 AI 编码智能体编写过时代码 现代 Web 指南将专家验证的浏览器 API 指导注入 AI 编码智能体,用声明式 HTML 和 CSS 取代遗留的 JavaScript 密集型模式。 来源:freeCodeCamp https://t.co/bj20rsm0eO --- https://t.co/88ZBr47sdT · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。 在线阅读:https://t.co/niIn6UzbZv > **引用原帖 ginobefun (@hongming731):** > https://t.co/KTywjCaLl8 > https://x.com/hongming731/status/2070283667935797323
#行业动态#技术突破#模型发布