- AI HOT 精选动态

AI 精选动态智能评分 72

来源: twitter关注列表

作者: Rohan Paul (@rohanpaul_ai)

发布于: 2026-05-18

收录于: 2026-05-18

AI 推荐理由

这篇文章对做语音客服、多语言 Agent 和后训练优化的团队很有参考价值，可直接借鉴其 GRPO+DPO 组合、奖励设计和低延迟推理思路。

核心解读

PolyAI 发布 Raven 3.5，通过增加训练数据并结合 GRPO 与 DPO 的后训练方案，声称在客户服务四项基准上全面超过 GPT-5 和 Claude Sonnet 4.6，同时支持 23 种语言、子 300ms 低延迟、自动推理、webchat 和离域检测。该结果意味着面向垂直场景的专用模型仍可通过精细后训练在质量、语言一致性和响应速度上压过通用大模型。

#模型发布#技术突破#智能体

阅读原始全文