AI 精选动态
智能评分 72
AI 推荐理由
这篇文章对做语音客服、多语言 Agent 和后训练优化的团队很有参考价值,可直接借鉴其 GRPO+DPO 组合、奖励设计和低延迟推理思路。核心解读
PolyAI 发布 Raven 3.5,通过增加训练数据并结合 GRPO 与 DPO 的后训练方案,声称在客户服务四项基准上全面超过 GPT-5 和 Claude Sonnet 4.6,同时支持 23 种语言、子 300ms 低延迟、自动推理、webchat 和离域检测。该结果意味着面向垂直场景的专用模型仍可通过精细后训练在质量、语言一致性和响应速度上压过通用大模型。