AI 精选动态智能评分 66

AA-WER Streaming 基准

来源: twitter关注列表

作者: Artificial Analysis (@ArtificialAnlys)

发布于: 2026-05-28

收录于: 2026-05-28

AI 推荐理由

这份基准把语音转写的准确率、延迟和价格放在同一框架里，可直接用于筛选 voice agent 的候选模型与成本方案。

核心解读

Artificial Analysis 发布 AA-WER Streaming 基准，用于衡量 streaming Speech to Text 模型在语音 agent 场景下的准确率与延迟表现，并与离线模型在同一约 8 小时音频集上做可比测试，数据集包括 AA-AgentTalk、Earnings22-Cleaned-AA、VoxPopuli-Cleaned-AA。该基准同时报告 WER 和从检测到说话结束后的延迟，并区分 First Final Transcription 与 First Partial Transcription 两种口径。结果显示，Final 口径下准确率最高的是 Cartesia Ink-2（semantic endpoints），WER 3.59%、延迟 0.21s；其次是 ElevenLabs Scribe v2 Realtime，WER 3.64%、延迟 0.14s；按速度看，DeepgramAI Flux 在 Final 和 Partial 两项上都最快，分别为 0.020s 和 0.019s，但 WER 为 7.36%。此外，Streaming STT 价格区间为每 1k 分钟 2 美元到 17 美元，Soniox 最便宜为 2 美元但 WER 11.9%，Cartesia Ink-2（external endpoints）为 4 美元、WER 3.7%，ElevenLabs Scribe v2 Realtime 为 6.50 美元、WER 3.6%、延迟 0.14s。

#基准测试#产品更新#开发者工具

阅读原始全文