返回精选
AI 精选动态 智能评分 66

AA-WER Streaming 基准

来源: twitter关注列表
作者: Artificial Analysis (@ArtificialAnlys)
发布于: 2026-05-28
收录于: 2026-05-28
AI 推荐理由
这份基准把语音转写的准确率、延迟和价格放在同一框架里,可直接用于筛选 voice agent 的候选模型与成本方案。
核心解读
Artificial Analysis 发布 AA-WER Streaming 基准,用于衡量 streaming Speech to Text 模型在语音 agent 场景下的准确率与延迟表现,并与离线模型在同一约 8 小时音频集上做可比测试,数据集包括 AA-AgentTalk、Earnings22-Cleaned-AA、VoxPopuli-Cleaned-AA。该基准同时报告 WER 和从检测到说话结束后的延迟,并区分 First Final Transcription 与 First Partial Transcription 两种口径。结果显示,Final 口径下准确率最高的是 Cartesia Ink-2(semantic endpoints),WER 3.59%、延迟 0.21s;其次是 ElevenLabs Scribe v2 Realtime,WER 3.64%、延迟 0.14s;按速度看,DeepgramAI Flux 在 Final 和 Partial 两项上都最快,分别为 0.020s 和 0.019s,但 WER 为 7.36%。此外,Streaming STT 价格区间为每 1k 分钟 2 美元到 17 美元,Soniox 最便宜为 2 美元但 WER 11.9%,Cartesia Ink-2(external endpoints)为 4 美元、WER 3.7%,ElevenLabs Scribe v2 Realtime 为 6.50 美元、WER 3.6%、延迟 0.14s。
#基准测试#产品更新#开发者工具