AI 精选动态
智能评分 66
Supertonic 端侧多语 TTS
AI 推荐理由
可重点看其端侧部署、自然文本处理和多硬件吞吐数据,适合评估本地 TTS 的性能边界与开源复现价值。核心解读
Sumanth 提出并展示了 Supertonic,这是一套完全在设备本地运行的多语言文本转语音系统,采用 ONNX Runtime,模型参数量为 66M。它支持 31 种语言,在消费级硬件上最高可达实时的 167 倍速度;在 M4 Pro CPU 上长文本处理速度为每秒 1263 个字符、实时因子 0.012,在 WebGPU 模式下达到每秒 2509 个字符,在 RTX 4090 上达到每秒 12,164 个字符。该系统可直接处理数字、日期、货币、缩写和复杂表达,无需预处理或音标标注;同时提供 Voice Builder,可将个人声音转为可部署的 TTS 模型,且项目为 100% 开源。