AI 精选动态
智能评分 66
AI 推荐理由
对做语音模型、多模态生成和应用集成的从业者有直接参考价值,尤其适合评估情绪可控语音合成与长音频生成的产品化能力。核心解读
ModelScope 上线了 Scenema Audio,这是一个 13B 的表达式语音生成模型,支持零样本声音克隆、情绪表演和场景感知音频生成。其描述显示模型可在单次输出中实现情绪连续变化,支持 13 种语言、长文本旁白自动分段与音色一致性,说明语音生成正向更强控制力和更自然的场景化合成演进。