AI 精选动态
智能评分 68
LongCat-Video-Avatar 1.5
AI 推荐理由
可重点查看其 8-step 蒸馏推理、Whisper-Large 替换方案和评测设置,适合判断音频驱动视频生成在速度与效果之间的取舍。核心解读
美团发布开源音频驱动的人体视频生成框架 LongCat-Video-Avatar 1.5。v1.5 用 Whisper-Large 替换 Wav2Vec2,采用 DMD2 蒸馏实现 8-step 推理,并支持 AT2V、ATI2V、视频续写以及单流/多流音频输入。官方给出的人工评测包含 508 组 image-audio pairs、770 名标注者和 4 个质量维度,结果显示其在人类相似度上优于主流商业模型;同时支持 INT8 量化以降低 VRAM,占用,许可证为 MIT。