AI 精选动态智能评分 68

LongCat-Video-Avatar 1.5

来源: twitter关注列表

作者: ModelScope (@ModelScope2022)

发布于: 2026-05-22

收录于: 2026-05-22

AI 推荐理由

可重点查看其 8-step 蒸馏推理、Whisper-Large 替换方案和评测设置，适合判断音频驱动视频生成在速度与效果之间的取舍。

核心解读

美团发布开源音频驱动的人体视频生成框架 LongCat-Video-Avatar 1.5。v1.5 用 Whisper-Large 替换 Wav2Vec2，采用 DMD2 蒸馏实现 8-step 推理，并支持 AT2V、ATI2V、视频续写以及单流/多流音频输入。官方给出的人工评测包含 508 组 image-audio pairs、770 名标注者和 4 个质量维度，结果显示其在人类相似度上优于主流商业模型；同时支持 INT8 量化以降低 VRAM，占用，许可证为 MIT。

#开源#多模态#模型发布

阅读原始全文