AI 精选动态智能评分 74

Gemini Omni 发布

来源: twitter关注列表

作者: meng shao (@shao__meng)

发布于: 2026-05-20

收录于: 2026-05-20

AI 推荐理由

可重点看其“原生多模态 + 多轮视频编辑”机制，尤其是与 Veo、Sora、Seedance 等既有视频生成路线的差异，以及参考物组合输入是否能成为新一代视频工作流。

核心解读

Google DeepMind 在 Google I/O 发布 Gemini Omni，这是一个原生多模态的“理解 + 生成”模型，当前主攻视频创作与编辑。它支持任意组合输入图像、文本、视频、音频来生成或编辑视频，并强调对话式多轮编辑、一致性保持、世界知识与物理直觉，以及参考图、草图、音频等“任意参考物组合”能力。原文还将 Omni 与 Veo 对比，指出 Veo 主要依赖将多模态压成文本后生成、需要更具体的逐帧提示，而 Omni 可基于意图补细节并在多轮修改中叠加上下文。

#模型发布#多模态#产品更新

阅读原始全文