返回精选
AI 精选动态 智能评分 74

Gemini Omni 发布

来源: twitter关注列表
作者: meng shao (@shao__meng)
发布于: 2026-05-20
收录于: 2026-05-20
AI 推荐理由
可重点看其“原生多模态 + 多轮视频编辑”机制,尤其是与 Veo、Sora、Seedance 等既有视频生成路线的差异,以及参考物组合输入是否能成为新一代视频工作流。
核心解读
Google DeepMind 在 Google I/O 发布 Gemini Omni,这是一个原生多模态的“理解 + 生成”模型,当前主攻视频创作与编辑。它支持任意组合输入图像、文本、视频、音频来生成或编辑视频,并强调对话式多轮编辑、一致性保持、世界知识与物理直觉,以及参考图、草图、音频等“任意参考物组合”能力。原文还将 Omni 与 Veo 对比,指出 Veo 主要依赖将多模态压成文本后生成、需要更具体的逐帧提示,而 Omni 可基于意图补细节并在多轮修改中叠加上下文。
#模型发布#多模态#产品更新