AI 精选动态
智能评分 74
Gemini Omni 发布
AI 推荐理由
可重点看其“原生多模态 + 多轮视频编辑”机制,尤其是与 Veo、Sora、Seedance 等既有视频生成路线的差异,以及参考物组合输入是否能成为新一代视频工作流。核心解读
Google DeepMind 在 Google I/O 发布 Gemini Omni,这是一个原生多模态的“理解 + 生成”模型,当前主攻视频创作与编辑。它支持任意组合输入图像、文本、视频、音频来生成或编辑视频,并强调对话式多轮编辑、一致性保持、世界知识与物理直觉,以及参考图、草图、音频等“任意参考物组合”能力。原文还将 Omni 与 Veo 对比,指出 Veo 主要依赖将多模态压成文本后生成、需要更具体的逐帧提示,而 Omni 可基于意图补细节并在多轮修改中叠加上下文。