Gemini Omni 是什么 —— I/O 2026 揭示的"Veo 之后"

首先,让我们从全局视角来把握。Gemini Omni 是在2026年5月19日开幕的 Google I/O 2026 主题演讲上,由 CEO Sundar Pichai 与 Google DeepMind 作为核心议题发布的视频生成与编辑模型。Google 的官方声明用一句话概括道——"能从任何输入创造任何内容的模型,从视频开始(create anything from any input — starting with video)"。首先面向大众开放的是轻量高速版"Gemini Omni Flash",并于同日在全球范围内正式推出。

这里的关键在于,Omni 并非单纯的"视频生成工具新版本"。此前,Google 的生成媒体各自为营:视频归 Veo、图像归 Imagen、音频又是另一套体系。Omni 将这些整合进一个模型,将 Gemini 本体的"智能(推理与世界知识)"与媒体模型的"渲染能力"融为一体。DeepMind 产品管理总监 Nicole Brichtova 向 TechCrunch 表示,这是"将 Gemini 的智能与我们媒体模型的渲染能力相结合这一进步的下一步"。撰写官方博客的是 DeepMind CTO 兼 Google 首席 AI 架构师 Koray Kavukcuoglu。

举例说明会更直观。在 Kavukcuoglu 展示的演示中,只需输入"用黏土动画解说蛋白质折叠",便能生成一段配有精准旁白的逐帧动画。手边有一张照片,便可以此为起点生成视频;也可以通过文字来编辑照片——这与 Google 图像编辑模型"Nano Banana"的体验颇为相似。换言之,Omni 的行为方式就像一位协作者:"输入素材,它思考后返回一段完整的影像。"

Pichai 将这一方向定位为 AI 历史上的重要转折点。用他的话说,"借助世界模型,AI 正从预测文本的阶段,迈向模拟现实的阶段"。这句话是理解 Omni 的核心所在。以下将依次深入探讨创作者需要了解的五个关键议题。

双向·同步多模态推理——一次性思考"所有粘贴的内容"

Omni 的技术核心在于"原生多模态"。文本、图像、音频、视频等不同类型的数据,并非分别处理后再拼接(stitch),而是由一个核心神经网络在同一次 forward pass(单次推理流程)中同时跨模态进行思考。传统的"将文本模型的输出传递给媒体模型"的接力方式,往往在模态边界处丢失上下文,且容易在衔接处产生 artifact(破绽)。Omni 从根本上消除了这一边界。

对创作者而言,实际价值直接体现在"参考素材的自由度"上。用 Google 的话说:"Omni 能将图像、文本、视频、音频的任意参考,转化为一个完整统一的输出。"一张静止图像用于定义角色外观,另一段视频片段用于传达动作的细腻感,音频样本用于塑造氛围,文本用于下达指令——这些全部可以混合在一个提示词中一并输入。模型会综合所有输入进行推理,返回一段融合所有要素的视频。这就是"双向、同步"的实质所在。不仅输入是多模态的,输出侧未来也将走向多模态(详见后文),可以说是真正意义上的 any-to-any 取向。

不过,就目前(2026年6月初)而言,音频输入仅以"语音参考(声音参照)"的形式起步,其他音频输入类型将陆续推出,官方对此有明确说明。这一点需要如实记录,不应夸大。

创作者视角 TIPS:官方及各媒体的提示词验证不约而同地指向同一铁律:"尽可能附上参考素材。"仅凭文本的提示词,会让模型从零开始发明视觉形象,随着多轮编辑的累积,随机性也会不断叠加。反之,哪怕只提供一张参考图、一段动作用视频片段或一段音轨,输出的稳定性都会大幅提升。若想锁定角色形象,先用 Nano Banana(图像模型)生成一张"设定图",再将其作为参考素材在所有场景中复用,正逐渐成为标准做法。一旦完成角色设计,便可在此后任何场景中随时召唤——这种"先设计、后召唤"的思路,正是 Omni 时代角色运营的基本法则。

物理引擎智能——"世界模型"正在改变影像的常识

Omni 被称为"换代产品"而非"Veo 的延伸",最根本的原因在于对物理法则的理解。Google 的官方描述指出,Omni 具备"对重力、动能、流体力学等力的直觉性理解得到显著提升",并"将对物理的直觉性理解与 Gemini 在历史、科学、文化方面的知识融为一体"。DeepMind CEO Demis Hassabis 在主题演讲中将 Omni 介绍为一种"世界模型(world model)"——一个能够构建对现实的内在理解、并推断某个场景中接下来应该发生什么的系统。

为什么这种方式有效?传统视频生成的主流方式是对大量像素进行模式匹配,以预测"下一帧"。画面看似合理,但行为却前后不一:角色在镜头切换间发生形变,阴影无视光源方向,水流得像纹理而非真实物质——早期 Sora 中喷泉水流向上喷涌、物体穿墙而过的案例颇具代表性。Omni 据称并非预测"下一个像素",而是将力的作用方式这一物理框架直接内嵌于生成过程之中。

具体的演示颇具说服力。各媒体重点报道的典型案例是"玻璃珠(弹珠)"短片:弹珠沿着复杂的类毕达哥拉斯装置轨道滚落,每次弹跳、每次铃声响起,都有同步的音效配合。某评测称"球的物理效果令人信服"。Kavukcuoglu 的橡皮泥动画蛋白质解说,也是"以科学知识为支撑的生成"的典型范例——体现在旁白的准确性上。此外还有报道提及一位教授在黑板上一步步推导数学上正确的三角函数的演示,这说明手部力学、粉笔笔压以及逻辑步骤的顺序均被一致地建模。

创作者视角的 TIPS:物理理解能力强,意味着即使提示词中不详细指定"如何运动",自然的下落、碰撞、水花飞溅、发丝与布料的飘动也能自然呈现。这在降低创作者负担的同时,也为教育类、科普类内容带来强劲助力。产品视频方面,"液体倒入容器后产生气泡""金属球落入水面泛起涟漪"等过去容易失真的物理描写,现在值得主动尝试。反之,若想刻意打破现实物理规律(例如卡通式的夸张表现),则需要在提示词中明确加入风格指定(如"卡通风格""无视重力"等),以覆盖世界模型的"写实倾向"。

Google Flow 集成 ―― 专业编辑工具变成了"对话"

Omni 面向专业用户的核心亮点,是与 Google 生成式视频制作工作室「Google Flow」的整合。在 I/O 2026 上,Flow 在搭载 Gemini Omni Flash 的基础上,还在四个维度进行了升级:Flow Agent、Flow Tools、Flow Music 的大幅强化,以及移动应用的推出。这是创作者工作流变化最大的领域,值得深入了解。

居于核心的是 Flow Agent。这是一款基于 Gemini 模型构建的「创作助手」,用 Google 的话来说,它「以你的输入为基础,在你的掌控下,对复杂任务进行规划和推理」。具体而言,它能提出台词方案、建议情节走向、同时生成多个变体、批量编辑素材,以及对合集进行直观的重命名与整理。它的定位是一个贯穿头脑风暴、制作、剪辑各环节,能够「深度理解项目」的创作伙伴。

Flow Tools 是一套无需编写代码、通过自然语言组建自定义工作流的机制,用户可以将自制工具分享给其他用户,互相混搭复用。Flow Music 同样功能强大——借助 Omni,用户可以通过对话来演绎音乐视频,还能进行细粒度的编辑,包括改写歌词、重新制作特定段落,以及在保留旋律和结构的前提下对整首曲目进行风格转换(风格翻唱)。此外,Flow 和 Flow Music 均推出了移动应用,支持外出时随时创作。

Flow 的使用额度通过与套餐等级绑定的「Flow 积分」来管理。根据各媒体汇总的数据,AI Plus 的分配为 Flow 200/Flow Music 3,000,AI Pro 为 1,000/10,000,AI Ultra(5x)为 10,000/30,000,AI Ultra(20x)为 25,000/30,000(定价详见下一章)。

创作者视角的使用技巧:Flow Agent 的真正价值在于「同时生成多个方案再从中挑选」的使用方式。与其对单个镜头反复打磨一个方案,不如一次性生成不同灯光、不同镜头角度的多个变体,找到满意的版本后再通过对话细化,实际上效率更高。Flow Tools 的妙用在于:将自己的常用处理流程(例如裁剪为竖版 9:16 并添加品牌色字幕等)一次性工具化,便可在团队或社区中反复复用,在批量生产类项目中尤为高效。Flow Music 的「保留旋律进行风格转换」功能,非常适合营销场景——将同一首曲目针对不同目标受众分别制作不同版本。

直播流式剪辑 —— 用对话雕琢影像的全新编辑循环

Omni 给创作者带来的最大体验冲击,是"视频编辑变得像对话一样简单"。Google 在 Omni 的介绍页面标题上直接写道:"像对话一样创作和编辑视频"。这正是本文所说的"实时流式编辑"——在实时的来回对话中,像雕刻一样打磨影像的编辑循环——的本质所在。

传统的生成式视频,是一种"扭蛋机(老虎机)"模式:输入提示词,然后重新生成所有片段。而在 Omni 中,只需用自然语言指示场景的某一部分即可修改。官方提示词指南说明:"只需让 Omni 进行特定的更新,比如更换背景或添加新字幕,而无需重新提示整个场景","在多次修改中保留视频,保留已经做好的部分"。每一轮的指示叠加在上一轮之上,在保持角色、光影、物体一致性的前提下推进编辑。某篇评测将其形容为"不是在操作一台精良的老虎机,而是在与一位智慧的协作者对话"——指的正是这种来回交互的手感。

CineD 介绍的一个实例很有说服力:只需说"当人物触碰镜子时,让镜子像液体一样美丽地荡漾起来",在保持角色连续性和场景逻辑的前提下,仅那一处就被改写了。不是"重拍"画面,而是"用对话来修改"——这种感觉正在改变编辑的基本前提。

不过,冷静的保留意见也是必要的。跨多轮编辑的角色一致性,历来是这一领域的弱点,CineD 也提醒"在正式项目中依赖它之前应先充分验证"。此外,编辑提示词若表述模糊,可能导致非预期的部分也被改变——这是 Nano Banana 用户已经踩过的坑,TechCrunch 也提出了同样的注意事项。

创作者视角的 TIPS:编辑指令的铁则是"具体,一次一个"。不要说"让它更好看",而要像"从左后方的窗户加入逆光,强调人物轮廓"这样,明确指出对象和目的。摄像运动方面,使用影视专业术语更有效——官方指南推荐"push in(推镜)""dolly zoom(变焦推拉)""locked off(固定镜头)""natural smartphone zoom(自然手机变焦)""webcam style(网络摄像头风格)"等词汇,并举例说明连续摄像指令的用法,如"从鞋部特写快速仰拍至中景,再拉到广角"。一旦一致性开始崩坏,与其强行用对话来维持,不如回到最后成功的帧或参考图像重新组织,效率反而更高。

Project Astra ―― 常驻型视觉助手

第五个维度是与Omni本体独立但紧密联动的"Project Astra"。这是Google DeepMind为实现"通用AI助手"而开发的研究原型,旨在实时理解摄像头捕捉的世界,打造能够同时处理对话与视觉的常驻型助手。值得注意的是,部分海外媒体和博客将其称为"Project Astra 2.0",但Google DeepMind官方页面上的正式名称仍为"Project Astra","2.0"并非官方产品品牌,而是作为指代能力迭代升级的通称流通于业界。本文为方便起见,也将并记此通称。

在能力方面,它能通过屏幕高亮显示"当前关注对象",在语境中理解物体,并即时响应,无需时间差或打断。主动发起对话的"proactive(先发制人)"行为模式也是其特色之一。在记忆方面,它在会话内保留最近的视频帧、历史查询及跨设备的上下文,并能调取过去的对话进行个性化优化。自早期演示以来一直被提及的"会话内约10分钟记忆"水准,以更精进的形式得以传承。工具集成方面也已实现,涵盖Search、Gmail、Calendar、Maps的操作及界面控制,可代替用户完成任务。

在部署方向上,Google明确表示将把Project Astra的能力延伸至Gemini Live、Search的全新体验,以及眼镜这一新形态设备。实际上,Gemini Live的部分最新功能正是最先在Project Astra中探索的。在眼镜领域,Warby Parker和Gentle Monster等眼镜品牌被报道为合作伙伴;在XR硬件领域,三星(Android XR)也作为合作方见诸报道,Android XR音频眼镜预计将于"今秋"亮相。面向视障及低视力用户,还与视觉辅助服务Aira合作开发了专属版本。

创作者视角TIPS:Astra有潜力改变影像创作的"入口"。通过眼镜或手机摄像头实时捕捉现实,将现场的被摄体、取景地、动态作为"参考素材"桥接至Omni——当"看见→拍摄→对话式剪辑"这一循环串联成一体,外景勘察和参考素材收集的工作量将大幅缩减。目前Astra与Omni仍属不同层级,但以Gemini Live为起点推动这一联动的方向性,值得提前关注。

价格与访问权限 —— 从免费的 YouTube 到每月200美元的 Ultra

Omni 的使用场所和价格遵循 Google AI 在 I/O 2026 上更新的订阅体系。首先作为免费入口,YouTube Shorts 的"Remix"功能和 YouTube Create 应用面向 18 岁以上的用户提供免费试用 Omni Flash 的机会。若要在 Gemini 应用和 Google Flow 中正式使用,则需要订阅 Google AI 的任一付费方案。

价格方面,AI Plus 为每月 7.99 美元(约 1,200 日元),AI Pro 为每月 19.99 美元(约 3,100 日元),高级的 AI Ultra 采用双层结构:拥有 5 倍使用额度的"Ultra 5x"为每月 99.99 美元(约 15,500 日元),20 倍额度的"Ultra 20x"为每月 199.99 美元(约 31,000 日元)。Ultra 最高档从原来的每月 250 美元(约 38,800 日元)降价至每月 200 美元(约 31,000 日元),同时新增每月 100 美元(约 15,500 日元)的 5 倍额度选项,进一步丰富了高级档位的选择。Ultra 5x 包含 20TB 云存储和 YouTube Premium 个人计划。结合前文提到的 Flow 额度分配来看,可以看出各档位的定位:Plus 面向"尝鲜用户",Pro 是"个人创作者的实用门槛",Ultra 则针对"批量生产与商业工作流"。

商业用途中需要特别注意的是输出内容必定附带的数字水印。Omni 生成的所有视频均嵌入 Google 的不可见数字水印"SynthID",可通过 Gemini 应用、Chrome 的 Gemini 以及 Search 进行验证。这是无法选择退出(禁用)的规格,在后文将提到的 API 中,预计将与 C2PA 的 Content Credentials 一同成为"许可"而非"必须"的要求。虽然这符合识别 AI 生成内容的社会需求,但对于部分以输出干净素材为前提的商业工作流而言可能构成限制,建议在估算阶段就将这一点纳入考量。

硅谷如何报道 —— Seedance 与 Sora 的定位关系

硅谷的反应聚焦于"体验的质变"而非"功能的华丽"。TechCrunch 的标题便是"将图像、音频与文本转化为视频——而这只是序章",着重强调了路线图的广阔前景。The Verge 将 Omni 介绍为一个全新的模型系列,旨在突破此前视频生成的狭窄限制,实现"创作一切"的目标。VentureBeat 则以"any-to-any"模型为切入点,探讨了其对企业端(广告主、制作公司)端到端工作流的颠覆性影响。面向影像创作者的 CineD 对"用自己的声音驱动自己的数字分身"这一功能表示欢迎,将其视为"缩短制作周期"的利器,同时也冷静记录了一点:Google 有意保留了对音频编辑的全面开放——这背后是对台词篡改风险的审慎考量。

在与竞争对手的定位方面,各媒体也保持着务实态度,未作过度渲染。发布首日,"并非画质最佳的模型"这一评价已成共识——多篇对比文章指出,在保真度排行榜上 Seedance 2.0 仍居首位,而在某些特定的物理模拟场景中,Sora 2 依然表现强劲。即便如此,Omni 之所以备受认可,在于它开辟了一个新的竞争维度:不是画质之争,而是"与智能协作者对话"的编辑体验。TechCrunch 将 Luma AI(能够根据产品简报生成广告营销活动)列为构建代理式多阶段创作工作流的初创公司代表加以比较,并将 Omni 定位为"Google 面向消费者的一次认真出手"。

面向消费者与面向企业的"双重面孔"之间的张力,同样是讨论的焦点。Google 以"个性化表情包"的方式向消费者推介头像功能——让用户自导自演月球旅行或获奖场景——而与此同时,Brichtova 着重强调了广告场景中文字渲染精度的价值,也透露出 Google 在企业市场的认真布局。此外,部分报道涉及竞争对手某些服务的运营状况,但相关一手信息尚未得到证实,本文仅呈现经过核实的事实范围。

创作者必备 ―― 提示词设计与一致性的构建方法

我想把到目前为止的各个论点,重新整理为在实际制作中行之有效的"模板"。Google DeepMind 官方提示指南反复强调的理念是:"无需对 Omni 过度指示。"官方的表述是:"告诉它你想创作什么,然后静观模型的推理与世界知识将细节呈现出来。"好的提示"读起来应像是对优秀协作者的清晰简报,而非法律合同。"

在此基础上,官方指南列举了希望加以控制时的关键维度:镜头构图与运动(广角/中景/特写)、风格(写实/电影感、朴实/宏大)、光线(清晰/温暖/空灵)、场景地点、动作。来自社区的验证表明,能够回答"要制作什么/使用哪些输入素材/希望保持哪些一致性/最终用途是什么样的视频"这四个问题的提示更为稳定;据称 Google 内部也有分享:"能把握六个维度的用户,往往能获得显著更好的输出。"这与其说是建议,不如说是区分"使用模型"与"用好模型"的实务知识。

关于一致性的实现方式,正如本文反复强调的:"附上参考素材,角色先设计再召唤"——这一点已足够。无论是真实素材还是用 Nano Banana 制作的素材,只需提供一张参考图,即可跨场景复用。使用虚拟形象时,系统设有专门的反深度伪造入驻流程,用户需要录制一段朗读一串数字的自拍视频——不妨将这个额外步骤本身,理解为商用场景中保障"本人身份真实性"的安全设计。在最终剪辑阶段,做到"具体明确、每次只改一处",摄影机指令使用影像专业术语,出现问题时回退到最近一个成功的帧——仅坚守这三点,批量生产时的良品率就会大幅提升。

接下来将会发生什么 —— API・Omni Pro・图像/音频输出・眼镜

最后,按照可信度顺序,整理一下截至2026年6月初可以预见的未来动向。最近的是面向开发者和企业的API提供,Google已公告"数周内"推出,各媒体预计将于6月中旬至下旬开始提供。渠道预计将分为面向个人开发者的Gemini API和面向企业的Vertex AI两条线。据报道,发布时的API将支持从文本/图像/音频/视频输入到视频输出、多轮对话编辑以及AI虚拟形象,且输出内容将强制附带SynthID和C2PA Content Credentials。

中期来看,输出模态的扩展已有明确承诺。Omni"首先从视频开始",但Google已明确表示将逐步扩展至图像、文本(乃至音频)的输出,TechCrunch也报道了"从音频生成图像、从视频生成音频"的未来愿景。视频片段时长(目前上限为10秒)的延长和分辨率的提升也在开发中。值得准确把握的一点是,10秒的上限被明确说明并非架构上的限制,而是"为了让更多人尽早用上"的产品决策,这一点不应夸大。

更远处还有高阶模型Gemini Omni Pro。据称将在相对Flash出现"阶跃式飞跃"时推出,目前没有明确的时间表。各媒体普遍认为,该模型可能会伴随视频时长延长和分辨率提升,首先在月费100美元的新AI Ultra档位提供。与此同时,作为Omni大脑端的Gemini 3.5系列也在持续进化。I/O上发布的Gemini 3.5 Flash已成为应用和AI Mode的默认模型,高阶的Gemini 3.5 Pro则公告将于次月(2026年6月)推出。在形态方面,前述Android XR音频眼镜预计将于"今秋"亮相,Project Astra的常驻视觉与Omni的生成和编辑将如何衔接,将成为下一个关注焦点。

总体而言,硅谷创作者需要关注的下一个里程碑,可归纳为四点:(1) 6月下旬API开放带来的工具生态爆发;(2) 图像/音频输出扩展使any-to-any逐步成形的时刻;(3) Omni Pro解除时长和分辨率的限制;(4) 秋季眼镜发布能否让"拍摄即编辑"的闭环成为现实。Omni在发布首日并非画质之王。但这正是Google战略意图的体现——不在画质上争高下,而是率先抢占"如何与影像进行交互"这一新战场。