Semua Tentang Gemini Omni

"Gemini Omni" yang diumumkan oleh Google di I/O 2026 pada 19 Mei 2026 merupakan model generasi baharu yang bersifat natif multimodal, mampu menghasilkan satu video daripada sebarang input — sama ada imej, audio, video, mahupun teks. Model ini menyatukan Veo, Imagen, dan penjanaan audio dalam satu tindanan, dan sebagai "model dunia" yang mengandungi undang-undang fizik seperti graviti dan bendalir, ia merealisasikan pengalaman pengeditan yang membolehkan pengguna mengukir visual melalui perbualan. Makalah ini menganalisis Omni secara menyeluruh dari perspektif pencipta konten di Silicon Valley, merentasi lima paksi: inferens multimodal dua hala dan serentak, kecerdasan fizik, integrasi Google Flow, Project Astra, dan pengeditan langsung, serta menyertakan TIPS praktikal

Apakah Gemini Omni — "Selepas Veo" yang Ditunjukkan oleh I/O 2026

Pertama sekali, mari kita fahami gambaran keseluruhannya. Gemini Omni ialah model penjanaan dan penyuntingan video yang diperkenalkan sebagai topik utama dalam ucaptama Google I/O 2026 yang berlangsung pada 19 Mei 2026, dipersembahkan oleh Ketua Pegawai Eksekutif Sundar Pichai dan Google DeepMind. Pengumuman rasmi Google merumuskannya dalam satu ayat — "model yang boleh mencipta apa sahaja daripada sebarang input — bermula dengan video (create anything from any input — starting with video)." Versi ringan dan pantas yang pertama kali ditawarkan kepada umum ialah "Gemini Omni Flash", yang dilancarkan secara global pada hari yang sama.

Perkara penting di sini ialah Omni bukan sekadar "versi baharu alat penjanaan video." Selama ini, media generatif Google dibahagikan mengikut fungsi — Veo untuk video, Imagen untuk imej, dan sistem berasingan untuk audio. Omni menggabungkan kesemua ini dalam satu model tunggal, menyatukan "kecerdasan (penaakulan dan pengetahuan dunia)" Gemini itu sendiri dengan "keupayaan rendering (penggambaran)" model media. Nicole Brichtova, Pengarah Pengurusan Produk DeepMind, menjelaskan kepada TechCrunch bahawa ini merupakan "langkah seterusnya dalam kemajuan menggabungkan kecerdasan Gemini dengan keupayaan rendering model media kami." Artikel blog rasmi ini ditulis oleh Koray Kavukcuoglu, Ketua Pegawai Teknologi DeepMind sekaligus Arkitek AI Utama Google.

Contoh konkrit membantu memperjelas perkara ini. Dalam demonstrasi yang ditunjukkan oleh Kavukcuoglu, hanya dengan arahan "terangkan proses lipatan protein dalam animasi tanah liat (clay animation)," satu video stop-motion lengkap dengan narasi audio yang tepat terus dihasilkan. Dengan hanya bekal satu keping foto, ia boleh dijadikan video; teks juga boleh digunakan untuk menyunting foto — satu pengalaman yang menyerupai model penyuntingan imej Google "Nano Banana." Ringkasnya, Omni bertindak seperti rakan kolaborasi yang "menerima bahan masukan, kemudian berfikir dan menghasilkan satu rakaman video sebagai balasan."

Pichai memposisikan arah ini sebagai titik peralihan bersejarah dalam AI. Dengan kata-katanya sendiri, "melalui model dunia, AI sedang beralih daripada peringkat meramalkan teks kepada peringkat mensimulasikan realiti." Ayat inilah yang menjadi tulang belakang dalam memahami Omni. Berikut ini, kita akan mendalami lima isu utama yang perlu diketahui oleh para pencipta konten, satu per satu.

Penaakulan Multimodal Dua Hala & Serentak ―― Memikirkan "Semua yang Ditampal" Sekaligus

Teras teknikal Omni ialah sifatnya yang "multimodal asli". Berbeza daripada pendekatan yang memisahkan data teks, imej, audio, dan video ke langkah-langkah berlainan kemudian menyambungkannya (*stitch*), satu rangkaian neural teras tunggal memproses semuanya secara serentak dalam forward pass yang sama (satu aliran inferens). Dalam kaedah geganti (*relay*) tradisional di mana "output model teks diserahkan kepada model media", konteks sering hilang di sempadan modaliti dan artifak (kerosakan) mudah timbul di titik sambungan. Omni menghapuskan sempadan itu sendiri.

Faedah praktikal bagi pencipta konten berkait langsung dengan "kebebasan bahan rujukan (*reference*)". Dalam ungkapan Google, "Omni menukar sebarang rujukan — imej, teks, video, atau audio — menjadi satu output yang padu". Anda boleh menggabungkan semuanya dalam satu prompt: satu imej statik untuk rupa paras watak, klip video lain untuk nuansa pergerakan, sampel audio untuk suasana, dan teks untuk arahan. Model menginferens semua elemen tersebut secara bersepadu dan mengembalikan satu video yang mencerminkan keseluruhan input. Inilah hakikat "dua hala dan serentak". Dalam erti kata bahawa bukan sahaja input yang bersifat multimodal, tetapi output juga akan menjadi multimodal pada masa hadapan (dijelaskan kemudian), ia benar-benar menghala ke arah *any-to-any*.

Walau bagaimanapun, pada ketika ini (awal Jun 2026), input audio bermula hanya dengan "voice reference (rujukan suara)", manakala jenis input audio lain akan dilancarkan secara berperingkat — ini dinyatakan secara rasmi. Perkara ini perlu dicatat tanpa sebarang pembesaran.

TIPS dari perspektif pencipta konten: Perkara yang disepakati oleh semua pengesahan prompt rasmi dan pelbagai media ialah prinsip besi: "sertakan bahan rujukan sebanyak mungkin". Prompt teks sahaja memaksa model mencipta identiti visual dari sifar, dan rawakan (*randomness*) terkumpul semakin banyak prompt penyuntingan berturut-turut digunakan. Sebaliknya, dengan memberikan sekurang-kurangnya satu — sama ada imej rujukan, klip untuk gerakan, atau trek audio — kestabilan output meningkat secara dramatik. Jika anda ingin menetapkan watak, amalan terbaik yang semakin popular ialah mencipta dahulu "helaian tetapan" dengan Nano Banana (model imej), kemudian menggunakannya sebagai rujukan dalam semua adegan. Memanggil watak yang telah direka bentuk ke mana-mana adegan sesuka hati — pendekatan "reka bentuk dahulu, panggil kemudian" inilah yang menjadi asas pengurusan watak di era Omni.

Kecerdasan Enjin Fizikal ―― "Model Dunia" Mengubah Norma Video

Sebab utama mengapa Omni dikatakan sebagai peralihan generasi dan bukan sekadar "lanjutan Veo" terletak pada kefahaman undang-undang fizik. Deskripsi rasmi Google menyatakan bahawa Omni dilengkapi dengan "pemahaman intuitif yang dipertingkatkan terhadap daya seperti graviti, tenaga kinetik, dan dinamik bendalir," serta "menggabungkan pemahaman intuitif fizik dengan pengetahuan Gemini tentang konteks sejarah, sains, dan budaya." Demis Hassabis, CEO DeepMind, memperkenalkan Omni dalam ucapan utamanya sebagai "model dunia (world model)" — sistem yang membina pemahaman dalaman tentang realiti dan boleh membuat kesimpulan tentang apa yang sepatutnya berlaku seterusnya dalam sesuatu adegan.

Mengapa ini berkesan? Penjanaan video konvensional kebanyakannya bergantung pada kaedah pemadanan corak sejumlah besar piksel untuk meramalkan "bingkai seterusnya." Walaupun kelihatan meyakinkan secara visual, kelakuannya tidak konsisten. Watak-watak berubah bentuk antara potongan, bayang-bayang mengabaikan sumber cahaya, air mengalir seperti tekstur bukan jirim — contoh simboliknya ialah air pancut yang mengalir ke atas dan objek yang melepasi dinding dalam versi awal Sora. Omni diterangkan bukan sekadar meneka "piksel seterusnya," tetapi secara langsung menyepadukan kerangka fizik tentang bagaimana daya beroperasi ke dalam proses penjanaan.

Demo konkrit memberikan keyakinan. Contoh perwakilan yang diliputi oleh pelbagai media ialah klip "bola kaca (marble)," di mana guli menggelongsor menuruni litar yang menyerupai mesin Rube Goldberg yang rumit, dengan kesan bunyi yang disegerakkan setiap kali ia melantun atau loceng berbunyi. Satu ulasan menyatakan "fizik bola itu boleh dipercayai." Demo animasi tanah liat Kavukcuoglu tentang penjelasan protein juga merupakan contoh yang baik bagi "penjanaan disokong pengetahuan saintifik" dari segi ketepatan naratif. Demo seorang profesor yang menulis terbitan trigonometri yang betul secara matematik di papan hitam turut dilaporkan, menunjukkan bahawa mekanik tangan, tekanan kapur, dan susunan langkah logik semuanya dimodelkan secara konsisten.

TIPS dari perspektif pencipta konten: Kefahaman fizik yang kukuh bermakna walaupun tanpa arahan terperinci dalam prompt tentang "cara ia bergerak," jatuhan semula jadi, perlanggaran, percikan air, kibaran rambut dan kain akan dihasilkan. Ini bukan sahaja mengurangkan beban pencipta, malah memberikan kelebihan besar kepada kandungan pendidikan dan penerangan. Untuk video produk, ada nilai dalam menyasarkan gambaran fizik yang sebelum ini mudah rosak, seperti "cecair dituang ke dalam bekas dan berbuih" atau "bola logam jatuh ke permukaan air dan riak meluas." Sebaliknya, jika anda ingin sengaja melanggar fizik dunia nyata (seperti ekspresi kartun yang dilebih-lebihkan), anda perlu menambah spesifikasi gaya secara eksplisit (seperti "gaya kartun" atau "mengabaikan graviti") untuk mengatasi "keseriusan" model dunia itu.

Integrasi Google Flow ―― Alat Penyuntingan Pro Kini Menjadi "Perbualan"

Wajah profesional Omni ialah integrasinya ke dalam "Google Flow", studio pengeluaran video generatif Google. Pada I/O 2026, Flow dinaik taraf dalam empat aspek selain daripada penggunaan Gemini Omni Flash: Flow Agent, peningkatan besar-besaran Flow Tools dan Flow Music, serta aplikasi mudah alih. Ini adalah kawasan di mana aliran kerja pencipta konten paling banyak berubah, jadi kita akan meneliti setiap satunya dengan teliti.

Di tengah-tengahnya ialah Flow Agent. Ini adalah "pembantu kreatif" yang dibina dengan model Gemini, yang dalam ungkapan Google "merancang dan menaakulkan tugasan kompleks berdasarkan input anda, di bawah kawalan anda." Secara konkrit, ia boleh mencadangkan dialog, mengemukakan plot, menjana pelbagai variasi serentak, mengedit aset secara pukal (kelompok), serta menamakan semula dan menyusun koleksi secara intuitif. Ia diposisikan sebagai rakan kongsi yang membawa "pemahaman mendalam tentang projek" ke setiap peringkat dari sumbang saran hinggalah pengeluaran dan penyuntingan.

Flow Tools adalah mekanisme untuk membina aliran kerja tersuai menggunakan bahasa semula jadi tanpa menulis kod, di mana anda boleh berkongsi alat buatan sendiri dengan pengguna lain dan saling melakukan remix. Flow Music pula sangat berkuasa, di mana Omni membolehkan video muzik diarahkan melalui perbualan, dengan penyuntingan terperinci seperti penulisan semula lirik, pengubahan semula bahagian tertentu, dan penukaran gaya keseluruhan trek sambil mengekalkan melodi dan struktur (style cover). Selain itu, aplikasi mudah alih disediakan untuk Flow dan Flow Music, menyokong penghasilan konten semasa dalam perjalanan.

Had penggunaan Flow diuruskan melalui "Flow Credits" yang dikaitkan dengan peringkat harga. Berdasarkan angka yang diringkaskan oleh pelbagai media: AI Plus mendapat Flow 200 / Flow Music 3,000; AI Pro mendapat 1,000 / 10,000; AI Ultra (5x) mendapat 10,000 / 30,000; dan AI Ultra (20x) mendapat 25,000 / 30,000 (harga akan dibincangkan dalam bab seterusnya).

TIPS dari perspektif pencipta konten: Nilai sebenar Flow Agent terletak pada penggunaan "menjana pelbagai cadangan serentak dan memilih yang terbaik." Daripada mengolah satu shot dengan satu cadangan sahaja, lebih cepat jika anda menjana variasi pencahayaan dan sudut kamera sekaligus, memilih yang berpotensi, kemudian memperhalusinya melalui perbualan. Flow Tools sangat berguna apabila anda "menjadikan proses rutin anda sebagai alat sekali" (seperti pemotongan ke format menegak 9:16 + teks kapsyen warna jenama), kerana ia boleh digunakan semula oleh pasukan dan komuniti, dan sangat efektif untuk projek pengeluaran berskala besar. Ciri "penukaran gaya sambil mengekalkan melodi" dalam Flow Music sangat sesuai untuk tujuan pemasaran yang memerlukan pembuatan lagu yang sama untuk segmen sasaran yang berbeza.

Pengeditan Penstriman Langsung ―― Gelung Pengeditan Baharu yang Mengukir Video Melalui Perbualan

Impak pengalaman terbesar yang Omni berikan kepada pencipta konten ialah "pengeditan video menjadi semudah perbualan." Google sendiri meletakkan tajuk halaman pengenalan Omni sebagai "Cipta dan edit video seperti bercakap." Inilah yang dimaksudkan dalam artikel ini sebagai "Live Streaming Edit" — gelung pengeditan yang mengukir imej secara masa nyata melalui dialog berulang.

Generasi video AI yang konvensional adalah seperti "mesin slot (gacha)" — lemparkan prompt, kemudian semua klip dijana semula dari awal. Dengan Omni, anda boleh mengarahkan hanya sebahagian daripada adegan menggunakan bahasa semula jadi. Panduan prompt rasmi menjelaskan: "Anda hanya perlu meminta Omni untuk kemas kini tertentu, seperti menukar latar belakang atau menambah kapsyen baharu, tanpa perlu membuat prompt semula keseluruhan adegan" dan "mengekalkan video merentasi pelbagai sesi pengeditan, sambil mempertahankan bahagian yang berjaya." Arahan setiap giliran terkumpul di atas giliran sebelumnya, dan pengeditan diteruskan sambil mengekalkan konsistensi watak, pencahayaan, dan objek. Ulasan yang menyatakan "bukan seperti mengoperasi mesin slot yang diperhalusi, tetapi seperti bercakap dengan rakan kolaborasi yang cerdas" merujuk kepada rasa timbal-balik ini.

Contoh sebenar yang diperkenalkan oleh CineD sangat mudah difahami. Hanya dengan berkata "Apabila watak menyentuh cermin, buat cermin itu bergelombang indah seperti cecair," hanya satu titik itu yang ditulis semula sambil mengekalkan kesinambungan watak dan logik adegan. Bukannya "menggambar semula" imej, tetapi "membetulkannya melalui perbualan" — perasaan ini sedang mengubah premis pengeditan.

Namun, beberapa peringatan yang tenang juga diperlukan. Konsistensi watak merentasi pelbagai giliran pengeditan secara historis merupakan kelemahan dalam kategori ini, dan CineD juga menegaskan bahawa ia "perlu diverifikasi sebelum diandalkan dalam projek pengeluaran sebenar." Selain itu, apabila prompt pengeditan tidak jelas, bahagian yang tidak dimaksudkan pun boleh berubah — ini adalah perangkap yang sudah diketahui oleh pengguna Nano Banana, dan TechCrunch turut menyebut amaran yang sama.

TIPS dari perspektif pencipta konten: Prinsip utama arahan pengeditan ialah "spesifik, satu perkara pada satu masa." Bukannya "buat lebih baik," tetapi nyatakan sasaran dan tujuan seperti "tambah cahaya balik dari tingkap di sebelah kiri belakang, untuk menonjolkan garis badan watak." Istilah sinematografi berkesan untuk pergerakan kamera — panduan rasmi mengesyorkan kosa kata seperti "push in," "dolly zoom," "locked off," "natural smartphone zoom," "webcam style," dan memberikan contoh arahan kamera berturutan seperti "close-up kasut, kemudian tilt up dengan pantas ke medium shot, kemudian ke wide." Apabila konsistensi mula goyah, adalah lebih cepat untuk kembali ke frame terakhir yang berjaya atau imej rujukan dan menyusun semula, daripada cuba bertahan dengan perbualan secara paksa.

Project Astra ―― Ke Arah Pembantu Visual Tetap

Paksi kelima ialah "Project Astra", yang beroperasi dalam sistem berasingan daripada Omni tetapi berhubung rapat dengannya. Ini merupakan prototaip penyelidikan yang dibangunkan oleh Google DeepMind ke arah "pembantu AI sejagat", bertujuan untuk mewujudkan pembantu sedia ada yang memahami dunia yang ditangkap oleh kamera secara masa nyata, serta memproses perbualan dan visual secara serentak. Perlu diambil perhatian bahawa sesetengah media asing dan blog menyebutnya sebagai "Project Astra 2.0", namun nama rasmi di laman web Google DeepMind kekal sebagai "Project Astra", dan "2.0" lebih merupakan sebutan tidak rasmi yang merujuk kepada keupayaan generasi baharu, bukan jenama produk rasmi. Dalam artikel ini, sebutan tidak rasmi ini turut dicatatkan untuk kemudahan rujukan.

Dari segi keupayaan, sistem ini memahami objek mengikut konteks sambil menunjukkan "perkara yang perlu diberi perhatian pada masa ini" melalui penonjolan pada skrin, dan memberikan respons serta-merta tanpa kelewatan atau gangguan. Tingkah laku "proaktif (mendahului)" yang memulakan perbualan sendiri turut menjadi cirinya. Berhubung ingatan, sistem ini mengekalkan bingkai video terkini, pertanyaan lalu, dan konteks merentas peranti dalam sesi, serta memanggil semula perbualan lampau untuk pengoptimuman individu. Tahap "ingatan kira-kira 10 minit dalam sesi" yang telah dibincangkan sejak demo awal diwarisi dalam bentuk yang lebih halus dan canggih. Integrasi alat juga telah dilaksanakan, membolehkan pengguna menyelesaikan tugasan seperti operasi Search, Gmail, Calendar, Maps, dan kawalan antara muka.

Berhubung pengembangan, Google telah menyatakan dengan jelas bahawa keupayaan Project Astra akan diperluaskan kepada Gemini Live, pengalaman baharu dalam Search, dan cermin mata sebagai faktor bentuk baharu. Malah, beberapa ciri terkini Gemini Live pada mulanya diterokai melalui Project Astra. Dalam bidang cermin mata, jenama seperti Warby Parker dan Gentle Monster dilaporkan sebagai rakan kongsi, manakala Samsung (Android XR) pula menjadi rakan kongsi perkakasan XR, dengan cermin mata audio Android XR dijadualkan hadir "musim luruh ini". Untuk pengguna yang mengalami masalah penglihatan dan rabun, versi khusus turut dibangunkan melalui perkongsian dengan perkhidmatan sokongan visual Aira.

TIPS daripada perspektif pencipta konten: Astra berpotensi mengubah "pintu masuk" kepada penghasilan video. Dengan menangkap realiti secara langsung menggunakan kamera cermin mata atau telefon pintar, lalu menjembatani subjek, lokasi, dan gerakan di tempat tersebut sebagai "bahan rujukan" kepada Omni ― apabila gelung "melihat → merakam → mengedit melalui perbualan" terhubung dalam satu aliran, usaha untuk memilih lokasi rakaman dan mengumpul bahan rujukan dapat dikurangkan dengan ketara. Pada masa ini, Astra dan Omni masih berada di lapisan yang berasingan, namun ada nilai dalam menyedari hala tuju integrasi ini yang bermula daripada Gemini Live.

Harga dan Akses ―― Dari YouTube percuma hingga Ultra pada $200 sebulan

Di mana dan berapa harga untuk menggunakan Omni mengikut struktur langganan Google AI yang diperbaharui di I/O 2026. Sebagai titik masuk percuma, pengguna berumur 18 tahun ke atas boleh mencuba Omni Flash secara percuma melalui ciri "Remix" YouTube Shorts dan aplikasi YouTube Create. Untuk menggunakannya sepenuhnya dalam aplikasi Gemini dan Google Flow, pelan berbayar Google AI diperlukan.

Harga-harganya adalah seperti berikut: AI Plus pada USD 7.99 sebulan (kira-kira RM 36), AI Pro pada USD 19.99 sebulan (kira-kira RM 90), manakala AI Ultra peringkat tertinggi mempunyai dua peringkat — "Ultra 5x" dengan kuota penggunaan 5 kali ganda pada USD 99.99 sebulan (kira-kira RM 450), dan "Ultra 20x" dengan kuota 20 kali ganda pada USD 199.99 sebulan (kira-kira RM 900). Harga tertinggi Ultra telah diturunkan daripada USD 250 sebulan kepada USD 200 sebulan, dan dengan penambahan peringkat 5x pada USD 100 sebulan, pilihan dalam kategori tertinggi kini lebih meluas. Ultra 5x termasuk storan awan 20TB dan pelan peribadi YouTube Premium. Jika dibaca bersama dengan peruntukan kredit Flow yang disebutkan sebelum ini, pembahagian peranan menjadi jelas: Plus untuk "mereka yang ingin mencuba", Pro sebagai "garisan praktikal untuk kreator individu", dan Ultra untuk "aliran kerja pengeluaran besar-besaran dan komersial".

Perkara penting yang perlu diperhatikan untuk penggunaan komersial ialah tera air digital yang sentiasa hadir pada output. Semua video yang dijana oleh Omni akan disematkan dengan tera air digital tidak kelihatan Google, "SynthID", yang boleh disahkan dalam aplikasi Gemini, Gemini di Chrome, dan Search. Ini adalah spesifikasi yang tidak boleh dinyahaktifkan (opt-out), dan dalam API yang akan dibincangkan kemudian, ia dijangka menjadi "wajib" dan bukannya "pilihan", bersama-sama dengan Content Credentials C2PA. Walaupun ini selaras dengan keperluan sosial untuk mengenal pasti kandungan yang dijana oleh AI, ia boleh menjadi kekangan bagi sebahagian aliran kerja komersial yang mengandaikan output yang bersih — satu perkara yang perlu diambil kira pada peringkat anggaran.

Bagaimana Silicon Valley Melaporkannya ―― Kedudukan Berbanding Seedance & Sora

Sambutan Silicon Valley lebih tertumpu kepada "transformasi kualitatif pengalaman" berbanding "kecanggihan fitur" semata-mata. TechCrunch, sejak dari tajuk utamanya, menekankan keluasan peta jalan dengan menyatakan "Menukar imej, audio, dan teks kepada video — dan ini baru permulaan." The Verge memperkenalkan Omni sebagai keluarga model baharu yang berhasrat untuk "mencipta apa sahaja," melepaskan diri daripada kekangan sempit penjanaan video sebelum ini. VentureBeat membincangkan kuasa gangguannya sebagai model "any-to-any" terhadap aliran kerja end-to-end bagi perusahaan (pengiklan dan syarikat produksi). CineD, yang menyasarkan pembuat filem, menyambut baik keupayaan menggerakkan avatar digital diri sendiri dengan suara sendiri sebagai "penjimatan masa produksi," sambil secara tenang merekodkan bahawa Google sengaja menahan kebebasan luas dalam pengeditan audio — suatu pertimbangan terhadap risiko pengubahan dialog.

Mengenai kedudukan berbanding pesaing, setiap media bersikap realistik tanpa berlebih-lebihan. Penilaian bahawa model ini "bukan model berkualiti imej tertinggi" pada hari pelancaran adalah konsisten, dengan beberapa artikel perbandingan menunjukkan bahawa Seedance 2.0 masih mendahului carta ketepatan, manakala Sora 2 masih unggul dalam kes fizik tertentu. Namun demikian, Omni tetap mendapat penilaian positif kerana ia membuka gelanggang baharu — pengalaman pengeditan yang seperti "berbicara dengan rakan kolaborasi yang berintelek" — bukan sekadar persaingan kualiti imej. TechCrunch menyebut Luma AI (yang menjana kempen iklan daripada ringkasan produk) sebagai perbandingan, iaitu syarikat permulaan yang membina aliran kerja penciptaan berbilang peringkat berasaskan ejen, dan menempatkan Omni sebagai "langkah serius Google untuk pengguna umum."

Ketegangan antara "dua wajah" — pengguna umum dan penggunaan perniagaan — turut menjadi topik perbincangan. Google menarik minat pengguna dengan avatar untuk "meme yang diperibadikan" seperti mencipta adegan perjalanan ke bulan atau menerima anugerah, manakala Brichtova menekankan nilai ketepatan pemaparan teks (text-rendering) dalam pengiklanan, mencerminkan kesungguhan Google dalam segmen perusahaan. Perlu diambil perhatian bahawa terdapat laporan yang beredar tanpa pengesahan sumber primer berkaitan status operasi sebahagian perkhidmatan pesaing; oleh itu, tulisan ini hanya terhad kepada fakta yang telah dapat disahkan.

Wajib Ada untuk Pencipta Konten ―― Cara Mereka Bentuk Prompt dan Mencipta Konsistensi

Saya ingin mengumpulkan pelbagai perbincangan yang telah dibuat setakat ini sebagai "templat" yang berkesan dalam pengeluaran sebenar. Apa yang berulang kali ditekankan dalam panduan prompt rasmi Google DeepMind ialah falsafah bahawa "anda tidak perlu memberi terlalu banyak arahan kepada Omni." Ungkapan rasminya ialah, "beritahu apa yang ingin anda hasilkan, dan biarkan penaakulan model serta pengetahuan duniawinya membina perincian tersebut." Prompt yang baik ialah yang "boleh dibaca seperti taklimat yang jelas kepada rakan kerja yang cekap, bukan seperti kontrak undang-undang."

Seterusnya, panduan rasmi menyenaraikan paksi kawalan apabila anda ingin mengawal output, iaitu: pembingkaian dan pergerakan shot (wide/medium/close-up), gaya (realistik/sinematik, membumi/agung), pencahayaan (tajam/hangat/ethereal), lokasi, dan aksi. Berdasarkan pengesahan komuniti, prompt yang menjawab empat perkara — "apa yang hendak dihasilkan / input mana yang hendak digunakan / apa yang ingin dijadikan konsisten / video itu akhirnya untuk tujuan apa" — didapati lebih stabil, dan dikongsikan bahawa di dalam Google sendiri, "pengguna yang menguasai enam dimensi mendapat output yang jauh lebih baik." Ini bukan sekadar cadangan, tetapi pengetahuan praktikal yang membezakan antara "menggunakan model" dan "menguasai penggunaan model."

Cara mencipta konsistensi, seperti yang berulang kali dinyatakan dalam artikel ini, adalah dengan "lampirkan rujukan, dan reka bentuk watak sebelum memanggilnya." Sama ada menggunakan bahan sedia ada atau bahan yang dibuat dengan Nano Banana, memberikan satu imej rujukan membolehkan ia digunakan semula merentas pelbagai adegan. Bagi penggunaan avatar, terdapat onboarding khusus untuk mencegah deepfake, di mana pengguna diminta membuat rakaman diri membaca satu siri nombor — langkah tambahan ini sendiri harus dilihat sebagai reka bentuk keselamatan yang memastikan "pengesahan identiti diri" untuk kegunaan komersial. Dalam pengeditan akhir, mematuhi tiga perkara ini — "spesifik, satu perkara pada satu masa," gunakan istilah perfileman untuk kamera, dan kembali ke frame kejayaan terkini apabila terdapat kerosakan — akan mengubah kadar hasil pengeluaran secara besar-besaran.

Apa yang akan berlaku seterusnya ―― API・Omni Pro・Output Imej/Audio・Cermin Mata

Akhir sekali, berikut adalah perkembangan yang dijangkakan menjelang awal Jun 2026, disusun mengikut tahap kepastian. Yang paling dekat ialah penyediaan API untuk pembangun dan perusahaan — Google telah mengumumkan ia akan tersedia "dalam beberapa minggu," dan pelbagai media menjangkakan ia akan dilancarkan antara pertengahan hingga akhir Jun. Laluan aksesnya dijangka melalui dua saluran: Gemini API untuk pembangun individu, dan Vertex AI untuk penggunaan korporat. API pada waktu pelancaran dilaporkan akan menyokong input teks/imej/audio/video dengan output video, penyuntingan perbualan berbilang giliran, dan avatar AI — dengan SynthID serta C2PA Content Credentials yang akan dilampirkan secara wajib pada setiap output.

Dalam jangka menengah, pengembangan modaliti output telah dijanjikan. Omni bermula dengan "video dahulu," namun Google telah menyatakan secara terbuka bahawa ciri ini akan diperluaskan dari masa ke masa untuk merangkumi output imej, teks, dan bahkan audio. TechCrunch menyampaikan gambaran masa depan di mana "audio boleh menjana imej, dan video boleh menjana audio." Pemanjangan tempoh klip (had semasa ialah 10 saat) dan peningkatan resolusi juga sedang dalam pembangunan. Perlu dicatat dengan tepat tanpa sebarang hiperbola: had 10 saat itu bukan disebabkan oleh batasan seni bina, tetapi merupakan keputusan produk yang dibuat "untuk menjangkau lebih ramai pengguna dengan lebih cepat."

Di cakrawala yang lebih jauh menanti model peringkat tinggi, Gemini Omni Pro. Model ini akan dilancarkan apabila terdapat perbezaan yang boleh dianggap sebagai "step-change (lompatan bertahap)" berbanding Flash — namun tiada tarikh khusus yang dinyatakan setakat ini. Pelbagai media menjangkakan ia berkemungkinan besar akan ditawarkan terlebih dahulu melalui peringkat AI Ultra baharu berharga $100 sebulan, disertai dengan tempoh klip yang lebih panjang dan resolusi yang lebih tinggi. Seiring dengan itu, Gemini 3.5 — yang merupakan "otak" di sebalik Omni — terus berkembang. Gemini 3.5 Flash yang diperkenalkan di I/O kini menjadi model lalai untuk aplikasi dan AI Mode, manakala Gemini 3.5 Pro peringkat lebih tinggi telah diumumkan untuk dilancarkan pada bulan berikutnya (Jun 2026). Dari segi faktor bentuk, Android XR Audio Glasses yang disebutkan sebelum ini dijangka hadir "musim luruh ini," dan titik perhatian seterusnya ialah bagaimana penglihatan berterusan Project Astra dan keupayaan penjanaan/penyuntingan Omni akan dihubungkan bersama.

Secara keseluruhannya, empat pencapaian seterusnya yang perlu diperhatikan oleh para kreator di Silicon Valley ialah: (1) ledakan integrasi alatan berikutan pembukaan API pada akhir Jun, (2) saat any-to-any hampir sempurna dengan pengembangan ke output imej/audio, (3) pelepasan kekangan tempoh dan resolusi melalui Omni Pro, dan (4) sama ada gelung "rakam terus sunting" akan menjadi kenyataan dengan pelancaran cermin mata pada musim luruh. Omni bukanlah juara kualiti imej sejak hari pertama. Namun itu juga mencerminkan strategi Google — bukan untuk mendahului dalam kualiti gambar, tetapi untuk mendapatkan tapak yang lebih dulu dalam soal "bagaimana kita berinteraksi dengan video."