Semua tentang Gemini Omni

"Gemini Omni" yang diumumkan Google pada I/O 2026 tanggal 19 Mei 2026 adalah model generasi baru multimodal native yang mampu menghasilkan satu video dari berbagai jenis input — gambar, audio, video, maupun teks. Model ini mengintegrasikan Veo, Imagen, dan pembuatan audio dalam satu stack, dan diwujudkan sebagai "world model" yang memiliki pemahaman bawaan tentang hukum fisika seperti gravitasi dan fluida, sehingga memungkinkan pengalaman pengeditan yang membentuk video melalui percakapan. Artikel ini mengupas tuntas Omni dari sudut pandang kreator di Silicon Valley melalui lima sumbu: inferensi multimodal dua arah dan simultan, kecerdasan fisika, integrasi Google Flow, Project Astra, dan pengeditan langsung (live editing), beserta tips praktis

Apa Itu Gemini Omni —— "Penerus Veo" yang Ditunjukkan oleh I/O 2026

Mari kita mulai dengan gambaran besarnya. Gemini Omni adalah model pembuatan dan pengeditan video yang diperkenalkan sebagai topik utama oleh CEO Sundar Pichai dan Google DeepMind dalam keynote Google I/O 2026 yang dibuka pada 19 Mei 2026. Pengumuman resmi Google merangkumnya dalam satu kalimat: "model yang dapat menciptakan apa pun dari input apa pun — dimulai dari video (create anything from any input — starting with video)." Versi ringan dan cepat bernama "Gemini Omni Flash" adalah yang pertama tersedia untuk umum, diluncurkan secara global pada hari yang sama.

Yang penting di sini adalah bahwa Omni bukan sekadar "versi baru dari alat pembuatan video." Selama ini, media generatif Google terbagi berdasarkan fungsi: Veo untuk video, Imagen untuk gambar, dan jalur terpisah untuk audio. Omni melipat semuanya ke dalam satu model, mengintegrasikan "kecerdasan (penalaran dan pengetahuan dunia)" dari Gemini itu sendiri dengan "kemampuan rendering" dari model media. Nicole Brichtova, Direktur Manajemen Produk DeepMind, menjelaskan kepada TechCrunch bahwa ini adalah "langkah berikutnya dalam kemajuan yang menggabungkan kecerdasan Gemini dengan kemampuan rendering model media kami." Blog resminya ditulis oleh Koray Kavukcuoglu, CTO DeepMind sekaligus Chief AI Architect Google.

Contoh konkret membuatnya lebih mudah dipahami. Dalam demo yang ditunjukkan oleh Kavukcuoglu, cukup dengan instruksi "jelaskan pelipatan protein dalam animasi clay (animasi tanah liat)," sebuah video stop-motion lengkap dengan narasi audio yang akurat langsung dihasilkan. Dengan satu foto di tangan, Anda bisa menjadikannya titik awal untuk membuat video, atau mengedit foto menggunakan teks — pengalaman yang mirip dengan model pengeditan gambar Google "Nano Banana." Dengan kata lain, Omni berperilaku seperti kolaborator yang "menerima bahan yang dimasukkan, lalu berpikir dan mengembalikan satu video."

Pichai memposisikan arah ini sebagai titik balik bersejarah dalam AI. Meminjam kata-katanya, "dengan world model, AI sedang beralih dari tahap memprediksi teks menuju tahap mensimulasikan realitas." Satu kalimat inilah yang menjadi tulang punggung dalam memahami Omni. Berikut ini, kita akan menggali satu per satu lima poin yang perlu diketahui oleh para kreator.

Penalaran multimodal dua arah dan simultan —— Memikirkan "semua yang ditempelkan" sekaligus

Inti teknis dari Omni adalah sifatnya yang "natively multimodal". Alih-alih memisahkan berbagai jenis data — teks, gambar, audio, dan video — ke langkah-langkah berbeda lalu menyatukannya (stitch), satu jaringan neural inti memproses semuanya secara bersamaan dalam satu forward pass (satu alur inferensi). Dengan metode relay konvensional yang "meneruskan output model teks ke model media", konteks kerap hilang di batas antar-modalitas dan artefak (kerusakan) mudah muncul di titik sambungannya. Omni menghapus batas itu sendiri.

Bagi kreator, manfaat praktisnya berkaitan langsung dengan "kebebasan referensi (materi acuan)". Dalam ungkapan Google, "Omni mengubah referensi apa pun — gambar, teks, video, audio — menjadi satu output yang terpadu". Tampilan karakter dari satu gambar diam, nuansa gerakan dari klip video lain, suasana dari sampel audio, instruksi dari teks — semuanya bisa dimasukkan ke dalam satu prompt sekaligus. Model akan menalar semua itu secara bersamaan dan menghasilkan satu video yang mencerminkan seluruh elemen. Inilah wujud nyata dari "dua arah, simultan". Bukan hanya input yang multimodal, tetapi output pun akan menjadi multimodal ke depannya (dijelaskan lebih lanjut), sehingga secara harfiah mengarah pada any-to-any.

Namun, pada titik saat ini (awal Juni 2026), input audio dimulai hanya dari "voice reference (referensi suara)", dan jenis input audio lainnya akan diluncurkan secara bertahap — hal ini secara resmi dinyatakan dengan jelas. Poin ini perlu dicatat tanpa melebih-lebihkan.

TIPS dari Perspektif Kreator: Hal yang disuarakan secara serentak oleh verifikasi prompt resmi maupun berbagai media adalah prinsip mutlak "lampirkan materi referensi sebanyak mungkin". Prompt yang hanya berupa teks memaksa model untuk menciptakan identitas visual dari nol, dan semakin banyak putaran pengeditan, semakin besar akumulasi keacakannya. Sebaliknya, dengan memberikan satu saja — gambar referensi, klip untuk gerakan, atau trek audio — stabilitas output meningkat secara dramatis. Jika ingin mengunci karakter, sudah menjadi praktik umum untuk terlebih dahulu membuat satu "lembar desain" menggunakan Nano Banana (model gambar), lalu menggunakannya sebagai referensi di semua adegan. Karakter yang sudah dirancang bisa dipanggil ke adegan mana pun setelahnya — gagasan "rancang dulu, lalu panggil" inilah yang menjadi dasar pengelolaan karakter di era Omni.

Kecerdasan Mesin Fisika — "Model Dunia" yang Mengubah Standar Visual

Alasan utama mengapa Omni disebut sebagai pergantian generasi, bukan sekadar "perpanjangan dari Veo," terletak pada pemahaman hukum fisika. Deskripsi resmi Google menyatakan bahwa Omni memiliki "pemahaman intuitif yang lebih baik terhadap gaya-gaya seperti gravitasi, energi kinetik, dan dinamika fluida," serta "menggabungkan pemahaman intuitif tentang fisika dengan pengetahuan Gemini mengenai konteks sejarah, sains, dan budaya." Dalam keynote-nya, CEO DeepMind Demis Hassabis memperkenalkan Omni sebagai "world model" — sebuah sistem yang membangun pemahaman internal tentang realitas dan mampu menalar apa yang seharusnya terjadi selanjutnya dalam suatu adegan.

Mengapa ini efektif? Generasi video konvensional sebagian besar mengandalkan pencocokan pola dari jutaan piksel untuk memprediksi "frame berikutnya." Hasilnya mungkin terlihat meyakinkan, namun perilakunya tidak konsisten. Karakter berubah bentuk di antara potongan adegan, bayangan mengabaikan sumber cahaya, dan air mengalir seperti tekstur, bukan seperti zat — contoh simbolisnya adalah air mancur yang mengalir ke atas atau objek yang menembus dinding pada Sora versi awal. Omni dijelaskan tidak sekadar menebak "piksel berikutnya," melainkan langsung mengintegrasikan kerangka fisika — bagaimana gaya bekerja — ke dalam proses generasinya.

Demo spesifiknya sangat meyakinkan. Contoh paling banyak diangkat berbagai media adalah klip "kelereng (marble)," di mana sebuah kelereng menggelinding menuruni lintasan mirip alat Pythagoras yang rumit, dengan efek suara yang sinkron setiap kali memantul dan setiap kali bel berbunyi. Salah satu ulasan menyebutnya "fisika bola yang benar-benar bisa dipercaya." Demo animasi clay Kavukcuoglu yang menjelaskan protein juga merupakan contoh bagus dari "generasi yang dilandasi pengetahuan ilmiah," dalam arti keakuratan narasi. Dilaporkan pula ada demo seorang profesor yang menulis turunan fungsi trigonometri yang benar secara matematis di papan tulis — ini menunjukkan bahwa mekanika tangan, tekanan kapur, dan urutan langkah logis semuanya dimodelkan secara konsisten.

TIPS dari sudut pandang kreator: Pemahaman fisika yang kuat berarti meskipun Anda tidak memberikan instruksi detail tentang "bagaimana sesuatu bergerak" dalam prompt, Anda tetap akan mendapatkan jatuhan, tumbukan, percikan air, serta kibaran rambut dan kain yang terlihat alami. Ini meringankan beban pembuat konten, sekaligus menjadi angin segar yang kuat untuk konten edukatif dan konten penjelasan. Untuk video produk, ada nilai lebih dalam memanfaatkan penggambaran fisika yang selama ini rawan gagal — seperti "cairan yang dituang ke dalam wadah hingga berbusa" atau "bola logam yang jatuh ke permukaan air dan menciptakan riak." Sebaliknya, jika Anda ingin sengaja melanggar fisika nyata (misalnya ekspresi berlebihan bergaya kartun), Anda perlu secara eksplisit menambahkan spesifikasi gaya — seperti "bergaya kartun" atau "mengabaikan gravitasi" — untuk menimpa "keseriusan" world model tersebut.

Integrasi Google Flow ―― Alat Pengeditan Profesional Menjadi "Percakapan"

Wajah profesional dari Omni adalah integrasinya ke dalam "Google Flow", studio produksi video generatif milik Google. Pada I/O 2026, Flow mendapat upgrade dalam empat poin: penambahan Gemini Omni Flash, penguatan besar pada Flow Agent, Flow Tools, dan Flow Music, serta aplikasi mobile. Inilah area di mana alur kerja kreator paling banyak berubah, sehingga perlu kita telaah dengan seksama.

Di pusatnya adalah Flow Agent. Ini adalah "asisten kreatif" yang dibangun dengan model Gemini, yang dalam ungkapan Google "merencanakan dan bernalar untuk tugas-tugas kompleks berdasarkan input Anda, di bawah kendali Anda." Secara konkret, ia mampu menyajikan draft dialog, mengusulkan plot, menghasilkan beberapa variasi secara bersamaan, mengedit aset secara massal (batch), serta melakukan rename dan pengorganisasian koleksi secara intuitif. Posisinya adalah sebagai mitra yang membawa "pemahaman mendalam tentang proyek" ke setiap tahap, mulai dari brainstorming hingga produksi dan pengeditan.

Flow Tools adalah mekanisme untuk menyusun alur kerja kustom dengan bahasa alami tanpa menulis kode, dan memungkinkan berbagi serta saling melakukan remix alat buatan sendiri dengan pengguna lain. Flow Music pun tak kalah powerful — berkat Omni, kini video musik bisa diarahkan melalui percakapan, dengan kemampuan pengeditan yang presisi seperti penulisan ulang lirik, pembuatan ulang bagian tertentu, dan transformasi gaya seluruh track sambil mempertahankan melodi dan struktur (style cover). Selain itu, aplikasi mobile tersedia untuk Flow maupun Flow Music, sehingga produksi saat bepergian pun bisa dilakukan.

Kuota penggunaan Flow dikelola dengan "Flow Credits" yang terkait dengan tingkatan harga. Berdasarkan angka yang dirangkum berbagai media: AI Plus mendapat Flow 200 / Flow Music 3.000, AI Pro 1.000 / 10.000, AI Ultra (5x) 10.000 / 30.000, dan AI Ultra (20x) 25.000 / 30.000 (harga dibahas di bab berikutnya).

TIPS dari sudut pandang kreator: Nilai sesungguhnya Flow Agent ada pada cara penggunaan "meminta beberapa opsi sekaligus lalu memilih." Daripada menggarap satu shot dengan satu opsi saja, lebih efisien untuk menghasilkan variasi pencahayaan dan sudut kamera sekaligus, lalu memilih yang terbaik sebelum menyempurnakannya melalui percakapan — hasilnya justru lebih cepat. Flow Tools sangat berguna jika Anda "menjadikan proses standar Anda (misalnya, pemotongan ke format vertikal 9:16 + teks berwarna brand) sebagai tool sekali pakai", karena bisa digunakan ulang oleh tim atau komunitas dan sangat efektif untuk proyek produksi massal. Fitur "transformasi gaya sambil mempertahankan melodi" di Flow Music sangat cocok untuk keperluan pemasaran yang membutuhkan versi berbeda dari lagu yang sama untuk segmen audiens yang berbeda.

Live Streaming Edit ―― Loop Pengeditan Baru yang Memahat Video dengan Percakapan

Dampak pengalaman terbesar yang diberikan Omni kepada para kreator adalah "pengeditan video menjadi semudah percakapan." Google bahkan menjadikan kalimat itu sebagai judul halaman perkenalan Omni: "Buat dan edit video seperti sedang berbincang." Inilah yang dalam artikel ini disebut sebagai "Live Streaming Edit" — sebuah loop pengeditan yang memahat gambar bergerak secara real-time melalui dialog yang bolak-balik.

Generasi video tradisional adalah "gacha (mesin slot)" di mana Anda melempar prompt lalu seluruh klip di-regenerasi dari awal. Di Omni, Anda cukup memberi instruksi dalam bahasa alami untuk memperbaiki sebagian scene saja. Panduan prompt resmi menjelaskan: "Anda bisa meminta Omni untuk melakukan pembaruan tertentu saja, seperti mengganti latar belakang atau menambahkan keterangan baru, tanpa perlu mem-prompt ulang seluruh scene" dan "video dipertahankan lintas beberapa kali revisi, menjaga bagian yang sudah berhasil." Instruksi setiap giliran menumpuk di atas giliran sebelumnya, dan pengeditan terus berjalan sambil menjaga konsistensi karakter, pencahayaan, dan objek. Satu ulasan yang menggambarkannya sebagai "perasaan sedang berbicara dengan kolaborator yang cerdas, bukan mengoperasikan mesin slot yang lebih canggih" — itulah yang merujuk pada nuansa bolak-balik ini.

Contoh nyata yang diperkenalkan oleh CineD sangat mudah dipahami. Cukup dengan berbicara, "Saat karakter menyentuh cermin, buat cermin itu beriak indah seperti cairan," hanya titik itu saja yang ditulis ulang sambil mempertahankan kesinambungan karakter dan logika scene. Bukan "mengambil ulang" gambar, melainkan "memperbaikinya lewat percakapan" — sensasi inilah yang sedang mengubah asumsi dasar pengeditan.

Namun, kehati-hatian yang tenang juga diperlukan. Konsistensi karakter lintas beberapa giliran pengeditan secara historis adalah titik lemah dalam kategori ini, dan CineD pun mengingatkan untuk "memverifikasi sebelum mengandalkannya pada proyek produksi nyata." Selain itu, jika prompt pengeditan ambigu, bagian yang tidak dimaksudkan pun bisa berubah — ini adalah jebakan yang sudah diketahui pengguna Nano Banana, dan TechCrunch pun mencatat peringatan yang sama.

TIPS dari perspektif kreator: Aturan besi untuk instruksi pengeditan adalah "spesifik, satu hal dalam satu waktu." Bukan "buat lebih bagus," melainkan sebutkan objek dan tujuannya secara eksplisit seperti "tambahkan cahaya balik dari jendela di pojok kiri belakang untuk memperkuat siluet karakter." Untuk gerakan kamera, terminologi sinematik lebih efektif — panduan resmi merekomendasikan kosakata seperti "push in," "dolly zoom," "locked off," "natural smartphone zoom," "webcam style," dan memberikan contoh instruksi kamera berurutan seperti "dari close-up sepatu, tilt up cepat ke medium shot, lalu melebar ke wide." Jika konsistensi mulai goyah, daripada memaksakan dengan percakapan, lebih cepat kembali ke frame terakhir yang berhasil atau gambar referensi dan menyusun ulang dari sana.

Project Astra ―― Menuju Asisten Visual yang Selalu Hadir

Sumbu kelima adalah "Project Astra" yang merupakan sistem terpisah dari Omni itu sendiri, namun berkaitan erat dengannya. Ini adalah prototipe riset yang dikembangkan oleh Google DeepMind menuju "asisten AI universal", yang bertujuan menjadi asisten yang selalu aktif dan mampu memahami dunia yang ditangkap kamera secara real-time, serta memproses percakapan dan penglihatan secara bersamaan. Perlu dicatat bahwa beberapa media asing dan blog menyebutnya "Project Astra 2.0", namun nama resmi di halaman resmi Google DeepMind tetap "Project Astra", dan "2.0" lebih merupakan sebutan umum yang mengacu pada kemampuan generasi yang lebih maju, bukan merek produk resmi. Dalam artikel ini, sebutan umum tersebut juga akan dicantumkan untuk kemudahan.

Dari sisi kemampuan, sistem ini memahami objek secara kontekstual sambil menunjukkan "target yang perlu diperhatikan saat ini" melalui highlight di layar, dan merespons secara langsung tanpa jeda waktu atau interupsi. Perilaku "proaktif (antisipatif)" yang memulai percakapan sendiri juga menjadi salah satu ciri khasnya. Terkait memori, sistem ini mempertahankan konteks lintas perangkat yang mencakup frame video terbaru dalam sesi, kueri masa lalu, dan mampu memanggil percakapan sebelumnya untuk optimasi individual. Standar "memori sekitar 10 menit dalam sesi" yang telah dibicarakan sejak demo awal diteruskan dalam bentuk yang lebih disempurnakan. Integrasi alat juga telah diimplementasikan, memungkinkan penyelesaian tugas atas nama pengguna mulai dari operasi Search, Gmail, Calendar, Maps, hingga kontrol antarmuka.

Sebagai target penggelaran, Google secara tegas menyatakan akan memperluas kemampuan Project Astra ke Gemini Live, pengalaman baru di Search, dan ke faktor bentuk baru berupa kacamata. Faktanya, beberapa fitur terbaru Gemini Live pertama kali dieksplorasi dalam Project Astra. Untuk eyewear, merek kacamata seperti Warby Parker dan Gentle Monster dilaporkan sebagai mitra, sementara untuk hardware XR, Samsung (Android XR) juga disebut sebagai mitra, dengan audio glasses Android XR dijadwalkan hadir "musim gugur ini". Untuk pengguna dengan gangguan penglihatan atau low vision, versi khusus juga sedang dikembangkan melalui kemitraan dengan layanan dukungan visual Aira.

TIPS dari perspektif kreator: Astra memiliki potensi untuk mengubah "pintu masuk" produksi video. Menangkap realitas secara langsung melalui kamera kacamata atau ponsel, lalu menjembatani subjek, lokasi, dan gerakan di lokasi tersebut sebagai "materi referensi" ke Omni — ketika loop "melihat → mengambil gambar → mengedit melalui percakapan" tersambung dalam satu alur, beban location scouting dan pengumpulan referensi akan berkurang secara signifikan. Saat ini Astra dan Omni masih berada di lapisan yang berbeda, namun ada nilai dalam memperhatikan arah integrasi ini yang akan berkembang dengan Gemini Live sebagai titik awalnya.

Harga dan Akses — dari YouTube gratis hingga Ultra seharga $200 per bulan

Di mana dan berapa biaya penggunaan Omni mengikuti struktur langganan Google AI yang diperbarui di I/O 2026. Sebagai pintu masuk gratis, pengguna berusia 18 tahun ke atas dapat mencoba Omni Flash secara gratis melalui fitur "Remix" di YouTube Shorts dan aplikasi YouTube Create. Untuk penggunaan penuh di aplikasi Gemini dan Google Flow, diperlukan salah satu paket berbayar Google AI.

Harga yang ditetapkan adalah AI Plus seharga $7,99/bulan (sekitar Rp130.000), AI Pro seharga $19,99/bulan (sekitar Rp325.000), sementara AI Ultra hadir dalam dua tingkatan: "Ultra 5x" dengan kuota penggunaan 5 kali lipat seharga $99,99/bulan (sekitar Rp1.625.000), dan "Ultra 20x" dengan kuota 20 kali lipat seharga $199,99/bulan (sekitar Rp3.250.000). Tingkatan tertinggi Ultra mengalami penurunan harga dari $250/bulan (sekitar Rp4.065.000) menjadi $200/bulan (sekitar Rp3.250.000), dan dengan ditambahkannya paket baru $100/bulan (sekitar Rp1.625.000) untuk kuota 5 kali lipat, pilihan di segmen atas pun semakin beragam. Ultra 5x mencakup penyimpanan cloud 20TB dan paket pribadi YouTube Premium. Bila dibaca bersama alokasi kredit Flow yang disinggung di bab sebelumnya, terlihat pembagian segmen yang jelas: Plus untuk "pengguna yang ingin mencoba", Pro untuk "lini praktis kreator individu", dan Ultra untuk "alur kerja produksi massal dan komersial".

Yang perlu diperhatikan dalam penggunaan komersial adalah tanda air digital yang selalu menyertai setiap output. Semua video yang dihasilkan oleh Omni akan disematkan tanda air digital tak terlihat milik Google bernama "SynthID", yang dapat diverifikasi melalui aplikasi Gemini, Gemini di Chrome, dan Search. Ini adalah spesifikasi yang tidak dapat dinonaktifkan (opt-out), dan pada API yang akan dibahas nanti, diperkirakan akan berstatus "wajib" — bukan sekadar "diizinkan" — bersamaan dengan Content Credentials dari C2PA. Meski sesuai dengan tuntutan sosial untuk mengidentifikasi konten buatan AI, hal ini dapat menjadi kendala bagi sebagian alur kerja komersial yang mensyaratkan output bersih, sehingga perlu diperhitungkan sejak tahap estimasi.

Bagaimana Silicon Valley Meliputnya — Posisi Seedance dan Sora

Respons Silicon Valley lebih berfokus pada "transformasi kualitatif pengalaman" daripada "kemewahan fitur". TechCrunch bahkan dari judulnya menekankan luasnya peta jalan dengan kalimat "Mengubah gambar, suara, dan teks menjadi video — dan ini baru permulaan". The Verge memperkenalkan Omni sebagai kelompok model baru yang bertujuan untuk "membuat segalanya", melepaskan diri dari batasan sempit generasi video sebelumnya. VentureBeat membahasnya sebagai model "any-to-any" dan mengupas daya disruptif alur kerja end-to-end bagi kalangan enterprise (pengiklan dan perusahaan produksi). CineD, yang ditujukan bagi para sineas, menyambut baik fitur yang memungkinkan avatar digital diri sendiri digerakkan dengan suara sendiri sebagai "penghematan waktu produksi", namun secara jernih mencatat bahwa Google sengaja menahan kebebasan pengeditan audio yang lebih luas — sebagai pertimbangan atas risiko manipulasi dialog.

Soal posisi terhadap pesaing, berbagai media juga realistis tanpa berlebihan. Ada konsensus bahwa pada hari peluncuran, model ini "belum yang terbaik dalam kualitas gambar"; beberapa artikel perbandingan menunjukkan bahwa Seedance 2.0 masih memimpin papan peringkat fidelitas, dan Sora 2 masih unggul dalam kasus fisik tertentu. Meski demikian, Omni tetap diapresiasi bukan karena unggul dalam persaingan kualitas gambar, melainkan karena membuka arena baru berupa pengalaman pengeditan yang terasa seperti "berbicara dengan kolaborator yang cerdas". TechCrunch mengangkat Luma AI (yang menghasilkan kampanye iklan dari ringkasan produk) sebagai pembanding sebagai startup yang membangun alur kerja kreatif multi-tahap berbasis agen, dan memposisikan Omni sebagai "langkah serius Google untuk pasar konsumen".

Ketegangan antara "dua wajah" — untuk konsumen dan untuk bisnis — juga menjadi pokok bahasan. Di satu sisi, Google menarik konsumen dengan avatar sebagai "meme yang dipersonalisasi" untuk membuat adegan perjalanan ke bulan atau momen kemenangan sendiri; di sisi lain, Brichtova menekankan nilai akurasi penampilan teks (text-rendering) dalam iklan, yang mengisyaratkan keseriusan di ranah enterprise. Perlu dicatat bahwa beredar pula laporan yang tidak dapat dikonfirmasi kebenarannya mengenai status operasional sebagian layanan pesaing; tulisan ini membatasi diri hanya pada fakta-fakta yang telah terverifikasi.

Wajib Dimiliki Kreator ―― Cara Merancang Prompt dan Menciptakan Konsistensi

Saya ingin merangkum berbagai pembahasan yang telah dilakukan sejauh ini menjadi "pola" yang efektif dalam produksi nyata. Yang terus-menerus ditekankan oleh panduan prompt resmi Google DeepMind adalah filosofi bahwa "Anda tidak perlu memberi terlalu banyak instruksi kepada Omni." Dalam ungkapan resminya, "sampaikan apa yang ingin Anda buat, lalu saksikan penalaran model dan pengetahuan duniawinya membangun detailnya." Prompt yang baik adalah yang "terbaca seperti briefing yang jelas kepada kolaborator yang andal, bukan seperti kontrak hukum."

Lebih lanjut, panduan resmi menyebutkan, sebagai sumbu kontrol yang ingin dikendalikan: framing dan pergerakan kamera (wide/medium/close-up), gaya (realistis/sinematik, membumi/agung), pencahayaan (tajam/hangat/ethereal), lokasi, dan aksi. Dari verifikasi komunitas, prompt yang menjawab empat hal — "apa yang dibuat / input mana yang digunakan / apa yang ingin dijaga konsistensinya / video ini pada akhirnya digunakan untuk apa" — terbukti stabil, dan kabarnya di dalam Google pun dibagikan bahwa "pengguna yang menguasai enam dimensi mendapatkan output yang jauh lebih baik." Ini bukan sekadar saran, melainkan pengetahuan praktis yang membedakan antara "menggunakan model" dan "menguasai model."

Cara menciptakan konsistensi, seperti yang telah berulang kali dibahas dalam tulisan ini, bermuara pada "lampirkan referensi, dan rancang karakter sebelum memanggilnya." Baik dengan materi nyata maupun yang dibuat dengan Nano Banana, cukup berikan satu referensi dan Anda dapat menggunakannya kembali lintas scene. Saat menggunakan avatar, terdapat onboarding khusus untuk mencegah deepfake, di mana pengguna diminta membuat rekaman diri sendiri yang membacakan serangkaian angka — prosedur tambahan ini sebaiknya dipahami sebagai desain keamanan yang menjamin "keaslian identitas" dalam penggunaan komersial. Dalam pengeditan akhir, cukup patuhi tiga poin ini: "spesifik, satu per satu," gunakan terminologi sinematografi untuk kamera, dan jika berantakan kembalilah ke frame sukses terakhir — hanya dengan ini, tingkat keberhasilan saat produksi massal akan berubah secara signifikan.

Apa yang akan terjadi selanjutnya ―― API・Omni Pro・Output Gambar/Suara・Kacamata

Terakhir, berikut adalah rangkuman pergerakan ke depan yang terlihat pada awal Juni 2026, disusun berdasarkan tingkat kepastiannya. Yang paling dekat adalah penyediaan API untuk pengembang dan perusahaan — Google telah mengumumkan "dalam beberapa minggu ke depan," dan berbagai media memperkirakan layanan akan mulai tersedia pada pertengahan hingga akhir Juni. Jalur aksesnya diperkirakan akan terbagi dua: Gemini API untuk pengembang individu, dan Vertex AI untuk kalangan korporat. Dilaporkan bahwa API pada saat peluncuran akan mendukung input teks/gambar/audio/video dengan output berupa video, pengeditan percakapan multi-giliran, serta avatar AI, dan setiap output wajib disertai SynthID dan C2PA Content Credentials.

Dalam jangka menengah, perluasan modalitas output telah dijanjikan. Meskipun Omni dimulai "dari video terlebih dahulu," Google secara eksplisit menyatakan akan memperluas kemampuan ke output gambar, teks (bahkan audio) secara bertahap, dan TechCrunch menyampaikan visi ke depan berupa "menghasilkan gambar dari audio, dan audio dari video." Perpanjangan durasi klip (batas saat ini 10 detik) serta peningkatan resolusi juga sedang dalam pengembangan. Perlu dicatat secara tepat tanpa berlebihan bahwa batas 10 detik ini bukan merupakan keterbatasan arsitektur, melainkan keputusan produk yang diambil "agar dapat segera menjangkau lebih banyak orang."

Berikutnya yang ditunggu adalah model tingkat atas, Gemini Omni Pro. Model ini akan diluncurkan ketika terdapat perbedaan yang dapat disebut sebagai "step change (lompatan bertahap)" dibandingkan Flash, dan belum ada jadwal yang jelas. Berbagai media memperkirakan kemungkinan besar model ini akan tersedia terlebih dahulu melalui tier AI Ultra baru seharga $100 per bulan, disertai perpanjangan durasi klip dan peningkatan resolusi. Secara paralel, Gemini seri 3.5 yang menjadi otak di balik Omni juga terus berkembang. Gemini 3.5 Flash yang diperkenalkan di I/O menjadi model default untuk aplikasi dan AI Mode, sementara Gemini 3.5 Pro tingkat atas dijadwalkan untuk diluncurkan pada bulan berikutnya (Juni 2026). Dari sisi form factor, Android XR Audio Glass yang disebutkan sebelumnya dijadwalkan hadir "musim gugur ini," dan bagaimana visi permanen Project Astra serta pembuatan dan pengeditan Omni akan saling terhubung menjadi titik perhatian berikutnya.

Secara keseluruhan, empat tonggak berikutnya yang perlu diperhatikan oleh para kreator Silicon Valley adalah: (1) ledakan integrasi alat melalui pembukaan API pada akhir Juni, (2) momen ketika any-to-any semakin mendekati sempurna seiring perluasan ke output gambar/audio, (3) penghapusan batasan durasi dan resolusi melalui Omni Pro, dan (4) apakah loop "ambil gambar lalu langsung edit" akan terwujud seiring peluncuran kacamata di musim gugur. Omni memang bukan raja kualitas gambar sejak hari pertama. Namun hal itu justru mencerminkan strategi Google yang lebih dulu mengklaim arena "bagaimana berinteraksi dengan video," bukan sekadar kualitas gambar.