Tất cả về Gemini Omni

**Gemini Omni** được Google công bố tại **I/O 2026 ngày 19 tháng 5 năm 2026** là mô hình thế hệ mới đa phương thức gốc (native multimodal), có khả năng tạo ra một video hoàn chỉnh từ bất kỳ đầu vào nào — hình ảnh, âm thanh, video hay văn bản. Mô hình này tích hợp Veo, Imagen và tính năng tạo giọng nói vào một stack duy nhất, hoạt động như một "mô hình thế giới" (world model) tích hợp sẵn các quy luật vật lý như trọng lực và chất lỏng, từ đó mang lại trải nghiệm chỉnh sửa video thông qua hội thoại tự nhiên. Bài viết này, từ góc nhìn của một nhà sáng tạo nội dung tại Silicon Valley, sẽ phân tích chuyên sâu Omni theo năm trục chính: suy luận đa phương thức hai chiều đồng thời, trí tuệ vật lý, tích hợp Google Flow, Project Astra, chỉnh sửa trực tiếp (live editing) — cùng với các TIPS thực tiễn

Gemini Omni là gì ―― I/O 2026 cho thấy "thế hệ tiếp theo sau Veo"

Trước tiên, hãy nắm bắt bức tranh tổng thể. Gemini Omni là mô hình tạo và chỉnh sửa video được Sundar Pichai — CEO Google — và Google DeepMind giới thiệu như chủ đề trọng tâm trong bài phát biểu khai mạc Google I/O 2026, khai mạc ngày 19 tháng 5 năm 2026. Thông báo chính thức của Google tóm gọn trong một câu: "Mô hình có thể tạo ra bất cứ thứ gì từ bất kỳ đầu vào nào — bắt đầu với video (create anything from any input — starting with video)". Phiên bản nhẹ và nhanh hơn mang tên "Gemini Omni Flash" là sản phẩm đầu tiên được ra mắt cho công chúng, triển khai trên toàn cầu ngay trong cùng ngày.

Điều quan trọng cần nhấn mạnh ở đây là Omni không đơn thuần là "phiên bản mới của một công cụ tạo video". Trước đây, các sản phẩm AI tạo sinh của Google được phân chia theo từng chức năng riêng biệt: video là Veo, hình ảnh là Imagen, âm thanh lại là một nhánh khác. Omni hợp nhất tất cả vào một mô hình duy nhất, kết hợp "trí tuệ (suy luận và tri thức về thế giới)" của Gemini với "khả năng dựng hình (rendering)" của các mô hình media. Nicole Brichtova, Giám đốc quản lý sản phẩm của DeepMind, giải thích với TechCrunch rằng đây là "bước tiếp theo trong hành trình kết hợp trí tuệ của Gemini với khả năng rendering của các mô hình media của chúng tôi". Bài viết chính thức trên blog được chấp bút bởi Koray Kavukcuoglu — CTO của DeepMind kiêm Kiến trúc sư AI trưởng của Google.

Một ví dụ cụ thể sẽ giúp làm rõ điều này. Trong bản demo mà Kavukcuoglu trình bày, chỉ cần ra lệnh "Hãy giải thích quá trình gấp protein bằng hoạt hình đất sét (clay animation)", hệ thống lập tức tạo ra một video stop-motion hoàn chỉnh kèm theo lời dẫn âm thanh chính xác. Từ một bức ảnh duy nhất, người dùng có thể biến nó thành video, hoặc chỉnh sửa ảnh bằng văn bản — trải nghiệm gần giống với mô hình chỉnh sửa hình ảnh "Nano Banana" của Google. Nói cách khác, Omni hoạt động như một cộng sự: bạn đưa vào nguyên liệu, nó suy nghĩ rồi trả về một thước phim hoàn chỉnh.

Pichai định vị hướng đi này như một bước ngoặt lịch sử của AI. Theo lời ông: "Nhờ các mô hình thế giới, AI đang chuyển dịch từ giai đoạn dự đoán văn bản sang giai đoạn mô phỏng thực tại". Câu nói này chính là xương sống để hiểu Omni. Dưới đây, chúng ta sẽ lần lượt đào sâu vào năm luận điểm mà những người sáng tạo nội dung cần nắm vững.

Suy luận đa phương thức hai chiều và đồng thời ―― Suy nghĩ về "tất cả những gì được dán vào" cùng một lúc

Lõi kỹ thuật của Omni là tính "đa phương thức bản địa" (native multimodal). Thay vì phân chia các loại dữ liệu khác nhau — văn bản, hình ảnh, âm thanh, video — thành các bước riêng lẻ rồi ghép nối (stitch) lại, một mạng nơ-ron trung tâm duy nhất sẽ đồng thời xử lý tất cả trong cùng một forward pass (một lượt suy luận). Với phương thức truyền tiếp truyền thống kiểu "chuyển đầu ra của mô hình văn bản sang mô hình media", ngữ cảnh thường bị mất tại ranh giới giữa các modality và các điểm nối dễ xuất hiện artifact (lỗi vỡ). Omni đã xóa bỏ chính ranh giới đó.

Lợi ích thực tiễn với các nhà sáng tạo nằm trực tiếp ở "mức độ tự do của tài liệu tham chiếu (reference)". Theo cách diễn đạt của Google, "Omni chuyển đổi bất kỳ tài liệu tham chiếu nào — hình ảnh, văn bản, video, âm thanh — thành một đầu ra thống nhất". Bạn có thể lấy một ảnh tĩnh để định hình ngoại hình nhân vật, một đoạn video khác để lấy sắc thái chuyển động, một mẫu âm thanh để tạo mood, và văn bản để đưa ra chỉ dẫn — tất cả gộp vào một prompt duy nhất. Mô hình suy luận dựa trên tất cả những yếu tố đó và trả về một video phản ánh toàn bộ các yếu tố đầu vào. Đây chính là bản chất của "hai chiều, đồng thời". Không chỉ đầu vào là đa phương thức, mà đầu ra trong tương lai cũng sẽ trở nên đa phương thức (sẽ đề cập sau) — theo đúng nghĩa đen, hướng tới any-to-any.

Tuy nhiên, tại thời điểm hiện tại (đầu tháng 6 năm 2026), đầu vào âm thanh mới chỉ bắt đầu với "voice reference (tham chiếu giọng nói)", và các loại đầu vào âm thanh khác sẽ được triển khai dần dần — điều này được ghi rõ trong thông báo chính thức. Đây là điểm cần nắm chính xác, không nên phóng đại.

TIPS từ góc nhìn nhà sáng tạo: Điều mà các xác minh prompt chính thức và từ nhiều phương tiện truyền thông đều đồng thuận là nguyên tắc vàng: "hãy đính kèm tài liệu tham chiếu càng nhiều càng tốt". Một prompt chỉ có văn bản buộc mô hình phải tự sáng tạo visual identity từ đầu, và càng qua nhiều lượt chỉnh sửa thì tính ngẫu nhiên càng tích lũy. Ngược lại, chỉ cần cung cấp một trong số — ảnh tham chiếu, clip dành cho motion, hay track âm thanh — là độ ổn định của đầu ra sẽ tăng lên đáng kể. Nếu muốn cố định nhân vật, cách làm đang dần trở thành chuẩn mực là dùng Nano Banana (mô hình hình ảnh) để tạo trước một "ảnh thiết lập" nhân vật, rồi dùng ảnh đó làm tham chiếu cho tất cả các cảnh. Một khi đã thiết kế xong một nhân vật, bạn có thể triệu hồi họ vào bất kỳ cảnh nào về sau — tư duy "thiết kế rồi triệu hồi" này đang trở thành nền tảng cơ bản trong cách vận hành nhân vật thời đại Omni.

Trí tuệ động cơ vật lý ―― "Mô hình thế giới" thay đổi nhận thức về hình ảnh

Lý do lớn nhất khiến Omni được gọi là thế hệ kế tiếp chứ không phải "phiên bản mở rộng của Veo" nằm ở khả năng hiểu các quy luật vật lý. Mô tả chính thức của Google nêu rằng Omni được trang bị "hiểu biết trực quan được cải thiện về các lực như trọng lực, động năng và thủy động lực học", đồng thời "kết hợp hiểu biết trực quan về vật lý với kiến thức của Gemini về lịch sử, khoa học và bối cảnh văn hóa". Tại bài phát biểu khai mạc, CEO của DeepMind, Demis Hassabis, đã giới thiệu Omni như một "mô hình thế giới (world model)" — một hệ thống xây dựng sự hiểu biết nội tại về thực tại và suy luận về những gì sẽ xảy ra tiếp theo trong một cảnh nhất định.

Tại sao điều này lại hiệu quả? Phương pháp tạo video truyền thống chủ yếu dự đoán "khung hình tiếp theo" bằng cách khớp mẫu trên lượng lớn pixel. Dù trông có vẻ hợp lý, nhưng hành vi lại thiếu nhất quán. Các nhân vật biến dạng (morphing) giữa các cảnh quay, bóng tối bỏ qua nguồn sáng, nước chảy như texture thay vì như vật chất thực — những ví dụ điển hình như nước đài phun chảy ngược chiều lên trên hay vật thể xuyên qua tường trong Sora giai đoạn đầu là minh chứng rõ ràng. Omni được mô tả là không chỉ đoán "pixel tiếp theo" mà tích hợp trực tiếp vào quá trình tạo sinh một khung vật lý về cách các lực hoạt động.

Các bản demo cụ thể rất thuyết phục. Ví dụ điển hình được nhiều phương tiện truyền thông đưa tin là đoạn clip "viên bi thủy tinh (marble)", trong đó một viên bi lăn xuống một đường đua phức tạp kiểu máy Rube Goldberg, và mỗi lần nảy hay chuông reo đều kèm theo hiệu ứng âm thanh được đồng bộ. Một bài đánh giá nhận xét "vật lý của quả bóng thực sự đáng tin cậy". Bản demo hoạt hình đất sét giải thích về protein của ông Kavukcuoglu cũng là ví dụ điển hình về "tạo sinh có nền tảng kiến thức khoa học" theo nghĩa độ chính xác của lời thuyết minh. Bản demo về một giáo sư viết lên bảng đen các bước suy luận hàm lượng giác chính xác về mặt toán học cũng được đưa tin, cho thấy mô hình hóa nhất quán đến cả cơ học của bàn tay, lực ấn phấn và thứ tự các bước logic.

TIPS từ góc nhìn nhà sáng tạo: Khả năng hiểu vật lý mạnh có nghĩa là ngay cả khi không cần hướng dẫn chi tiết trong prompt về "cách chuyển động", bạn vẫn nhận được kết quả với sự rơi, va chạm, bắn nước, tóc và vải phất phơ tự nhiên. Điều này vừa giảm gánh nặng cho người làm, vừa là lợi thế lớn cho nội dung giáo dục và giải thích. Với video sản phẩm, đáng để khai thác các cảnh mô tả vật lý từng dễ bị lỗi như "chất lỏng được đổ vào bình và sủi bọt" hay "quả cầu kim loại rơi xuống mặt nước tạo ra gợn sóng". Ngược lại, nếu bạn muốn cố tình phá vỡ vật lý thực tế (ví dụ như phóng đại kiểu hoạt hình), bạn cần thêm rõ ràng chỉ định phong cách (như "phong cách cartoon", "bỏ qua trọng lực") để ghi đè "sự nghiêm túc" của mô hình thế giới.

Google Flow Tích hợp ―― Công cụ chỉnh sửa chuyên nghiệp trở thành "cuộc trò chuyện"

Bộ mặt chuyên nghiệp của Omni chính là sự tích hợp vào "Google Flow" — studio sản xuất video bằng AI tạo sinh của Google. Tại I/O 2026, Flow được nâng cấp trên bốn điểm: tích hợp Gemini Omni Flash, cùng với các cải tiến lớn về Flow Agent, Flow Tools, Flow Music và ứng dụng di động. Đây là lĩnh vực mà quy trình làm việc của các nhà sáng tạo thay đổi nhiều nhất, nên hãy cùng xem xét kỹ lưỡng.

Trung tâm của tất cả là Flow Agent — một "trợ lý sáng tạo" được xây dựng trên mô hình Gemini, mà theo cách diễn đạt của Google là "lập kế hoạch và suy luận cho các tác vụ phức tạp dựa trên đầu vào của bạn, dưới sự kiểm soát của bạn". Cụ thể, nó có thể đề xuất lời thoại, gợi ý cốt truyện, tạo nhiều biến thể cùng lúc, chỉnh sửa hàng loạt (batch) tài sản, cũng như đổi tên và sắp xếp bộ sưu tập một cách trực quan. Đây được định vị như một người đồng hành mang đến "hiểu biết sâu sắc về dự án" trong từng giai đoạn từ brainstorming đến sản xuất và chỉnh sửa.

Flow Tools là cơ chế xây dựng quy trình làm việc tùy chỉnh bằng ngôn ngữ tự nhiên mà không cần viết code, cho phép chia sẻ và remix các công cụ tự tạo với người dùng khác. Flow Music cũng rất mạnh mẽ — Omni cho phép dàn dựng video âm nhạc qua hội thoại, với các chỉnh sửa chi tiết như viết lại lời bài hát, làm lại các đoạn cụ thể, và chuyển đổi phong cách toàn bộ track (style cover) trong khi vẫn giữ nguyên giai điệu và cấu trúc. Cả Flow và Flow Music đều có ứng dụng di động, hỗ trợ sáng tạo khi đang di chuyển.

Hạn mức sử dụng Flow được quản lý bằng "Flow Credits" gắn với các bậc giá. Theo số liệu tổng hợp từ các phương tiện truyền thông, AI Plus nhận 200 Flow Credits / 3.000 Flow Music Credits, AI Pro nhận 1.000 / 10.000, AI Ultra (5x) nhận 10.000 / 30.000, và AI Ultra (20x) nhận 25.000 / 30.000 (giá cụ thể sẽ đề cập ở chương tiếp theo).

TIPS từ góc nhìn nhà sáng tạo: Giá trị thực sự của Flow Agent nằm ở cách dùng "tạo nhiều phương án cùng lúc rồi chọn lọc". Thay vì chỉ mài giũa một phương án cho một cảnh, hãy tạo hàng loạt biến thể về ánh sáng và góc máy, chọn ra cái đạt, rồi mới tinh chỉnh qua hội thoại — cách này nhanh hơn về tổng thể. Flow Tools rất hữu ích khi bạn đóng gói "các xử lý thường dùng (ví dụ: cắt sang định dạng dọc 9:16 + chèn tiêu đề màu thương hiệu)" thành công cụ một lần, để đội nhóm hoặc cộng đồng có thể tái sử dụng — hiệu quả đặc biệt trong các dự án sản xuất hàng loạt. Tính năng "chuyển đổi phong cách trong khi giữ nguyên giai điệu" của Flow Music rất phù hợp cho mục đích marketing, khi cần tạo ra các phiên bản khác nhau của cùng một bài nhạc nhắm đến từng nhóm đối tượng mục tiêu.

Chỉnh sửa phát trực tiếp —— Vòng lặp chỉnh sửa mới, điêu khắc hình ảnh bằng hội thoại

Tác động trải nghiệm lớn nhất mà Omni mang lại cho các nhà sáng tạo là "chỉnh sửa video trở nên dễ dàng như trò chuyện". Google đặt tiêu đề trang giới thiệu Omni là "Tạo và chỉnh sửa video như đang trò chuyện". Đây chính là "Live Streaming Edit" mà bài viết này đề cập — vòng lặp chỉnh sửa theo thời gian thực, điêu khắc hình ảnh qua những trao đổi qua lại liên tục.

Video sinh thành truyền thống vốn là trò "gacha (máy đánh bạc)" — ném prompt vào rồi tái tạo toàn bộ clip từ đầu. Với Omni, người dùng có thể chỉ thị bằng ngôn ngữ tự nhiên để sửa một phần cụ thể của cảnh quay. Hướng dẫn prompt chính thức giải thích: "Bạn chỉ cần nhờ Omni thực hiện những cập nhật cụ thể như thay đổi nền hoặc thêm caption mới, không cần phải prompt lại toàn bộ cảnh" và "giữ nguyên video qua nhiều lần chỉnh sửa, bảo toàn những phần đang hoạt động tốt". Mỗi chỉ thị trong từng lượt được tích lũy lên lượt trước, quá trình chỉnh sửa tiến hành trong khi vẫn duy trì tính nhất quán của nhân vật, ánh sáng và vật thể. Có một bài đánh giá mô tả cảm giác này là "như đang nói chuyện với một cộng tác viên thông minh, chứ không phải vận hành một cỗ máy đánh bạc tinh vi hơn" — đó chính là cảm nhận về những trao đổi qua lại ấy.

Ví dụ thực tế mà CineD giới thiệu rất dễ hiểu. Chỉ cần nói "khi nhân vật chạm vào gương, hãy làm gương gợn sóng đẹp như chất lỏng", chỉ duy nhất điểm đó được viết lại trong khi vẫn bảo toàn tính liên tục của nhân vật và logic của cảnh quay. "Sửa bằng trò chuyện" thay vì "quay lại từ đầu" — cảm giác này đang dần thay đổi tiền đề của việc chỉnh sửa.

Tuy nhiên, cần có cái nhìn thận trọng. Tính nhất quán của nhân vật qua nhiều lượt chỉnh sửa vốn là điểm yếu lịch sử trong danh mục này, và CineD cũng lưu ý "cần kiểm chứng trước khi tin dùng cho dự án thực tế". Ngoài ra, nếu prompt chỉnh sửa mơ hồ, những vị trí ngoài ý muốn cũng có thể bị thay đổi — đây là cạm bẫy mà người dùng Nano Banana đã biết, và TechCrunch cũng nêu ra cùng cảnh báo tương tự.

TIPS từ góc nhìn nhà sáng tạo: Nguyên tắc vàng cho chỉ thị chỉnh sửa là "cụ thể, từng việc một lần". Thay vì "làm đẹp hơn", hãy nêu rõ đối tượng và mục tiêu như "thêm ánh ngược sáng từ cửa sổ phía sau bên trái, làm nổi bật đường viền nhân vật". Với chuyển động máy quay, thuật ngữ điện ảnh rất hiệu quả — hướng dẫn chính thức khuyến nghị các từ vựng như "push in", "dolly zoom", "locked off", "natural smartphone zoom", "webcam style", và nêu ví dụ về chỉ thị máy quay liên tục như "cận cảnh đôi giày rồi tilt up nhanh lên medium shot, sau đó mở rộng ra wide shot". Khi tính nhất quán bắt đầu bị phá vỡ, thay vì cố gắng sửa bằng hội thoại, hãy quay lại frame thành công cuối cùng hoặc ảnh tham chiếu để xây dựng lại — cách đó sẽ nhanh hơn.

Project Astra ―― Trợ lý thị giác thường trú

Trục thứ năm là "Project Astra" — một hệ thống hoạt động độc lập nhưng liên kết chặt chẽ với Omni. Đây là nguyên mẫu nghiên cứu do Google DeepMind phát triển hướng tới một "trợ lý AI toàn năng", với mục tiêu tạo ra một trợ lý thường trú có khả năng hiểu thế giới qua camera theo thời gian thực, xử lý đồng thời cả hội thoại lẫn thị giác. Một số phương tiện truyền thông và blog nước ngoài gọi đây là "Project Astra 2.0", nhưng cần lưu ý rằng tên chính thức trên trang của Google DeepMind vẫn là "Project Astra" — "2.0" lưu hành như một tên gọi thông thường chỉ thế hệ năng lực mới hơn, chứ không phải nhãn hiệu sản phẩm chính thức. Trong bài viết này, chúng tôi cũng sẽ dùng kèm tên gọi thông thường đó để tiện tham chiếu.

Về năng lực, hệ thống có thể hiểu đối tượng theo ngữ cảnh bằng cách dùng highlight trên màn hình để chỉ ra "điều cần chú ý ngay lúc này", đồng thời phản hồi tức thì mà không có độ trễ hay gián đoạn. Một đặc điểm nổi bật khác là hành vi "chủ động (proactive)" — tự mình khởi xướng hội thoại. Về bộ nhớ, trong một phiên làm việc, hệ thống lưu giữ các khung hình gần nhất, các truy vấn trước đó và ngữ cảnh xuyên thiết bị, cho phép gọi lại các cuộc hội thoại cũ để cá nhân hóa phản hồi. Tiêu chuẩn "khoảng 10 phút bộ nhớ trong một phiên" được đề cập từ các bản demo đầu tiên nay được kế thừa dưới hình thức tinh tế hơn. Tích hợp công cụ cũng đã được triển khai, cho phép thực hiện các thao tác trên Search, Gmail, Calendar, Maps và điều khiển giao diện — hoàn thành tác vụ thay cho người dùng.

Về phạm vi triển khai, Google tuyên bố rõ ràng rằng họ sẽ mở rộng năng lực của Project Astra sang Gemini Live, trải nghiệm mới trên Search, và một form factor mới là kính mắt thông minh. Trên thực tế, một số tính năng mới nhất của Gemini Live đã được khám phá lần đầu trong Project Astra. Trong lĩnh vực kính mắt, các thương hiệu như Warby Parker và Gentle Monster được đưa tin là đối tác; trong mảng phần cứng XR, Samsung (Android XR) cũng được đề cập, với kính âm thanh Android XR dự kiến ra mắt "mùa thu này". Một phiên bản chuyên biệt cũng đang được phát triển cho người dùng khiếm thị và nhược thị, thông qua hợp tác với dịch vụ hỗ trợ thị giác Aira.

TIPS từ góc nhìn nhà sáng tạo nội dung: Astra có tiềm năng thay đổi "điểm khởi đầu" trong quy trình sản xuất video. Bằng cách dùng camera của kính hoặc điện thoại để thu lại thực tế trực tiếp, rồi chuyển tiếp chủ thể, địa điểm và chuyển động tại chỗ sang Omni như "tư liệu tham chiếu" — khi vòng lặp "nhìn → quay → chỉnh sửa qua hội thoại" được kết nối liền mạch, công sức khảo sát địa điểm và thu thập tài liệu tham khảo sẽ giảm đi đáng kể. Hiện tại Astra và Omni vẫn là hai lớp riêng biệt, nhưng định hướng xây dựng sự liên kết này với Gemini Live làm điểm khởi đầu là điều đáng để theo dõi.

Giá cả và quyền truy cập ―― Từ YouTube miễn phí đến Ultra 200 đô la mỗi tháng

Omni có thể được sử dụng ở đâu và với mức giá bao nhiêu phụ thuộc vào hệ thống đăng ký Google AI được cải tổ tại I/O 2026. Đầu tiên, như một điểm vào miễn phí, người dùng từ 18 tuổi trở lên có thể dùng thử Omni Flash miễn phí thông qua tính năng "Remix" trên YouTube Shorts và ứng dụng YouTube Create. Để sử dụng đầy đủ trên ứng dụng Gemini và Google Flow, cần có một trong các gói trả phí của Google AI.

Về giá cả, AI Plus là 7,99 USD/tháng (khoảng 1.200 yên), AI Pro là 19,99 USD/tháng (khoảng 3.100 yên), còn AI Ultra cao cấp hơn có cấu trúc hai tầng: "Ultra 5x" với hạn mức sử dụng gấp 5 lần là 99,99 USD/tháng (khoảng 15.500 yên), và "Ultra 20x" với hạn mức gấp 20 lần là 199,99 USD/tháng (khoảng 31.000 yên). Mức cao nhất của Ultra đã được giảm giá từ 250 USD/tháng (khoảng 38.800 yên) xuống còn 200 USD/tháng (khoảng 31.000 yên), và cùng với việc bổ sung gói 100 USD/tháng (khoảng 15.500 yên) ở mức 5x, các lựa chọn ở phân khúc cao cấp đã được mở rộng. Ultra 5x bao gồm 20TB lưu trữ đám mây và gói cá nhân YouTube Premium. Khi đọc kết hợp với phân bổ Flow credit đã đề cập ở chương trước, có thể thấy sự phân tầng rõ ràng: Plus dành cho "nhóm dùng thử", Pro là "ngưỡng thực dụng cho creator cá nhân", còn Ultra dành cho "quy trình làm việc sản xuất hàng loạt và thương mại".

Điều cần đặc biệt chú ý trong sử dụng thương mại là hình mờ điện tử (watermark) luôn xuất hiện trong đầu ra. Tất cả video được tạo bởi Omni đều được nhúng hình mờ điện tử vô hình của Google là "SynthID", có thể xác minh trên ứng dụng Gemini, Gemini trên Chrome và Search. Đây là thiết kế không thể tắt (opt-out), và trong API đề cập ở phần sau, cùng với Content Credentials của C2PA, tính năng này được dự kiến sẽ là "bắt buộc" chứ không phải "tùy chọn". Tuy điều này phù hợp với yêu cầu xã hội về việc nhận diện sản phẩm do AI tạo ra, nhưng đây có thể là một hạn chế đối với một số quy trình làm việc thương mại yêu cầu đầu ra sạch — điểm này cần được tính đến ngay từ giai đoạn lập dự toán.

Silicon Valley đưa tin như thế nào ―― Vị thế của Seedance và Sora

Phản ứng của Thung lũng Silicon tập trung vào "sự chuyển đổi chất lượng trải nghiệm" hơn là "sự hoành tráng của tính năng". TechCrunch ngay từ tiêu đề đã nhấn mạnh sự mở rộng của lộ trình: "Biến hình ảnh, âm thanh và văn bản thành video — và đây mới chỉ là khởi đầu". The Verge giới thiệu Omni như một dòng mô hình mới nhắm tới việc "tạo ra mọi thứ", thoát khỏi những ràng buộc hẹp hòi của các công cụ tạo video trước đây. VentureBeat thảo luận về sức mạnh phá vỡ quy trình làm việc end-to-end đối với doanh nghiệp (nhà quảng cáo, công ty sản xuất) với tư cách là mô hình "any-to-any". CineD — trang dành cho các nhà làm phim — hoan nghênh tính năng điều khiển avatar kỹ thuật số của bản thân bằng giọng nói của chính mình như một "giải pháp tiết kiệm thời gian sản xuất", đồng thời ghi nhận một cách tỉnh táo rằng Google đang cố tình giữ lại khả năng chỉnh sửa âm thanh rộng hơn — một sự cân nhắc trước rủi ro thay đổi lời thoại.

Về vị thế so với đối thủ cạnh tranh, các phương tiện truyền thông cũng thực tế, tránh thổi phồng quá mức. Đánh giá chung tại thời điểm phát hành là mô hình "chưa đạt chất lượng hình ảnh cao nhất", với nhiều bài viết so sánh chỉ ra rằng Seedance 2.0 vẫn dẫn đầu bảng xếp hạng độ trung thực, và Sora 2 vẫn mạnh trong một số trường hợp vật lý cụ thể. Dù vậy, Omni vẫn được đánh giá cao vì đã mở ra một sân chơi mới — trải nghiệm chỉnh sửa mang cảm giác "đối thoại với một cộng tác viên thông minh" — thay vì cuộc đua về chất lượng hình ảnh. TechCrunch lấy Luma AI (tạo chiến dịch quảng cáo từ bản tóm tắt sản phẩm) làm đối tượng so sánh như một startup xây dựng quy trình sáng tạo đa bước kiểu agentic, và định vị Omni là "nước đi nghiêm túc của Google nhắm vào người tiêu dùng".

Căng thẳng giữa "hai bộ mặt" — hướng người tiêu dùng và hướng doanh nghiệp — cũng là một điểm tranh luận. Google tiếp cận người tiêu dùng với avatar như những "meme được cá nhân hóa" để tự tạo cảnh du lịch mặt trăng hay khoảnh khắc đoạt giải thưởng, trong khi Brichtova nhấn mạnh giá trị của độ chính xác hiển thị văn bản (text-rendering) trong quảng cáo, cho thấy sự nghiêm túc ở phân khúc doanh nghiệp. Cần lưu ý rằng một số thông tin về tình trạng hoạt động của một số dịch vụ cạnh tranh đang lưu hành mà chưa được xác minh từ nguồn gốc; bài viết này chỉ giới hạn ở những sự kiện đã được kiểm chứng.

Dành cho người sáng tạo ―― Cách thiết kế prompt và tạo ra sự nhất quán

Tôi muốn tổng hợp lại các luận điểm đã trình bày thành những "khuôn mẫu" có thể ứng dụng hiệu quả trong thực tế sản xuất. Điều mà hướng dẫn prompt chính thức của Google DeepMind nhấn mạnh lặp đi lặp lại là triết lý: "Không cần chỉ thị quá nhiều cho Omni." Theo cách diễn đạt chính thức: "Hãy cho mô hình biết bạn muốn tạo ra gì, rồi để quá trình suy luận và tri thức về thế giới của mô hình tự dựng lên các chi tiết." Một prompt tốt phải "đọc như một bản briefing rõ ràng gửi đến cộng sự tài năng, chứ không phải như một hợp đồng pháp lý."

Dựa trên đó, hướng dẫn chính thức liệt kê các trục kiểm soát gồm: framing và chuyển động của cảnh quay (wide/medium/close-up), phong cách (thực tế/điện ảnh, gần gũi/hùng tráng), ánh sáng (sắc nét/ấm áp/ethereal), bối cảnh, và hành động. Qua kiểm chứng từ cộng đồng, những prompt trả lời được bốn câu hỏi — "Tạo ra gì / Dùng đầu vào nào / Muốn giữ nhất quán điều gì / Video cuối cùng dùng để làm gì" — cho kết quả ổn định; và theo thông tin được chia sẻ nội bộ tại Google, "những người dùng nắm được sáu chiều hướng đó nhận được đầu ra tốt hơn một cách rõ rệt." Đây không chỉ là gợi ý, mà là kiến thức thực tiễn phân biệt giữa "dùng mô hình" và "sử dụng thành thạo mô hình."

Về cách tạo sự nhất quán, như đã nhắc đi nhắc lại trong bài: "đính kèm tài liệu tham chiếu, thiết kế nhân vật trước rồi mới triệu hồi." Dù là tư liệu thực tế hay thứ được tạo bằng Nano Banana, chỉ cần cung cấp một ảnh tham chiếu là có thể tái sử dụng xuyên suốt các cảnh. Khi dùng avatar, có một quy trình onboarding chuyên biệt để phòng chống deepfake — người dùng được yêu cầu tự quay video đọc một dãy số — và nên hiểu rằng chính bước thủ công này là thiết kế an toàn nhằm đảm bảo "xác thực danh tính" trong môi trường thương mại. Trong khâu chỉnh sửa hoàn thiện, chỉ cần tuân thủ ba điểm: "cụ thể, mỗi lần một thứ," diễn đạt camera bằng thuật ngữ điện ảnh, và khi hỏng thì quay lại frame thành công gần nhất — chỉ vậy thôi cũng đủ cải thiện đáng kể tỷ lệ thành công khi sản xuất hàng loạt.

Điều gì sắp xảy ra ―― API・Omni Pro・Đầu ra hình ảnh/âm thanh・Kính

Cuối cùng, hãy sắp xếp theo thứ tự xác suất các động thái sắp tới có thể thấy được tính đến đầu tháng 6 năm 2026. Gần nhất là việc cung cấp API cho nhà phát triển và doanh nghiệp — Google đã thông báo "trong vài tuần tới" và các phương tiện truyền thông kỳ vọng việc cung cấp sẽ bắt đầu vào giữa đến cuối tháng 6. Lộ trình dự kiến sẽ có hai nhánh: Gemini API dành cho nhà phát triển cá nhân và Vertex AI dành cho doanh nghiệp. Theo các báo cáo, API tại thời điểm ra mắt sẽ hỗ trợ đầu vào văn bản/hình ảnh/âm thanh/video để xuất ra video, chỉnh sửa hội thoại nhiều lượt, và avatar AI, đồng thời đầu ra bắt buộc phải được gắn SynthID và C2PA Content Credentials.

Về trung hạn, việc mở rộng các phương thức đầu ra đã được cam kết. Omni "bắt đầu từ video", nhưng Google đã tuyên bố rõ ràng rằng sẽ dần mở rộng sang đầu ra hình ảnh, văn bản (và thậm chí cả âm thanh) theo thời gian, và TechCrunch đã truyền đạt tầm nhìn tương lai là "tạo hình ảnh từ âm thanh, tạo âm thanh từ video". Việc kéo dài độ dài clip (giới hạn hiện tại là 10 giây) và nâng cao độ phân giải cũng đang được phát triển. Đáng chú ý, cần ghi nhận chính xác — không phóng đại — rằng giới hạn 10 giây không phải là giới hạn kiến trúc, mà là quyết định sản phẩm nhằm "đưa đến tay nhiều người hơn một cách nhanh chóng".

Phía trước là mô hình cao cấp hơn, Gemini Omni Pro. Được cho là sẽ ra mắt khi có sự khác biệt có thể gọi là "step change (bước nhảy vọt theo giai đoạn)" so với Flash, nhưng không có thời hạn cụ thể nào được đưa ra. Các phương tiện truyền thông cho rằng có khả năng cao mô hình này sẽ được cung cấp trước tiên trong gói AI Ultra mới với giá 100 đô la mỗi tháng, đi kèm với việc kéo dài độ dài clip và cải thiện độ phân giải. Song song đó, dòng Gemini 3.5 — đóng vai trò là bộ não của Omni — cũng tiếp tục phát triển. Gemini 3.5 Flash được ra mắt tại I/O trở thành mô hình mặc định cho ứng dụng và AI Mode, trong khi Gemini 3.5 Pro cao cấp hơn được thông báo sẽ triển khai vào tháng sau (tháng 6 năm 2026). Về form factor, kính âm thanh Android XR đã đề cập trước đó dự kiến ra mắt "mùa thu này", và điểm thu hút sự chú ý tiếp theo sẽ là cách thị giác thường trú của Project Astra và khả năng tạo/chỉnh sửa của Omni được kết nối với nhau.

Nhìn chung, bốn cột mốc tiếp theo mà các nhà sáng tạo ở Silicon Valley cần theo dõi được tóm gọn trong: (1) sự bùng nổ tích hợp công cụ nhờ mở API vào cuối tháng 6, (2) thời điểm any-to-any tiến gần đến hoàn thiện với việc mở rộng sang đầu ra hình ảnh/âm thanh, (3) gỡ bỏ giới hạn về độ dài và độ phân giải bởi Omni Pro, (4) liệu vòng lặp "quay rồi chỉnh ngay lập tức" có trở thành hiện thực với việc triển khai kính vào mùa thu hay không. Omni không phải là vua chất lượng hình ảnh ngay từ ngày đầu. Nhưng điều đó cũng phản ánh chiến lược của Google — không phải tranh giành ngôi vị chất lượng hình ảnh, mà là đi trước để chiếm lĩnh sân chơi "tương tác với video như thế nào".