Tóm tắt
Ngày 5 tháng 5 năm 2026, Google đã công bố mô hình phụ trợ "Multi-Token Prediction (MTP) Drafter" dành cho LLM trọng số mở "Gemma 4", giúp tăng tốc suy luận lên đến 3 lần, dưới giấy phép Apache 2.0. Giống như Ajax của trình duyệt đã thay đổi UX bằng cách tải trước, MTP phá vỡ tiền đề "tạo ra từng token một" và biến đổi khả năng phản hồi bằng cách lấy trước các token tương lai theo từng cụm. Các quỹ VC ở Thung lũng Silicon định vị đây là một động thái mang tính biểu tượng củng cố "luận điểm đầu tư vào lớp suy luận", và dòng vốn khổng lồ tiếp tục đổ vào các startup tối ưu hóa suy luận như Inferact, Together AI và Fireworks AI.
Toàn cảnh tin tức: Ngày 5 tháng 5, Google đã nâng cấp tính năng "đọc trước" thành trang bị tiêu chuẩn
Vào ngày 5 tháng 5 năm 2026, Google DeepMind đã phát hành "Multi-Token Prediction (MTP) drafter" dành cho dòng Gemma 4 thông qua blog chính thức "Accelerating Gemma 4: faster inference with multi-token prediction drafters". Gemma 4 được công bố vào ngày 2 tháng 4 cùng năm trên Google Open Source Blog với tiêu đề "Gemma 4: Expanding the Gemmaverse with Apache 2.0", và chỉ trong vòng vài tuần kể từ khi ra mắt đã vượt mốc 60 triệu lượt tải về, trở thành LLM open-weight có sức bật mạnh mẽ nhất hiện nay. Với vai trò là "nước cờ tiếp theo", MTP đảm nhiệm vai trò tăng tốc Gemma 4 đang chạy lên tới 3 lần mà không cần huấn luyện bổ sung và không cần phần cứng bổ sung.
Bộ mô hình phụ trợ được công bố tương thích với cả 4 kích cỡ của Gemma 4 (E2B cho thiết bị di động, E4B cho edge, 26B A4B Mixture-of-Experts cho GPU người dùng phổ thông, và 31B Dense cho workstation). Việc phân phối đã bắt đầu trên Hugging Face và Kaggle, và các runtime suy luận chủ yếu như Hugging Face Transformers, MLX, vLLM, SGLang, Ollama cùng LiteRT-LM của Google AI Edge Gallery đều đã hỗ trợ "Day 0". Đáp lại bản phát hành chính thức của Google, vLLM đã thông báo trên X chính thức rằng "🚀 Day-0 MTP support for Gemma4 now available at vLLM", đồng thời phát hành các Docker image chuyên dụng cho Hopper và Blackwell (vllm/vllm-openai:gemma4-0505-cu129/cu130).
Về mặt con số dự kiến, trong khi Google nhấn mạnh "tối đa 3 lần", các phương tiện truyền thông nước ngoài thực hiện đưa tin sơ cấp lại truyền tải dải số liệu thực tế một cách thận trọng. Các phương tiện như Decrypt, MarkTechPost, Eastern Herald, The Decoder, claypier đưa tin rằng mức tối đa 3 lần là "trường hợp tốt nhất" khi chạy 26B MoE trên NVIDIA RTX PRO 6000 với batch size tối ưu và tác vụ hội thoại, còn trên GPU người dùng phổ thông (cấp RTX 4090) là 1,8–2,5 lần, trên Apple Silicon (cấp M3 Max/M4 Max) là 1,6–2,2 lần — những con số khiêm tốn hơn nhưng thực dụng hơn.
Lý do gọi là "Ajax phiên bản LLM": Đảo ngược trục thời gian bằng cách đọc trước và xác minh
Tôi muốn giải thích các điểm kỹ thuật cốt lõi sau khi đã trừu tượng hóa lên một bậc. Tại sao trong tiêu đề lại gọi nó là "Ajax phiên bản LLM"? Ajax (Asynchronous JavaScript and XML) là công nghệ đã thay đổi UX bằng cách, thay vì để trình duyệt chờ tải lại toàn bộ trang, nó đọc trước và cập nhật cục bộ một cách bất đồng bộ những phần mà người dùng có khả năng yêu cầu. Sự thay đổi bản chất mà MTP mang lại cho suy luận LLM cũng tương tự như vậy. Tức là, cách tiếp cận "trước khi mô hình nặng ở thượng nguồn xác định được token mà người dùng thực sự cần là gì, thì một mô hình nhẹ đã tạo sẵn vài token trước".
Suy luận Transformer thông thường vận hành theo cơ chế gọi là tự hồi quy (autoregressive), mỗi khi xuất ra một token thì phải đọc hàng tỷ đến hàng trăm tỷ tham số từ bộ nhớ. Bản thân các đơn vị tính toán của GPU vẫn còn dư công suất, nhưng băng thông bộ nhớ trở thành nút thắt cổ chai khiến các đơn vị tính toán bị nhàn rỗi. Bài báo "Fast Inference from Transformers via Speculative Decoding" (được ICML 2023 chấp nhận) do Google Research công bố năm 2022 dưới tên các tác giả Yaniv Leviathan, Matan Kalman, Yossi Matias, chính là khởi nguồn từ quan sát này. Bài báo đã chứng minh rằng có thể dùng một T5 nhỏ với 60M tham số để tạo bản nháp cho T5-XXL (11B), đạt tốc độ nhanh hơn 2 đến 3 lần "mà không hề thay đổi phân phối đầu ra", và kỹ thuật này đã trở thành lớp tăng tốc tiêu chuẩn trong ngành.
MTP là hình thái mới nhất trong dòng phả hệ này. Bộ tạo nháp MTP của Gemma 4 là một mô hình nhẹ 4 lớp được cấu tạo bởi "Q-only attention", và có một thủ thuật lớn là chia sẻ KV cache với mô hình mục tiêu (mô hình chính). Cơ chế cụ thể vận hành như sau. Đầu tiên, bộ tạo nháp đọc trước liên tiếp N token tương lai (điển hình là 4 đến 8 token), trong khi chia sẻ kích hoạt lớp cuối cùng và bảng nhúng đầu vào của mô hình chính. N token đó được gộp lại và Gemma 4 của mô hình chính sẽ xác minh song song trong một lần lan truyền thuận duy nhất. Các token mà mô hình chính phán đoán là "trùng khớp với dự đoán của chính nó" sẽ được áp dụng nguyên vẹn, và tại điểm đầu tiên xảy ra sai lệch thì bản nháp sẽ bị cắt bỏ, và bản thân mô hình chính sẽ xuất ra một token đúng (vì cho đến đây ít nhất 1 token đã được đảm bảo nên không bị lãng phí). Sau đó bộ tạo nháp lại tiếp tục đọc trước, và chu trình này được lặp lại ở tốc độ cao.
Sẽ dễ hình dung hơn nếu đặt vào một ví dụ cụ thể. Chẳng hạn khi đưa prompt "Thời tiết Tokyo là", bộ tạo nháp sẽ đọc trước 4 token kiểu như "nắng", ", ngày mai", "có mây", "rồi mưa". Đáng lẽ mô hình chính phải chạy 4 lần forward pass, nhưng giờ nó đánh giá đồng loạt 4 ứng viên này chỉ trong một lần pass. Nếu khớp đến token thứ 3, thì 3 token + 1 token hiệu chỉnh của chính mô hình chính = tổng cộng 4 token được xác định gần như chỉ trong 1 bước. Đây chính là ý nghĩa của đoạn mô tả "the target model accepts the entire sequence in a single forward pass — and even generates an additional token of its own in the process" (mô hình chính tiếp nhận toàn bộ chuỗi trong một lần lan truyền thuận, đồng thời tạo thêm một token của riêng mình) trong blog chính thức của Google.
Điều cần lưu ý là đây không phải là "tăng tốc bằng cách hy sinh độ chính xác". Vì mô hình chính chắc chắn phải qua khâu xác minh cuối cùng, nên phân phối đầu ra được giữ giống hệt về mặt toán học so với trường hợp không có MTP. Đúng như blog chính thức "Welcome Gemma 4" của Hugging Face đã ghi rõ "Same outputs as target model with no quality loss and no changes to reasoning behavior", đây là một lớp tăng tốc "không tổn hao (lossless)", và điểm này khác biệt một cách quyết định so với lượng tử hóa hay chưng cất.
Phân tích kỹ hơn một chút về "Drafter đang nhìn vào điều gì"
Đối với người mới học, phần khó nắm bắt về mặt trực giác có lẽ là: tại sao một drafter nhỏ bé lại có thể rút ra "gần như đáp án đúng" từ cùng một phân phối xác suất với mô hình chính. Điều này có hai chìa khóa về mặt triển khai.
Thứ nhất là "chia sẻ bảng embedding". Drafter tham chiếu cùng bảng embedding đầu vào với mô hình chính Gemma 4. Vì các token như "dog", "猫" (mèo), "東京" (Tokyo) được xử lý trong cùng không gian vector y hệt mô hình chính, nên về nguyên lý sẽ không phát sinh độ lệch về mặt từ vựng. Thứ hai là "tận dụng activation của mô hình đích". Drafter nhận vector activation do lớp cuối cùng của mô hình chính xuất ra làm đầu vào, rồi dùng một transformer 4 lớp nhẹ để tạo dự đoán cho N token tương lai. Nói cách khác, mô hình chính đã nắm giữ những manh mối khá mạnh về "cái gì sẽ đến tiếp theo", và drafter kế thừa những manh mối đó để dự đoán trước, nên khó bị chệch khỏi ngữ cảnh.
Trong trường hợp Gemma 4, đặc biệt với các mô hình E2B (thực hữu 2,3B) / E4B (thực hữu 4,5B) hướng đến edge, người ta còn bổ sung thêm một kỹ thuật gọi là "embedder clustering" — thu hẹp từ 256K từ vựng xuống còn 4K cụm "có khả năng xuất hiện" theo ngữ cảnh. Nhờ đó, ngay cả trên các thiết bị có bộ nhớ và năng lực tính toán hạn chế như smartphone, việc tính logit của drafter cũng không trở thành điểm thắt cổ chai. Trong tài liệu "Speed-up Gemma 4 with Multi-Token Prediction" của Google AI for Developers, có ghi rằng drafter "the model groups similar tokens into clusters" (gom các token tương tự thành các cụm).
Tỷ lệ chấp nhận token (acceptance rate) cũng là một chỉ số quan trọng. Theo kiểm chứng của công ty buildfastwithai, drafter MTP của Gemma 4 đạt 70–90% với tác vụ hội thoại, còn với tác vụ sinh mã thì cho giá trị thấp hơn. Lý do là dù mã có độ ngẫu nhiên thấp hơn, nhưng lại có nhiều phụ thuộc tầm xa (closure hay cú pháp cách xa vài chục token), khiến số tình huống mà chỉ riêng drafter không dự đoán nổi tăng lên. Khi thực sự chạy Gemma 4 MTP trên vLLM, cách vận hành được giới thiệu trên các blog của lập trình viên như dasroot hay kaitchup là: đặt tham số khuyến nghị "num_assistant_tokens" là 3–4 cho mã, 5–8 cho hội thoại, 10–15 cho văn xuôi dài, rồi dùng lịch trình "heuristic" để điều chỉnh động theo tỷ lệ chấp nhận.
Dòng dõi với DeepSeek, Meta và EAGLE: MTP là "chiến trường chính tiếp theo"
Như được nêu trên blog chính thức của Google, cách tiếp cận kiểu MTP không phải là một bước đột phá bất ngờ, mà được định vị như là bước mới nhất trong một dòng nghiên cứu được tích lũy dần. Vào tháng 4 năm 2024, Meta đã công bố bài báo "Better & Faster Large Language Models via Multi-token Prediction" (arXiv:2404.19737) dưới tên của Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve và những người khác, cho thấy rằng bằng cách dự đoán "N token tiếp theo" thông qua các đầu ra (output head) độc lập trong quá trình huấn luyện, mô hình 13B đã đạt điểm số cao hơn 12% trên HumanEval và 17% trên MBPP so với các mô hình dự đoán token kế tiếp hiện có, và mô hình dự đoán đồng thời 4 token đạt tốc độ suy luận nhanh hơn tới 3 lần. DeepSeek đã áp dụng MTP này trong V3 của mình, thực hiện tiền huấn luyện trên 14,8 nghìn tỷ token với đầu dự đoán n=4, và trong báo cáo kỹ thuật trên ArXiv ghi rằng tại thời điểm suy luận, tỷ lệ chấp nhận của MTP1 vượt quá 80%, đạt được mức tăng thông lượng sinh khoảng 1,8 lần.
Kiểu DeepSeek, vốn tích hợp MTP vào hàm mục tiêu trong quá trình huấn luyện, và kiểu Google, vốn chỉ thêm trình dự thảo (drafter) phụ trợ vào thời điểm suy luận, được gọi bằng những cái tên tương tự nhau nhưng có cách tiếp cận khác biệt. Trong trường hợp Google Gemma 4, việc huấn luyện bản thân mô hình chính được hoàn tất bằng phương pháp dự đoán token kế tiếp tiêu chuẩn, sau đó một drafter nhẹ được huấn luyện riêng biệt và gắn vào. Nhờ đó, ngay cả với các mô hình 31B Dense hoặc 26B MoE đã được huấn luyện sẵn, tính linh hoạt vận hành rất lớn khi có thể bổ sung tăng tốc về sau mà không cần huấn luyện lại.
Ngoài ra, các công nghệ liên quan bao gồm "MEDUSA" của Tianle Cai và cộng sự (cách tiếp cận mọc trực tiếp nhiều đầu dự đoán trên mô hình chính), "EAGLE-3" của Yuhui Li và cộng sự (đầu dự thảo bên ngoài kết hợp đặc trưng ba lớp: sớm, giữa và muộn), và "Lookahead Decoding" (sinh song song n-gram bằng cửa sổ 2D). Theo bài giải thích về blending của SyncSoft.AI, EAGLE-3 duy trì tỷ lệ chấp nhận 0,75–0,85 trong các hệ chat, đạt thêm tốc độ 1,7–2,1 lần và 1,5–1,6 lần so với MEDUSA và Lookahead. Thực tế, ngay cả với Gemma 4, cộng đồng đã huấn luyện trước drafter EAGLE-3 trước khi MTP chính thức được phát hành, và đã công bố dưới dạng thoughtworks/Gemma-4-31B-Eagle3, RedHatAI/gemma-4-31B-it-speculator.eagle3. Các bài viết trên Eastern Herald và claypier cũng chỉ ra rằng việc Google phát hành chính thức lần này được định vị là "cuối cùng đã trả lại cho cộng đồng dưới dạng chính thức các đầu MTP vốn đã bị loại bỏ khi công bố trọng số đầu tiên của Gemma 4".
Đọc hiểu kết quả benchmark: Con số gấp 3 lần đến từ đâu, và thực tế là gấp bao nhiêu lần
Điều mà các hãng truyền thông đồng loạt chú ý đến chính là tính hợp lý của con số "tối đa gấp 3 lần" mà Google đưa ra. Về điểm này, khi đối chiếu nhiều nguồn tin khác nhau, triển vọng đã trở nên tương đối rõ ràng.
Trong môi trường workstation cao cấp, các con số khá ấn tượng. Theo các phép đo trên NVIDIA DGX Spark/GB10 được đăng tải trên NVIDIA Developer Forum, khi kết hợp Gemma 4 26B A4B-it (lượng tử hóa FP8) với MTP có γ=4, ghi nhận được 108,78 tokens/giây với một yêu cầu đơn lẻ (gấp 2,66 lần so với mức nền 40,85 tokens/giây khi không có MTP). Với 8 yêu cầu song song, thông lượng tổng hợp đạt 674 tokens/giây, và được báo cáo là vẫn duy trì mức tăng khoảng 2 lần so với trước đây từ góc nhìn người dùng cá nhân, đồng thời mở rộng quy mô lên 16,5 lần xét trên toàn bộ máy chủ. Dữ liệu kiểm chứng từ PR #41745 phía vLLM (do ông Luciano Martins khởi tạo, được merge vào ngày 6 tháng 5 năm 2026) cũng báo cáo những cải thiện lớn về thông lượng trên H100: E2B đạt 130%, E4B đạt 178%, và 31B Dense đạt tới 319%.
Mặt khác, cảm nhận thực tế trên các dòng laptop hoặc MacBook lại có phần khiêm tốn hơn. Như Decrypt đã đề cập, trên Apple Silicon với batch size 1 (tức là cho mục đích chat của người dùng cá nhân), Gemma 4 26B MoE chỉ dừng lại ở mức khoảng 1,5〜1,7 lần. Điều này là do trong kiến trúc MoE (Mixture-of-Experts), thiết kế kích hoạt các expert khác nhau cho từng token, nên tại mỗi vị trí trong chuỗi token mà drafter đọc trước, phải tải các trọng số expert khác nhau, làm giảm hiệu quả tiết kiệm băng thông bộ nhớ. Nếu tăng batch size lên 4〜8 để gộp các yêu cầu song song, hiệu suất có thể phục hồi lên khoảng 2,2 lần. Mô hình 31B phiên bản Dense, do không có ràng buộc về routing như vậy, nên ngay cả trên Apple Silicon cũng dễ dàng phát huy hiệu quả ổn định ở mức khoảng 2 lần — đây là quan điểm thống nhất giữa blog của Hugging Face và cộng đồng MLX.
Một điểm khác mà blog chính thức của Google và MarkTechPost cùng chỉ ra là "tiền đề là mô hình instruction-tuned (-it) chứ không phải base model". Trong kiểm chứng thực tế của AI-Muninn, có báo cáo rằng nếu gắn drafter vào base model thì tốc độ ngược lại giảm xuống còn 0,61 lần, và đây là lưu ý không được nhấn mạnh nhiều trong thông báo chính thức của Google.
Nhận định của VC Thung lũng Silicon: Niềm tin rằng "tầng suy luận" sẽ là chiến trường chính tiếp theo
Cộng đồng VC tại Silicon Valley không xem động thái này của Google chỉ đơn thuần là một bản cập nhật sản phẩm đơn lẻ, mà coi đó là dấu hiệu cho thấy một hạng mục thị trường mới mang tên "lớp suy luận (inference layer)" đang dần trưởng thành. Báo cáo "Welcome to LLMflation — LLM inference cost is going down fast" do ông Guido Appenzeller của Andreessen Horowitz (a16z) công bố đã chỉ ra bằng con số rằng chi phí suy luận LLM với hiệu năng tương đương đang giảm với tốc độ gấp 10 lần mỗi năm, từ mức 60 USD cho 1M token của lớp GPT-3 vào tháng 11/2021 đã rơi xuống còn 0,06 USD cho 1M token với Llama 3.2 3B tại thời điểm năm 2025 (giảm 1000 lần trong 3 năm), và liệt kê "giảm yêu cầu tính toán và băng thông bộ nhớ thông qua tối ưu hóa phần mềm" là một trong sáu trụ cột chính của sự sụt giảm này. MTP chính là đại diện tiêu biểu cho "cải thiện băng thông thông qua tối ưu hóa phần mềm" đó.
Như để củng cố luận điểm này bằng nguồn vốn, vào tháng 1/2026, Inferact – công ty được thành lập bởi nhóm bảo trì chủ chốt của vLLM (Simon Mo, Woosuk Kwon, Kaichao You, Roger Wang) – đã hoàn tất vòng gọi vốn hạt giống trị giá 150 triệu USD (khoảng 22,5 tỷ yên) do a16z và Lightspeed Venture Partners đồng dẫn dắt, ra mắt với mức định giá 800 triệu USD (khoảng 120 tỷ yên). Tham gia đầu tư còn có Sequoia Capital, Altimeter Capital, Redpoint Ventures, và Databricks Ventures. Theo bài đưa tin của TechCrunch, a16z đã nêu rõ luận điểm đầu tư rằng "việc chỉ mua thêm H100 không thể vượt qua bức tường 30–40% tỷ lệ sử dụng GPU. Thứ rút ra được 70% năng lực tính toán dư thừa còn lại chính là lớp phần mềm". vLLM – thứ mà Inferact đang cố gắng thương mại hóa – chính là thứ vừa triển khai hỗ trợ Day 0 cho Gemma 4 MTP, cho thấy luận điểm và sản phẩm thực tế đang ăn khớp với nhau.
Cũng đang nhận được sự chú ý nồng nhiệt từ các nhà đầu tư là Together AI và Fireworks AI – những đám mây suy luận. Together AI đã huy động vòng Series B trị giá 305 triệu USD (khoảng 45,75 tỷ yên) vào tháng 2/2025 do General Catalyst và Prosperity7 đồng dẫn dắt, và lập tức leo lên mức định giá 3,3 tỷ USD (khoảng 495 tỷ yên). Công ty này chính thức giải thích rằng "chúng tôi tạo ra hiệu năng bằng cách kết hợp speculative decoding, lượng tử hóa và kernel FP8", và đã chuẩn bị sẵn sàng để nhanh chóng tích hợp các drafter dòng MTP vào nền tảng suy luận của riêng mình. Fireworks AI đã thực hiện vòng Series C trị giá 250 triệu USD (khoảng 37,5 tỷ yên) với mức định giá 4 tỷ USD (khoảng 600 tỷ yên) vào tháng 10/2025. Theo phân tích của Sacra, ARR của công ty đã đạt 315 triệu USD (khoảng 47,25 tỷ yên) vào thời điểm tháng 2/2026, đạt mức tăng trưởng chóng mặt 416% so với cùng kỳ năm trước.
Trong "Summer 2026 Requests for Startups" của Y Combinator, bà Diana Hu – General Partner – đã công khai kêu gọi đầu tư cho "chip chuyên dụng cho agent loop". Bà cho biết "GPU hiện tại chỉ đạt tỷ lệ sử dụng 30–40% trên các tải công việc agent (vòng lặp, gọi tool, phân nhánh, backtrack, duy trì ngữ cảnh dài hạn). Chúng tôi muốn một con chip được thiết kế để chuyển đổi ngữ cảnh tốc độ cao giữa các mô hình, speculative decoding gốc, và KV cache trải dài trên toàn bộ đồ thị thực thi", cho thấy sự hưởng ứng từ phía phần cứng cũng đang hiện rõ. MTP chính là công nghệ cốt lõi cấu thành nên "speculative decoding gốc" trong số đó.
Sequoia Capital vào tháng 4/2026 đã công bố quỹ mở rộng trị giá 7 tỷ USD (khoảng 1.050 tỷ yên) dành cho AI/đầu tư giai đoạn muộn, và trong các báo cáo "AI in 2026: A Tale of Two AIs" và "2026: This is AGI" của mình, công ty đã trích dẫn dự báo của IDC rằng nhu cầu suy luận trong kỷ nguyên agent sẽ phình to gấp 1000 lần vào năm 2027, đồng thời tuyên bố "sự sụt giảm cấu trúc của chi phí suy luận và sự bùng nổ nhu cầu sẽ diễn ra song song". Tổng hợp tin tức từ Bloomberg và finsmes, Sequoia ngoài Inferact và Fireworks AI chuyên về tối ưu hóa suy luận, còn đang tích cực thu nạp các startup bán công nghệ speculative decoding – nền tảng của MTP (như Pipeshift) – trong dải từ vòng hạt giống đến Series B.
Tác động đến doanh nghiệp cũng đã bắt đầu xuất hiện qua các con số. Báo cáo AICC cho biết "tại thời điểm tháng 4/2026, đơn giá token thực tế (blended) của doanh nghiệp đã giảm xuống còn 6,07 USD trên 1M token, giảm 67% so với mức 18,40 USD của một năm trước đó". Fortune Business Insights dự đoán thị trường suy luận AI sẽ tăng từ 103,73 tỷ USD (khoảng 15,6 nghìn tỷ yên) năm 2025 lên 117,8 tỷ USD (khoảng 17,7 nghìn tỷ yên) năm 2026, và đạt 312,64 tỷ USD (khoảng 46,9 nghìn tỷ yên) vào năm 2034. Đối với thị trường Edge AI, Grand View Research dự báo từ 24,91 tỷ USD (khoảng 3,7 nghìn tỷ yên) năm 2025 → 29,98 tỷ USD (khoảng 4,5 nghìn tỷ yên) năm 2026 → 118,69 tỷ USD (khoảng 17,8 nghìn tỷ yên, CAGR 21,7%) vào năm 2033, và bản phát hành lần này – với E2B/E4B dành cho edge chạy trên MTP đã được tinh gọn – sẽ trở thành cú hích lớn ngay giữa đường cong tăng trưởng này.
Tông giọng đưa tin: Nguồn gốc của "không hao hụt gấp 3 lần" và phân tích bình tĩnh
Cách đưa tin của từng cơ quan truyền thông có sự khác biệt tinh tế về sắc thái. Eastern Herald, MarkTechPost, AIToolly, Pulse2.0 và Neuronad nhìn chung đưa tin với giọng điệu bám sát trực tiếp thông điệp chính thức của Google: "nhanh hơn 3 lần, không giảm chất lượng". Ngược lại, các cơ quan thiên về kỹ thuật như The Decoder (thuộc Heise), Decrypt, claypier và buildfastwithai nhấn mạnh rằng con số 3 lần chỉ là giới hạn trên trong "phần cứng cụ thể, kích thước batch cụ thể, khối lượng công việc cụ thể", và "kỳ vọng hợp lý" trong môi trường thực tế là 1,7–2,2 lần. Trong luồng thảo luận trên Hacker News (item 48024540), nhiều nhà phát triển kỳ cựu đã đưa ra các giải thích sắc bén như "Suy cho cùng đây cũng giống như việc tự gộp batch dựa trên đường đi tương lai mà mình dự đoán" hay "Đây là cơ chế lấp đầy khoảng nhàn rỗi của các đơn vị tính toán trên GPU vốn bị giới hạn bởi băng thông bộ nhớ", song song với những lời ca ngợi hiệu suất token tốt của Gemma 4 và những đánh giá bình tĩnh rằng nó vẫn thua kém Claude hay GPT trong sinh mã và các lệnh gọi công cụ phức tạp.
Phản ứng từ cộng đồng Reddit r/LocalLLaMA cũng đáng chú ý. Theo Startup Fortune, vào ngày phát hành 5/5, subreddit này đã thu hút 463 upvote/128 bình luận chỉ trong 3 giờ, và ngay trong ngày, các báo cáo xác nhận hoạt động trên llama.cpp, Ollama, vLLM và LM Studio đã lần lượt được đăng tải. Đánh giá chiếm ưu thế là: "Mức độ tăng tốc suy luận cục bộ trên cùng phần cứng có tác động lớn như vậy chỉ có thể so sánh với khi MTP lúc huấn luyện được đưa vào DeepSeek V3" và "Đây không chỉ là việc phát hành một mô hình mới, mà còn là một động thái sẽ trở thành điểm bùng nổ (tipping point) cho việc ứng dụng thực tế của suy luận cục bộ".
Tin tức ở thị trường tiếng Nhật vẫn còn hạn chế, nhưng các cơ quan truyền thông kỹ thuật lớn đã bắt đầu đưa tin thông qua bản dịch blog chính thức của Google, và đặc biệt trong bối cảnh triển khai edge/on-premise, ngày càng có nhiều bài phân tích chú trọng đến việc "ứng dụng thực tế của các agent on-device trên Pixel TPU và Apple Silicon". Trong bài "Bring state-of-the-art agentic skills to the edge with Gemma 4" được Google Developers Blog công bố đồng thời, các ví dụ vận hành cho thấy Gemma 4 E2B/E4B có thể chạy các agent tự trị đa bước hoàn toàn ngoại tuyến khi kết hợp với tính năng mới Agent Skills, và ông Tris Warkentin (Giám đốc sản phẩm tại Google DeepMind) đã đăng trên X (Twitter cũ): "Trải nghiệm AI cục bộ thực sự chỉ mới bắt đầu từ đây".
Phạm vi ảnh hưởng: Chat, Agent, và AI trên thiết bị
Xét về mặt kỹ thuật, MTP về cơ bản phát huy hiệu quả trong tình huống "băng thông bộ nhớ là điểm nghẽn, còn các đơn vị tính toán thì nhàn rỗi". Điều này tác động trực tiếp đến ba trường hợp sử dụng sau đây.
Thứ nhất là việc tạo sinh văn bản dài liên tục, hay các tác vụ chat có đầu ra nối tiếp tương đối dài như tóm tắt, dịch thuật. Trong các trường hợp như để AI viết trọn một bài blog, định dạng biên bản cuộc họp, hay tạo bản nháp bài thuyết trình dài, tốc độ cảm nhận thực tế tăng gấp đôi hoặc hơn theo đúng nghĩa đen. Thứ hai là giao diện giọng nói. Trong các lĩnh vực mà việc tạo văn bản phản hồi từ LLM trở thành đường dẫn tới hạn về độ trễ trong pipeline tổng hợp giọng nói, độ trễ khởi đầu phản hồi rút ngắn cảm nhận từ 30% đến một nửa. Trong ghi chú phát hành Google AI Edge Gallery và tài liệu LiteRT-LM có đề cập kèm số liệu cụ thể rằng tốc độ giải mã trên GPU di động nhanh hơn gấp đôi, và việc triển khai các ứng dụng giọng nói, đối thoại trên các điểm cuối Pixel và Android có khả năng sẽ tiến triển bứt phá.
Thứ ba là "tải khối lượng công việc tác tử (agent workload)" mà các quỹ VC Thung lũng Silicon đã định vị là chủ đề lớn nhất của năm 2026. Như được thể hiện qua việc Sequoia tuyên bố "2026 is the year of long-horizon agents" và Diana Hu của Y Combinator kêu gọi "chip chuyên dụng cho vòng lặp tác tử", trong các vòng lặp hàng chục bước bao gồm gọi công cụ, phân nhánh và quay lui, độ trễ của các lời gọi LLM sẽ tích lũy lại. Nếu một lần gọi nhanh gấp đôi, thì một tác tử 10 bước sẽ cho cảm giác nhanh hơn 5 đến 8 lần. Hơn nữa, nếu có thể chia sẻ KV cache giữa drafter, mô hình chính và các bước, thì có thể hạn chế việc tải lại ngữ cảnh. Đặt cạnh việc "Claude Opus 4.6 Fast Mode" mà Anthropic công bố trong tin tức tháng 5/2026 đạt thông lượng gấp 2,5 lần, và GPT-5.3-Codex của OpenAI nhanh hơn 25%, có thể thấy toàn ngành đang đồng thời hội tụ về "phương pháp chuyên dụng để đưa ra cùng một mức độ thông minh, nhưng nhanh hơn và rẻ hơn".
Rủi ro và điểm cần lưu ý từ góc nhìn VC: không phải ai cũng có thể hưởng được mức tăng gấp 3 lần
Từ góc nhìn của các quỹ VC ở Thung lũng Silicon, việc phổ biến MTP còn ba điểm chưa được giải quyết.
Thứ nhất, sự phụ thuộc lệch về phần cứng. Vì hiệu quả của MTP phụ thuộc mạnh vào tỷ lệ giữa băng thông bộ nhớ và mật độ tính toán, nên trên các dòng cao cấp như NVIDIA H100/RTX PRO 6000 hay Apple Silicon thì lợi ích rất lớn, nhưng trên các thiết bị low-end thực sự như Raspberry Pi 5, hoặc các vi điều khiển có phân cấp bộ nhớ nông, thì hiệu quả bị hạn chế. Theo tài liệu LiteRT-LM, việc decode Gemma 4 E2B trên Raspberry Pi 5 đạt 7,6 tokens/giây trên CPU, và tăng lên 31 tokens/giây trên NPU của Qualcomm Dragonwing IQ8. Thực lòng mà nói, mức độ MTP có thể phát huy hiệu quả đến đâu trên NPU vẫn còn phụ thuộc vào triển khai của từng nhà cung cấp SoC. Khi các nhà đầu tư đánh giá các startup "On-Device AI", cần ý thức được rằng việc lựa chọn phần cứng và độ tương thích với MTP ảnh hưởng đáng kể đến các con số.
Thứ hai, đánh đổi về độ chính xác trong workload sinh mã. Theo kiểm chứng của AI-Muninn và kaitchup, ở các tác vụ sinh mã, tỷ lệ chấp nhận của drafter giảm xuống và lượng tính toán suy đoán lãng phí tăng lên, nên mức tăng tốc giảm đi đáng kể so với mức best-case là gấp 3 lần. Các sản phẩm hỗ trợ lập trình như Anthropic Claude Code, GitHub Copilot, Cursor, Replit Agent có thể không thu được lợi ích từ MTP một cách trực tiếp như các sản phẩm hội thoại. Khi các VC tiến hành due diligence trong lĩnh vực này, tầm quan trọng của việc xác nhận liệu các benchmark có thiên về chat hay không đang ngày càng tăng.
Thứ ba, cuộc cạnh tranh chuẩn hóa hệ sinh thái. "Gemma 4 MTP Drafter" chính thức của Google cùng với EAGLE-3, MEDUSA, Lookahead xuất phát từ cộng đồng, MTP huấn luyện kiểu DeepSeek và nhiều trường phái khác đang phát triển song song, và việc các runtime suy luận (vLLM, SGLang, MLX, llama.cpp, TensorRT-LLM) ưu ái trường phái nào như "công dân hạng nhất" có thể làm thay đổi cục diện. Việc vLLM ưu ái drafter của Google ngay từ Day 0 gợi ý sự tồn tại của liên minh Google × vLLM × Inferact, và đây là động thái thú vị cả khi giải mã chiến lược danh mục đầu tư của a16z.
Khi nào điều gì sẽ xảy ra: Lộ trình trong 6–18 tháng tới
Về các động thái gần đây, trước tiên vào tháng 5–6 năm 2026, dự kiến Gemma 4 MTP sẽ được tích hợp vào bản ổn định trong đợt phát hành lớn của dòng vLLM v0.20.x, và từ các thảo luận tại GitHub Issue #42005 và PR #41745 có thể thấy đã đạt đến giai đoạn cung cấp Docker image chính thức cho cả Hopper và Blackwell. Trong năm nay, MTP cũng được kỳ vọng sẽ đạt chất lượng sản xuất (production) trên MLX và llama.cpp, và kaitchup đã thông báo trước trên blog rằng "MTP trong llama.cpp sẽ chuyển từ beta lên GA".
Về trung hạn, đúng như Sequoia Capital đã mô tả năm 2026 là "a year of delays", sự chậm trễ trong việc mở rộng các trung tâm dữ liệu va chạm với sự trì hoãn của lộ trình AGI, khiến tầm quan trọng của việc cắt giảm chi phí suy luận càng gia tăng hướng đến năm 2027. Dựa trên dự báo của IDC rằng "đến năm 2027 nhu cầu suy luận sẽ tăng 1000 lần", các kỹ thuật như MTP — "xử lý được nhiều hơn trên cùng một phần cứng" — mang ý nghĩa mạnh mẽ như một câu trả lời mang tính cấu trúc cho ràng buộc về nguồn cung GPU. Gartner còn đi xa hơn khi dự đoán rằng đến năm 2030, chi phí suy luận của các LLM nghìn tỷ tham số đối với các nhà cung cấp dịch vụ GenAI sẽ giảm hơn 90% so với năm 2025.
Như một bối cảnh dài hạn, các ứng viên mô hình tiên phong như DeepSeek V4 (mô hình thế hệ tiếp theo được đồn đoán ra mắt vào nửa cuối năm 2026, với cơ chế attention ba chiều theo không gian, thời gian và phương thức được bàn tán), Meta Llama 5, xAI Grok 5, và phiên bản tiếp theo của Mistral Large — tất cả đều đang dần coi việc "tích hợp MTP hoặc các biến thể phát triển từ nó ngay từ giai đoạn thiết kế" là lộ trình mặc định. NVIDIA đã công bố trên blog kỹ thuật chính thức "DeepSeek V4 with NVIDIA Blackwell", cho thấy xu hướng tối ưu hóa các tensor core thế hệ Blackwell hướng đến giải mã suy đoán (speculative decoding). Nếu các startup "chip chuyên dụng cho vòng lặp agent" mà Y Combinator đang tuyển chọn xuất hiện trên thị trường, thì lợi ích của MTP sẽ được khuếch đại từ cả hai phía phần cứng và phần mềm.
Đối với các quỹ VC ở Silicon Valley, lần ra mắt Google MTP này không hẳn là "một cam kết bổ sung cho chính Gemma 4", mà được nhìn nhận như một sự xác nhận mạnh mẽ từ Google đối với luận điểm "lớp tối ưu hóa suy luận" mà họ đã liên tục đặt cược kể từ năm 2024. Báo cáo LLMflation của a16z, khoản đầu tư seed 22,5 tỷ yên vào Inferact, các khoản đầu tư bổ sung khổng lồ vào Together AI và Fireworks AI, cùng quỹ mới quy mô 1 nghìn tỷ yên của Sequoia Capital — tất cả đều được xây dựng trên logic rằng "kẻ chiến thắng hào nhoáng trong huấn luyện mô hình và kẻ chiến thắng thầm lặng nhưng khổng lồ trong triển khai suy luận là hai đối tượng khác nhau". MTP chính là biểu tượng của "kỹ thuật thầm lặng nhưng hiệu quả" đó, và việc bất kỳ ai cũng có thể kiểm chứng nó trên một mô hình trọng số mở dễ tiếp cận như Gemma 4 đã làm thị trường của lớp suy luận bỗng chốc hiện hữu rõ ràng — đó là nhận định tổng thể tại thời điểm tháng 5 năm 2026.
Nguồn
- Tăng tốc Gemma 4: suy luận nhanh hơn với các drafter dự đoán đa token - Google Blog
- Tăng tốc Gemma 4 với Dự đoán Đa Token - Google AI for Developers
- Dự đoán Đa Token (MTP) của Gemma 4 sử dụng Hugging Face Transformers - Google AI for Developers
- Gemma 4: Từng byte một, những mô hình mở mạnh mẽ nhất - Google Blog
- Gemma 4 - Google DeepMind
- Gemma 4: Mở rộng Gemmaverse với Apache 2.0 - Google Open Source Blog
- Chào đón Gemma 4: Trí tuệ đa phương thức tiên tiến trên thiết bị - Hugging Face
- Google AI phát hành Drafter Dự đoán Đa Token (MTP) cho Gemma 4 - MarkTechPost
- Google tăng tốc Gemma 4 gấp ba lần với dự đoán đa token - The Decoder
- Google đã tìm ra cách giúp AI cục bộ nhanh hơn tới 3 lần - Decrypt
- Gemma 4 của Google nhanh hơn 3 lần với bản nâng cấp MTP - Eastern Herald
- Google phát hành Drafter MTP cho Gemma 4 - claypier
- Drafter MTP của Gemma 4: Suy luận nhanh hơn 3 lần (Hướng dẫn 2026) - Build Fast With AI
- Cất cánh: Gemma 4 đạt tổng cộng 670 tok/s trên DGX Spark - AI Muninn
- vLLM PR #41745: Thêm hỗ trợ giải mã suy đoán MTP cho Gemma4
- Hacker News: Tăng tốc Gemma 4 (mục 48024540)
- Suy luận nhanh từ Transformers qua giải mã suy đoán - Yaniv Leviathan và cộng sự, arXiv:2211.17192
- Nhìn lại giải mã suy đoán - Google Research Blog
- Mô hình ngôn ngữ lớn tốt hơn & nhanh hơn qua dự đoán đa token - Meta, arXiv:2404.19737
- Báo cáo Kỹ thuật DeepSeek-V3 - arXiv:2412.19437
- Chào mừng đến với LLMflation - chi phí suy luận LLM - Andreessen Horowitz
- Đầu tư vào Inferact - Andreessen Horowitz
- Startup suy luận Inferact huy động 150 triệu USD để thương mại hóa vLLM - TechCrunch
- Together AI công bố vòng Series B trị giá 305 triệu USD
- Doanh thu, định giá & gọi vốn của Fireworks AI - Sacra
- Sequoia Capital - AI năm 2026: Câu chuyện về hai AI
- Sequoia Capital - 2026: Đây là AGI
- Yêu cầu khởi nghiệp YC Mùa hè 2026 (Diana Hu)
- Tổng quan LiteRT-LM - Google AI Edge
- Mang kỹ năng agentic tiên tiến nhất đến biên với Gemma 4 - Google Developers Blog
- Thông báo hỗ trợ MTP Day-0 của vLLM (X)
- Quy mô & Dự báo Thị trường Suy luận AI - Fortune Business Insights
- Quy mô & Xu hướng Thị trường Edge AI - Grand View Research
- Gartner: Chi phí suy luận LLM 1.000 tỷ tham số giảm 90% vào năm 2030