Ringkasan

Pada tanggal 5 Mei 2026, Google merilis "Multi-Token Prediction (MTP) Drafter", sebuah model pendukung yang mempercepat inferensi hingga 3 kali lipat untuk LLM open-weight "Gemma 4", di bawah lisensi Apache 2.0. Sebagaimana Ajax pada browser mengubah UX melalui prefetching, MTP meruntuhkan premis "menghasilkan token satu per satu" dan secara drastis mengubah responsivitas dengan mengambil token-token masa depan secara berkelompok terlebih dahulu. Para VC di Silicon Valley memposisikan langkah ini sebagai gerakan simbolis yang mendukung "tesis investasi pada lapisan inferensi", dan dana dalam jumlah besar terus mengalir ke startup-startup optimisasi inferensi seperti Inferact/Together AI/Fireworks AI.


Gambaran umum berita: Pada 5 Mei, Google meningkatkan "prediksi awal" menjadi fitur standar

Pada 5 Mei 2026, Google DeepMind merilis "Multi-Token Prediction (MTP) Drafter" untuk keluarga Gemma 4 melalui blog resminya "Accelerating Gemma 4: faster inference with multi-token prediction drafters". Gemma 4 dipublikasikan pada 2 April tahun yang sama di Google Open Source Blog dengan judul "Gemma 4: Expanding the Gemmaverse with Apache 2.0", dan hanya dalam beberapa minggu setelah diluncurkan telah menembus 60 juta unduhan, menjadikannya LLM bobot terbuka yang paling sedang naik daun saat ini. Sebagai "langkah berikutnya", MTP berperan untuk mempercepat Gemma 4 yang sudah berjalan hingga 3 kali lipat, tanpa pelatihan tambahan dan tanpa perangkat keras tambahan.

Kumpulan model bantu yang dirilis mendukung keempat ukuran Gemma 4 (E2B untuk perangkat mobile, E4B untuk edge, Mixture-of-Experts 26B A4B untuk GPU konsumer, dan Dense 31B untuk workstation). Distribusi dimulai di Hugging Face dan Kaggle, dan runtime inferensi utama seperti Hugging Face Transformers, MLX, vLLM, SGLang, Ollama, serta LiteRT-LM dari Google AI Edge Gallery telah mendukungnya secara "Day 0". Menanggapi rilis resmi Google, vLLM mengumumkan di akun X resminya "🚀 Day-0 MTP support for Gemma4 now available at vLLM", dan secara bersamaan merilis image Docker khusus untuk Hopper dan Blackwell (vllm/vllm-openai:gemma4-0505-cu129/cu130).

Dari sisi angka-angka, sementara Google menekankan "hingga 3 kali lipat", media luar negeri yang melakukan liputan langsung menyampaikan rentang realistis secara berhati-hati. Media seperti Decrypt, MarkTechPost, Eastern Herald, The Decoder, dan claypier melaporkan bahwa angka maksimum 3 kali lipat merupakan "kasus terbaik" ketika menjalankan MoE 26B pada NVIDIA RTX PRO 6000 dengan ukuran batch optimal untuk tugas percakapan, sedangkan pada GPU konsumer (kelas RTX 4090) angkanya turun ke 1,8–2,5 kali lipat, dan pada Apple Silicon (kelas M3 Max/M4 Max) menjadi 1,6–2,2 kali lipat — angka yang lebih sederhana namun praktis.

Alasan disebut "Ajax versi LLM": membalik sumbu waktu melalui prabaca dan verifikasi

Poin-poin teknisnya, ingin saya jelaskan terlebih dahulu dengan mengabstraksinya satu tingkat. Mengapa saya menyebutnya "Ajax versi LLM" pada judul. Ajax (Asynchronous JavaScript and XML) adalah teknologi yang mengubah UX dengan cara browser melakukan pre-fetching dan pembaruan parsial secara asinkron pada bagian-bagian yang mungkin diminta pengguna, alih-alih menunggu pemuatan ulang seluruh halaman. Perubahan esensial yang dibawa MTP pada inferensi LLM mirip dengan ini. Yaitu, pendekatan di mana "sebelum model berat di hulu memastikan token apa yang sebenarnya dibutuhkan pengguna, model ringan terlebih dahulu membuat beberapa token tersebut."

Inferensi Transformer biasa adalah mekanisme yang disebut autoregressive, di mana setiap kali satu token dikeluarkan, parameter sebanyak miliaran hingga ratusan miliar dibaca dari memori. Padahal unit komputasi GPU sendiri masih memiliki kapasitas tersisa, namun bandwidth memori menjadi bottleneck sehingga unit komputasi menjadi menganggur. Makalah "Fast Inference from Transformers via Speculative Decoding" (diterima ICML 2023) yang diterbitkan Google Research pada 2022 dengan nama Yaniv Leviathan, Matan Kalman, Yossi Matias dan kawan-kawan, justru berangkat dari pengamatan ini. Makalah tersebut menunjukkan bahwa T5-XXL (11B) di-draft oleh T5 kecil berukuran 60M parameter dan dapat mencapai percepatan 2–3 kali lipat "tanpa mengubah distribusi output sama sekali", dan telah mapan sebagai lapisan percepatan standar di industri.

MTP adalah bentuk terkini dari garis keturunan ini. Drafter MTP Gemma 4 adalah model 4-lapis ringan yang disusun dengan "Q-only attention", dengan inovasi besar berupa berbagi KV cache dari model target (model utama). Mekanisme spesifiknya bekerja sebagai berikut. Pertama, drafter melakukan pre-fetching N token (biasanya 4–8) ke depan secara berurutan, sambil berbagi aktivasi lapisan terakhir dan tabel embedding input dari model utama. N token tersebut kemudian diverifikasi secara paralel oleh Gemma 4 utama dalam satu forward pass. Token yang dianggap "sesuai dengan prediksinya sendiri" oleh model utama akan diadopsi sepenuhnya, dan pada titik pertama yang tidak cocok, draft dipotong dan model utama sendiri mengeluarkan satu token yang benar (hingga di sini setidaknya 1 token pasti diperoleh sehingga tidak terbuang sia-sia). Setelah itu drafter memulai kembali pre-fetching, dan siklus ini berputar dengan cepat.

Jika diganti dengan contoh nyata, akan lebih mudah dibayangkan. Misalnya, ketika diberikan prompt "Cuaca Tokyo adalah", drafter melakukan pre-fetching 4 token seperti "cerah", "、besok", "berawan", "lalu hujan". Model utama yang seharusnya perlu memutar forward pass 4 kali, dapat mengevaluasi 4 kandidat ini sekaligus dalam satu pass. Jika 3 token cocok, maka 3 token + 1 token koreksi dari model utama sendiri = total 4 token, dapat dipastikan hampir dalam 1 langkah. Inilah makna dari deskripsi pada blog resmi Google "the target model accepts the entire sequence in a single forward pass — and even generates an additional token of its own in the process" (model utama menerima rangkaian sekaligus dalam satu forward pass, dan selain itu menghasilkan satu token miliknya sendiri).

Yang perlu diperhatikan adalah bahwa ini bukan "percepatan dengan mengorbankan akurasi". Karena model utama pasti melewati verifikasi akhir, distribusi output tetap secara matematis identik dengan kasus tanpa MTP. Sebagaimana ditulis dengan jelas pada blog resmi Hugging Face "Welcome Gemma 4" yang menyatakan "Same outputs as target model with no quality loss and no changes to reasoning behavior", titik bahwa ini adalah lapisan percepatan yang "lossless" inilah yang secara definitif berbeda dengan kuantisasi atau distilasi.

Menjabarkan lebih lanjut "Apa yang dilihat oleh drafter"

Bagi pemula, hal yang sulit kemungkinan adalah bagian intuitif mengenai mengapa drafter kecil dapat menarik jawaban "hampir benar" dari distribusi probabilitas yang sama dengan model utama. Untuk ini, ada dua kunci dalam implementasinya.

Yang pertama adalah "berbagi tabel embedding". Drafter merujuk pada tabel embedding input yang sama dengan model utama Gemma 4. Karena token seperti "dog", "猫", "東京" ditangani dalam ruang vektor yang persis sama dengan model utama, secara prinsip tidak terjadi penyimpangan leksikal. Yang kedua adalah "pemanfaatan aktivasi target". Drafter menerima vektor aktivasi yang dikeluarkan oleh lapisan akhir model utama sebagai input, lalu menghasilkan prediksi untuk N token masa depan dengan transformer 4 lapis yang ringan. Dengan kata lain, model utama sudah memiliki petunjuk yang cukup kuat tentang "apa yang akan datang berikutnya", dan drafter melakukan pembacaan ke depan dengan mewarisi petunjuk tersebut, sehingga sulit melenceng secara kontekstual.

Dalam kasus Gemma 4, khususnya pada model E2B (efektif 2,3B) / E4B (efektif 4,5B) yang ditujukan untuk edge, ditambahkan pula inovasi "embedder clustering" yang mempersempit kosakata 256K menjadi 4K kluster yang secara kontekstual "mungkin muncul". Berkat ini, bahkan pada memori dan komputasi terbatas seperti smartphone, komputasi logit drafter tidak menjadi bottleneck. Dalam dokumen Google AI for Developers "Speed-up Gemma 4 with Multi-Token Prediction", drafter dijelaskan sebagai "the model groups similar tokens into clusters" (mengelompokkan token-token serupa ke dalam kluster).

Tingkat penerimaan token (acceptance rate) juga merupakan indikator penting. Menurut verifikasi oleh perusahaan buildfastwithai, drafter Gemma 4 MTP menunjukkan nilai 70–90% pada tugas percakapan, dan nilai yang lebih rendah pada tugas pembuatan kode. Hal ini karena meskipun kode memiliki tingkat keacakan yang lebih rendah, banyak terdapat dependensi jarak jauh (closure atau sintaksis puluhan token ke depan), sehingga adegan-adegan yang tidak dapat diprediksi sepenuhnya oleh drafter sendirian pun bertambah. Pada blog pengembang seperti dasroot dan kaitchup, diperkenalkan operasi yang ketika benar-benar menjalankan Gemma 4 MTP dengan vLLM, mengatur parameter rekomendasi "num_assistant_tokens" menjadi 3–4 untuk kode, 5–8 untuk percakapan, dan 10–15 untuk prosa panjang, lalu menyesuaikannya secara dinamis sesuai tingkat penerimaan dengan jadwal "heuristic".

Silsilah dengan DeepSeek, Meta, dan EAGLE: MTP adalah "Medan Pertempuran Utama Berikutnya"

Sebagaimana tertulis di blog resmi Google, pendekatan ala MTP bukanlah terobosan yang tiba-tiba, melainkan diposisikan sebagai langkah terbaru dari silsilah riset yang terakumulasi. Pada April 2024, Meta merilis "Better & Faster Large Language Models via Multi-token Prediction" (arXiv:2404.19737) atas nama Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve, dan kawan-kawan, yang menunjukkan bahwa dengan memprediksi "N token berikutnya" melalui head output independen saat pelatihan, model 13B mencatatkan skor 12% lebih tinggi pada HumanEval dan 17% lebih tinggi pada MBPP dibanding model prediksi token-berikutnya yang ada, serta model dengan prediksi 4 token secara bersamaan menjadi hingga 3 kali lebih cepat dalam inferensi. DeepSeek mengadopsi MTP ini pada V3 mereka, melakukan pra-pelatihan dengan 14,8 triliun token menggunakan head prediksi n=4, dan dalam laporan teknis di ArXiv mereka mencatat bahwa pada saat inferensi tingkat penerimaan MTP1 melampaui 80%, sehingga merealisasikan peningkatan throughput generasi sekitar 1,8 kali lipat.

Tipe DeepSeek yang memasukkan MTP ke dalam fungsi objektif saat pelatihan dan tipe Google yang hanya menambahkan drafter pembantu pada saat inferensi disebut dengan nama yang mirip tetapi pendekatannya berbeda. Untuk Google Gemma 4, pelatihan model utamanya sendiri sudah selesai dengan prediksi token-berikutnya standar, lalu drafter ringan dipelajari secara terpisah dan dipasang belakangan. Dengan demikian, fleksibilitas operasional yang besar didapat: percepatan dapat ditambahkan secara retrofit pada 31B Dense atau 26B MoE yang sudah terlatih, tanpa perlu melatih ulang dari awal.

Selain itu, sebagai teknologi terkait, ada "MEDUSA" karya Tianle Cai dkk. (pendekatan yang menumbuhkan beberapa head prediksi langsung pada model utama), "EAGLE-3" karya Yuhui Li dkk. (head draft eksternal yang memadukan fitur tiga lapis: awal, tengah, dan akhir), dan "Lookahead Decoding" (menghasilkan n-gram secara paralel dengan jendela 2D). Menurut ulasan blending dari SyncSoft.AI, EAGLE-3 mempertahankan tingkat penerimaan 0,75–0,85 pada sistem chat, dan dikatakan memperoleh kecepatan tambahan 1,7–2,1 kali dan 1,5–1,6 kali dibanding MEDUSA maupun Lookahead. Faktanya, bahkan pada Gemma 4, sebelum rilis MTP resmi, komunitas telah lebih dulu melatih drafter EAGLE-3 dan mempublikasikannya sebagai thoughtworks/Gemma-4-31B-Eagle3 dan RedHatAI/gemma-4-31B-it-speculator.eagle3. Artikel Eastern Herald dan claypier juga menunjukkan bahwa rilis resmi Google kali ini berposisi sebagai "akhirnya mengembalikan head MTP yang telah dihapus saat publikasi bobot perdana Gemma 4 kepada komunitas dalam bentuk resmi".

Membaca Benchmark: Di mana angka 3 kali lipat itu, dan berapa kali lipat kenyataannya

Yang menjadi sorotan serentak berbagai media adalah validitas angka "hingga 3 kali lipat" yang dikemukakan Google. Mengenai hal ini, dengan membandingkan beberapa sumber, gambarannya menjadi relatif lebih jelas.

Pada lingkungan workstation kelas high-end, angkanya bagus. Pengukuran pada NVIDIA DGX Spark/GB10 yang diposting di NVIDIA Developer Forum mencatat bahwa Gemma 4 26B A4B-it (kuantisasi FP8) yang dikombinasikan dengan MTP γ=4 menghasilkan 108,78 tokens/sec untuk single request (2,66 kali lipat dibanding baseline tanpa MTP yang 40,85 tokens/sec). Untuk 8 request paralel, dilaporkan bahwa throughput agregat mencapai 674 tokens/sec, dengan tetap mempertahankan sekitar 2 kali lipat dari sebelumnya dari sudut pandang pengguna individual, sementara secara server keseluruhan menskala hingga 16,5 kali lipat. Pada data verifikasi PR #41745 sisi vLLM (diajukan oleh Luciano Martins, di-merge pada 6 Mei 2026), juga dilaporkan peningkatan throughput besar pada H100 yaitu 130% untuk E2B, 178% untuk E4B, dan 319% untuk 31B Dense.

Di sisi lain, sensasi nyata pada kelas notebook PC atau MacBook sedikit lebih moderat. Sebagaimana disinggung oleh Decrypt, pada Apple Silicon dengan batch size 1 (yaitu untuk penggunaan chat oleh pengguna individu), Gemma 4 26B MoE hanya berada di kisaran 1,5–1,7 kali lipat. Hal ini karena pada desain arsitektur MoE (Mixture-of-Experts) di mana expert yang berbeda diaktifkan untuk setiap token, drafter harus memuat bobot expert yang berbeda pada setiap posisi rangkaian token yang dibaca lebih dulu, sehingga efek penghematan bandwidth memori menjadi berkurang. Jika batch size dinaikkan menjadi 4–8 untuk menggabungkan request paralel, angkanya kembali pulih hingga sekitar 2,2 kali lipat. Untuk model 31B versi Dense, karena tidak ada batasan routing semacam itu, lebih mudah menghasilkan efek sekitar 2 kali lipat secara lebih stabil bahkan pada Apple Silicon — inilah pandangan yang disepakati antara blog Hugging Face dan komunitas MLX.

Poin lain yang sama-sama ditunjukkan oleh blog resmi Google dan MarkTechPost adalah bahwa "yang menjadi prasyarat adalah model instruction-tuned (-it), bukan base model". Pada verifikasi perangkat nyata oleh AI-Muninn, dilaporkan bahwa jika drafter dipasang pada base model, kecepatannya justru turun menjadi 0,61 kali lipat — sebuah catatan peringatan yang tidak terlalu ditekankan dalam pengumuman resmi Google.

Pandangan VC Silicon Valley: Keyakinan bahwa "lapisan inferensi" akan menjadi medan pertempuran utama berikutnya

Komunitas VC di Silicon Valley membaca langkah Google ini bukan sebagai pembaruan produk yang berdiri sendiri, melainkan sebagai tanda bahwa kategori pasar baru bernama "lapisan inferensi (inference layer)" sedang menuju kematangan. Laporan "Welcome to LLMflation — LLM inference cost is going down fast" yang dirilis oleh Guido Appenzeller dari Andreessen Horowitz (a16z) menunjukkan dengan angka bahwa biaya inferensi LLM dengan performa setara turun dengan laju 10 kali lipat per tahun, dari GPT-3 class yang berbiaya 60 dolar per 1M token pada November 2021 hingga jatuh ke 0,06 dolar per 1M token pada Llama 3.2 3B per 2025 (turun 1000 kali lipat dalam 3 tahun), dan menempatkan "pengurangan kebutuhan komputasi dan bandwidth memori melalui optimasi perangkat lunak" sebagai salah satu dari enam pilar utama penyebab penurunan tersebut. MTP justru merupakan pemain andalan dari "perbaikan bandwidth melalui optimasi perangkat lunak" itu sendiri.

Seakan menguatkan tesis ini dengan pendanaan, pada Januari 2026, Inferact yang didirikan oleh para maintainer utama vLLM (Simon Mo, Woosuk Kwon, Kaichao You, Roger Wang) menyelesaikan putaran seed senilai 150 juta dolar (sekitar 22,5 miliar yen) yang dipimpin bersama oleh a16z dan Lightspeed Venture Partners, dan diluncurkan dengan valuasi 800 juta dolar (sekitar 120 miliar yen). Pendanaan ini juga melibatkan Sequoia Capital, Altimeter Capital, Redpoint Ventures, dan Databricks Ventures. Menurut laporan TechCrunch, a16z secara eksplisit menyatakan tesis investasinya: "Sekadar menambah pembelian H100 tidak akan menembus dinding utilisasi GPU 30–40%. Yang menarik keluar 70% komputasi sisa adalah lapisan perangkat lunak." vLLM yang sedang dikomersialkan oleh Inferact adalah persis yang baru saja mengimplementasikan dukungan Day 0 untuk Gemma 4 MTP, sehingga tesis dan produk nyata saling bertaut dengan rapi.

Yang juga mendapat tatapan hangat dari para investor adalah cloud inferensi Together AI dan Fireworks AI. Together AI pada Februari 2025 menggalang Seri B senilai 305 juta dolar (sekitar 45,75 miliar yen) yang dipimpin bersama oleh General Catalyst dan Prosperity7, dan langsung melonjak ke valuasi 3,3 miliar dolar (sekitar 495 miliar yen). Perusahaan ini secara resmi menjelaskan, "Kami memperoleh performa dengan mengombinasikan speculative decoding, kuantisasi, dan kernel FP8," dan telah menyiapkan kerangka untuk dengan cepat mengintegrasikan drafter dari keluarga MTP ke dalam platform inferensi mereka sendiri. Fireworks AI pada Oktober 2025 melaksanakan Seri C senilai 250 juta dolar (sekitar 37,5 miliar yen) dengan valuasi 4 miliar dolar (sekitar 600 miliar yen). Menurut analisis Sacra, ARR perusahaan ini telah mencapai 315 juta dolar (sekitar 47,25 miliar yen) per Februari 2026, dengan pertumbuhan pesat 416% dibanding periode yang sama tahun sebelumnya.

Dalam "Summer 2026 Requests for Startups" milik Y Combinator, General Partner Diana Hu secara eksplisit meminta "chip khusus loop agen". Ia menyatakan, "GPU saat ini hanya menghasilkan utilisasi 30–40% pada beban kerja agen (loop, pemanggilan tool, branching, backtracking, retensi konteks jangka panjang). Kami menginginkan chip yang dirancang untuk peralihan konteks antar-model yang cepat, speculative decoding native, dan KV cache yang menjangkau seluruh grafik eksekusi," yang menunjukkan bahwa resonansi dari sisi perangkat keras pun mulai terlihat nyata. MTP adalah teknologi yang membentuk inti dari "speculative decoding native" tersebut.

Pada April 2026, Sequoia Capital mengumumkan dana ekspansi senilai 7 miliar dolar (sekitar 1,05 triliun yen) untuk investasi AI/tahap lanjut, dan dalam laporannya "AI in 2026: A Tale of Two AIs" serta "2026: This is AGI", dengan mengutip prediksi IDC bahwa permintaan inferensi di era agen akan membengkak 1000 kali lipat pada 2027, menyatakan, "Penurunan struktural biaya inferensi dan ledakan permintaan berlangsung secara paralel." Merangkum laporan dari Bloomberg dan finsmes, selain Inferact dan Fireworks AI yang berfokus pada optimasi inferensi, Sequoia juga secara agresif mengambil startup yang menjual teknologi speculative decoding—yang merupakan dasar dari MTP—(seperti Pipeshift) dalam rentang seed hingga Seri B.

Dampak terhadap enterprise pun mulai muncul dalam bentuk angka. Laporan AICC melaporkan, "Per April 2026, harga token efektif (blended) untuk enterprise telah turun hingga 6,07 dolar per 1M token, turun 67% dari 18,40 dolar setahun sebelumnya." Fortune Business Insights memperkirakan pasar inferensi AI akan tumbuh dari 103,73 miliar dolar (sekitar 15,6 triliun yen) pada 2025 menjadi 117,8 miliar dolar (sekitar 17,7 triliun yen) pada 2026, dan mencapai 312,64 miliar dolar (sekitar 46,9 triliun yen) pada 2034. Adapun untuk pasar Edge AI, Grand View Research memprediksi 24,91 miliar dolar (sekitar 3,7 triliun yen) pada 2025 → 29,98 miliar dolar (sekitar 4,5 triliun yen) pada 2026 → 118,69 miliar dolar (sekitar 17,8 triliun yen, CAGR 21,7%) pada 2033, dan rilis kali ini—di mana E2B/E4B untuk edge berjalan di atas MTP yang sudah diringankan—akan menjadi angin pendorong besar tepat di tengah kurva ini.

Nada Pemberitaan: Sumber "Lossless 3x" dan Analisis yang Tenang

Cara pemberitaan setiap media memiliki nuansa yang sedikit berbeda. Eastern Herald, MarkTechPost, AIToolly, Pulse2.0, dan Neuronad pada umumnya melaporkan dengan nada yang langsung mengikuti pesan resmi Google "3 kali lebih cepat, tanpa penurunan kualitas". Sebaliknya, media yang lebih berorientasi teknis seperti The Decoder (grup Heise), Decrypt, claypier, dan buildfastwithai menekankan bahwa "3 kali" hanyalah batas atas pada "perangkat keras tertentu, ukuran batch tertentu, dan beban kerja tertentu", dan bahwa "ekspektasi yang seharusnya" di lingkungan nyata adalah 1,7–2,2 kali. Pada thread di Hacker News (item 48024540), banyak penjelasan akurat dari para pengembang veteran seperti "Ini pada akhirnya sama saja dengan self-batching terhadap jalur masa depan yang Anda prediksi sendiri" dan "Ini adalah mekanisme untuk mengisi waktu menganggur unit komputasi pada GPU yang bottleneck-nya adalah bandwidth memori", disertai dengan suara-suara yang memuji efisiensi token Gemma 4 dan penilaian dingin bahwa dalam pembuatan kode dan pemanggilan tool yang kompleks, ia masih kalah dibandingkan Claude atau GPT.

Reaksi komunitas Reddit r/LocalLLaMA juga patut diperhatikan. Menurut Startup Fortune, pada hari rilis 5 Mei, subreddit tersebut mengumpulkan 463 upvote/128 comment dalam 3 jam, dan pada hari yang sama laporan konfirmasi pengoperasian pada llama.cpp, Ollama, vLLM, dan LM Studio secara berturut-turut dilaporkan. Penilaian yang dominan adalah "Ini adalah dampak terbesar sejak diperkenalkannya MTP saat pelatihan pada DeepSeek V3, di mana inferensi lokal dengan perangkat keras yang sama menjadi sangat cepat" dan "Ini bukan sekadar rilis model baru, melainkan gerakan yang akan menjadi tipping point bagi praktikalisasi inferensi lokal".

Pemberitaan di lingkup berbahasa Jepang masih terbatas, tetapi media teknologi utama mulai mengangkatnya melalui terjemahan blog resmi Google, dan terutama dalam konteks penerapan edge/on-premise, semakin banyak ulasan yang menyadari "praktikalisasi agen on-device pada Pixel TPU dan Apple Silicon". Pada "Bring state-of-the-art agentic skills to the edge with Gemma 4" yang dipublikasikan secara bersamaan oleh Google Developers Blog, diperkenalkan contoh pengoperasian di mana Gemma 4 E2B/E4B menjalankan agen otonom multi-langkah sepenuhnya offline dengan dikombinasikan dengan fitur baru bernama Agent Skills, dan Tris Warkentin (Kepala Produk Google DeepMind) menyiarkan di X (sebelumnya Twitter) bahwa "Pengalaman AI di lokal baru dimulai dari sini".

Jangkauan dampak: ke chat, agen, dan AI dalam perangkat

Dari sudut pandang teknis, MTP pada hakikatnya efektif dalam situasi di mana "bandwidth memori menjadi bottleneck dan unit komputasi menganggur". Hal ini secara langsung menyasar tiga kasus penggunaan berikut.

Yang pertama adalah pembuatan teks panjang secara berurutan, atau tugas chat yang menghasilkan output panjang berturut-turut seperti ringkasan dan penerjemahan. Dalam kasus seperti meminta AI menulis seluruh artikel blog, memformat notulen rapat, atau membuat draf presentasi panjang, kecepatan yang dirasakan benar-benar menjadi lebih dari dua kali lipat. Yang kedua adalah antarmuka suara. Di area di mana pembuatan teks respons dari LLM menjadi jalur kritis latensi dalam pipeline sintesis suara, waktu awal respons terasa berkurang sekitar 30% hingga setengahnya. Pada catatan rilis Google AI Edge Gallery dan dokumentasi LiteRT-LM, disebutkan dengan angka konkret bahwa kecepatan decoding pada GPU mobile menjadi lebih dari dua kali lipat lebih cepat, dan ada kemungkinan bahwa implementasi aplikasi suara dan dialog pada endpoint Pixel dan Android akan berkembang pesat sekaligus.

Yang ketiga adalah "agent workload", yang diposisikan sebagai tema terbesar tahun 2026 oleh VC Silicon Valley. Sebagaimana disimbolkan oleh deklarasi Sequoia bahwa "2026 is the year of long-horizon agents" dan Diana Hu dari Y Combinator yang sedang merekrut untuk "chip khusus agent loop", dalam loop puluhan langkah yang mencakup panggilan tool, branching, dan backtracking, latensi panggilan LLM akan terakumulasi. Jika satu panggilan menjadi dua kali lebih cepat, agent dengan 10 langkah akan terasa 5 hingga 8 kali lebih cepat. Lebih jauh lagi, jika KV cache dapat dibagi antara drafter, model utama, dan antar langkah, pemuatan ulang konteks dapat ditekan. Jika dijajarkan dengan "Claude Opus 4.6 Fast Mode" yang diluncurkan Anthropic pada berita Mei 2026 dengan throughput 2,5 kali lipat, serta GPT-5.3-Codex dari OpenAI yang menjadi 25% lebih cepat, terlihat bahwa seluruh industri sedang secara bersamaan mengarah pada konvergensi terhadap "metode konstruksi khusus untuk menghasilkan kecerdasan yang sama dengan lebih cepat dan lebih murah".

Risiko dan Hal yang Perlu Diperhatikan dari Sudut Pandang VC: Tidak Semua Orang Bisa Menikmati Lipat Tiga

Dari sudut pandang VC Silicon Valley, terdapat tiga isu yang belum terselesaikan terkait penyebaran MTP.

Pertama, ketimpangan ketergantungan pada perangkat keras. Karena efektivitas MTP sangat bergantung pada rasio antara bandwidth memori dan kepadatan komputasi, manfaatnya besar pada perangkat kelas atas seperti NVIDIA H100/RTX PRO 6000 atau Apple Silicon, sementara pada perangkat low-end sejati seperti Raspberry Pi 5 atau mikrokontroler dengan hierarki memori yang dangkal, efeknya terbatas. Menurut dokumentasi LiteRT-LM, decoding Gemma 4 E2B pada Raspberry Pi 5 mencapai 7,6 tokens/sec di CPU, dan meningkat menjadi 31 tokens/sec pada NPU Qualcomm Dragonwing IQ8. Sejujurnya, sejauh mana MTP efektif pada NPU masih bergantung pada implementasi masing-masing vendor SoC. Saat investor melihat startup "On-Device AI", mereka perlu menyadari bahwa pemilihan perangkat keras dan kompatibilitasnya dengan MTP berdampak besar pada angka-angka kinerja.

Kedua, trade-off akurasi pada beban kerja pembangkitan kode. Berdasarkan verifikasi AI-Muninn dan kaitchup, pada tugas pembangkitan kode, tingkat penerimaan drafter menurun dan komputasi spekulatif yang sia-sia meningkat, sehingga hasilnya berkurang cukup signifikan dari skenario terbaik 3x lipat. Produk asistensi kode seperti Anthropic Claude Code, GitHub Copilot, Cursor, dan Replit Agent kemungkinan tidak memperoleh manfaat MTP semudah produk percakapan. Saat VC melakukan due diligence di area ini, semakin penting untuk memastikan bahwa benchmark tidak hanya berfokus pada chat.

Ketiga, kompetisi standardisasi ekosistem. "Gemma 4 MTP Drafter" resmi dari Google, serta varian dari komunitas seperti EAGLE-3, MEDUSA, Lookahead, dan MTP saat pelatihan ala DeepSeek berkembang secara paralel, dan peta kekuatan dapat berubah tergantung mana yang diistimewakan sebagai "warga kelas satu" oleh runtime inferensi (vLLM, SGLang, MLX, llama.cpp, TensorRT-LLM). Fakta bahwa vLLM mengistimewakan drafter Google sejak Day 0 mengisyaratkan adanya aliansi Google×vLLM×Inferact, dan ini merupakan pergerakan menarik untuk membaca strategi portofolio a16z.

Kapan dan apa yang akan terjadi: peta jalan 6–18 bulan ke depan

Sebagai pergerakan terkini, pertama, pada Mei–Juni 2026, rilis mayor seri vLLM v0.20.x diperkirakan akan mengintegrasikan Gemma 4 MTP ke dalam versi stabilnya, dan dari diskusi di GitHub Issue #42005 serta PR #41745 terlihat bahwa tahap penyediaan image Docker resmi untuk Hopper maupun Blackwell telah tercapai. Di akhir tahun, MTP juga diperkirakan akan mencapai kualitas produksi pada MLX dan llama.cpp, dan kaitchup telah mengumumkan di blognya bahwa "MTP di llama.cpp akan naik dari beta ke GA".

Dalam jangka menengah, sebagaimana Sequoia Capital menggambarkan tahun 2026 sebagai "a year of delays", keterlambatan penambahan kapasitas pusat data dan keterlambatan jadwal AGI akan berbenturan, dan pentingnya pengurangan biaya inferensi akan semakin meningkat menuju tahun 2027. Mengingat prediksi IDC bahwa "permintaan inferensi akan menjadi 1000 kali lipat pada tahun 2027", metode "memproses lebih banyak dengan perangkat keras yang sama" seperti MTP memiliki makna yang kuat sebagai jawaban struktural terhadap kendala pasokan GPU. Gartner bahkan melangkah lebih jauh dengan memprediksi bahwa pada tahun 2030, biaya inferensi LLM dengan 1 triliun parameter akan turun lebih dari 90% dibandingkan tahun 2025 bagi para pelaku usaha GenAI.

Sebagai persiapan jangka panjang, kandidat-kandidat model frontier seperti DeepSeek V4 (model generasi berikutnya yang dirumorkan akan rilis di paruh kedua 2026, dengan atensi tiga dimensi ruang, waktu, dan modalitas yang dibicarakan), Meta Llama 5, xAI Grok 5, dan versi berikutnya dari Mistral Large, semuanya semakin menetapkan jalur untuk "mengintegrasikan MTP atau bentuk pengembangannya sejak tahap desain". NVIDIA telah meluncurkan "DeepSeek V4 with NVIDIA Blackwell" di blog teknis resminya, menunjukkan arah untuk mengoptimalkan tensor core generasi Blackwell untuk speculative decoding. Jika startup "chip khusus loop agen" yang sedang direkrut oleh Y Combinator muncul ke pasar, manfaat MTP akan diperkuat dari kedua sisi, perangkat keras maupun perangkat lunak.

Bagi para VC di Silicon Valley, rilis Google MTP kali ini terlihat bukan sebagai "komitmen tambahan pada Gemma 4 itu sendiri", melainkan sebagai dukungan kuat dari Google terhadap tesis "lapisan optimasi inferensi" yang telah mereka pertaruhkan sejak 2024. Laporan LLMflation dari a16z, seed funding 22,5 miliar yen ke Inferact, investasi tambahan dalam jumlah besar ke Together AI dan Fireworks AI, serta dana baru berskala 1 triliun yen dari Sequoia Capital, semuanya berdiri di atas logika bahwa "pemenang yang mencolok dalam pelatihan model dan pemenang yang sederhana namun raksasa dalam implementasi inferensi adalah hal yang berbeda". MTP justru merupakan simbol dari "metode yang sederhana namun efektif" tersebut, dan dengan kini memungkinkan siapa pun untuk memvalidasinya di atas model open-weight yang mudah diakses seperti Gemma 4, pasar lapisan inferensi sekaligus menjadi terlihat secara nyata — itulah rangkuman per Mei 2026.


Sumber