Ringkasan
Pada 5 Mei 2026, Google telah melancarkan "Multi-Token Prediction (MTP) Drafter", sebuah model pembantu untuk LLM bukaan-pemberat "Gemma 4" yang mempercepatkan inferens sehingga 3 kali ganda, di bawah lesen Apache 2.0. Sebagaimana Ajax pada pelayar telah mengubah UX melalui pramuat, MTP merobohkan andaian "menjana token satu demi satu" dan mengubah responsif secara mendadak dengan merampas token-token masa hadapan secara berkumpulan terlebih dahulu. VC di Silicon Valley meletakkan ini sebagai pergerakan simbolik yang menyokong "tesis pelaburan ke atas lapisan inferens", dan dana berjumlah besar terus mengalir masuk ke syarikat pemula pengoptimuman inferens seperti Inferact, Together AI dan Fireworks AI.
Gambaran keseluruhan berita: Pada 5 Mei, Google telah menaik taraf "pra-bacaan" menjadi ciri standard
Pada 5 Mei 2026, Google DeepMind telah melancarkan "Multi-Token Prediction (MTP) Drafter" untuk keluarga Gemma 4 melalui blog rasmi mereka yang bertajuk "Accelerating Gemma 4: faster inference with multi-token prediction drafters". Gemma 4 telah didedahkan pada 2 April tahun yang sama di Google Open Source Blog sebagai "Gemma 4: Expanding the Gemmaverse with Apache 2.0", dan hanya dalam masa beberapa minggu selepas pelancaran, ia telah melepasi 60 juta muat turun, menjadikannya LLM open-weight yang paling rancak pada masa ini. MTP, sebagai "langkah seterusnya", memainkan peranan untuk mempercepatkan Gemma 4 yang sedia ada sehingga 3 kali ganda, tanpa latihan tambahan dan tanpa perkakasan tambahan.
Kumpulan model bantuan yang dikeluarkan ini menyokong kesemua empat saiz Gemma 4 (E2B untuk mudah alih, E4B untuk edge, 26B A4B Mixture-of-Experts untuk GPU pengguna, dan 31B Dense untuk stesen kerja). Pengedaran telah bermula di Hugging Face dan Kaggle, dan masa jalan inferens utama seperti Hugging Face Transformers, MLX, vLLM, SGLang, Ollama, serta LiteRT-LM dari Google AI Edge Gallery telah memberikan sokongan pada "Day 0". Sebagai respons kepada pelancaran rasmi Google, vLLM telah mengumumkan di X rasmi mereka "🚀 Day-0 MTP support for Gemma4 now available at vLLM", sambil pada masa yang sama mengeluarkan imej Docker khusus untuk Hopper dan Blackwell (vllm/vllm-openai:gemma4-0505-cu129/cu130).
Dari segi anggaran angka, Google menekankan "sehingga 3 kali ganda", manakala media luar negara yang menjalankan liputan langsung melaporkan julat realistik dengan lebih berhati-hati. Media seperti Decrypt, MarkTechPost, Eastern Herald, The Decoder, dan claypier melaporkan bahawa angka 3 kali ganda itu merupakan "kes terbaik" apabila menjalankan 26B MoE pada NVIDIA RTX PRO 6000 dengan saiz batch optimum untuk tugas perbualan, manakala pada GPU pengguna (kelas RTX 4090) angka tersebut menetap pada 1.8 hingga 2.5 kali ganda, dan pada Apple Silicon (kelas M3 Max/M4 Max) pada 1.6 hingga 2.2 kali ganda — angka yang lebih sederhana tetapi praktikal.
Sebab ia digelar "Ajax versi LLM": membalikkan paksi masa melalui pramuat dan pengesahan
Saya ingin terlebih dahulu menerangkan inti pati teknikalnya pada satu tahap abstraksi. Mengapa saya menamakannya "Ajax versi LLM" dalam tajuk? Ajax (Asynchronous JavaScript and XML) ialah teknologi yang mengubah UX dengan membenarkan pelayar membaca terlebih dahulu dan mengemas kini sebahagian halaman secara tak segerak terhadap bahagian yang berkemungkinan diminta pengguna, sebagai ganti menunggu seluruh halaman dimuat semula. Perubahan asas yang dibawa MTP kepada inferens LLM adalah serupa dengan ini. Iaitu, pendekatan "model ringan terlebih dahulu menghasilkan beberapa token sebelum model besar di hulu menentukan token yang sebenarnya diperlukan oleh pengguna".
Inferens Transformer biasa beroperasi melalui mekanisme yang dipanggil autoregresif (autoregressive), di mana setiap kali satu token dikeluarkan, berbilion hingga ratusan bilion parameter dibaca daripada memori. Walaupun unit pengiraan GPU itu sendiri mempunyai kapasiti yang mencukupi, lebar jalur memori menjadi penghambat sehingga unit pengiraan terbiar. Kertas kerja "Fast Inference from Transformers via Speculative Decoding" yang diterbitkan oleh Google Research pada tahun 2022 atas nama Yaniv Leviathan, Matan Kalman, Yossi Matias dan rakan-rakan (diterima di ICML 2023) tepat-tepat bermula daripada pemerhatian ini. Kertas tersebut menunjukkan bahawa T5-XXL (11B) boleh dirangka oleh T5 kecil berparameter 60M dan mencapai pecutan 2 hingga 3 kali ganda "tanpa mengubah taburan output langsung", dan ia telah mantap sebagai lapisan pecutan standard industri.
MTP merupakan bentuk terkini dalam keturunan ini. Pelukis MTP Gemma 4 ialah model ringan 4 lapisan yang dibina dengan "Q-only attention", dan satu inovasi besar telah dilakukan iaitu berkongsi KV cache dengan model sasaran (induk). Mekanisme khususnya berfungsi seperti berikut. Mula-mula, pelukis membaca terlebih dahulu N token masa depan (biasanya 4 hingga 8 token) secara berturut-turut sambil berkongsi pengaktifan lapisan akhir dan jadual embedding input dengan model induk. N token tersebut kemudian disahkan secara selari oleh Gemma 4 induk dalam satu hantaran ke hadapan. Token yang dianggap oleh model induk sebagai "selaras dengan ramalannya sendiri" diterima sepenuhnya, dan pada titik percanggahan pertama, draf dipotong, dan model induk sendiri mengeluarkan satu token yang betul (kerana sekurang-kurangnya 1 token diperoleh dengan pasti setakat ini, ia tidak menjadi pukulan sia-sia). Selepas itu, pelukis memulakan semula pembacaan awal, dan kitaran ini berputar dengan pantas.
Lebih mudah dibayangkan jika kita gantikan dengan contoh sebenar. Sebagai contoh, jika diberi gesaan "Cuaca di Tokyo", pelukis akan membaca terlebih dahulu 4 token seperti "cerah", ", esok", "mendung", "kemudian hujan". Model induk yang sepatutnya perlu menjalankan 4 kali hantaran ke hadapan, dapat menilai keempat-empat calon ini sekaligus dalam satu hantaran. Jika 3 token sepadan, maka 3 token + 1 token pembetulan oleh model induk sendiri = jumlah 4 token akan ditentukan dalam hampir 1 langkah. Inilah maksud penyataan dalam blog rasmi Google "the target model accepts the entire sequence in a single forward pass — and even generates an additional token of its own in the process" (model induk menerima keseluruhan jujukan dalam satu hantaran ke hadapan, dan tambahan pula menjana satu token miliknya sendiri dalam proses tersebut).
Apa yang perlu diberi perhatian ialah ini bukanlah "pecutan yang mengorbankan ketepatan". Memandangkan model induk pasti melalui pengesahan akhir, taburan output dikekalkan secara matematik sama dengan kes tanpa MTP. Seperti yang ditulis dengan jelas oleh blog rasmi Hugging Face "Welcome Gemma 4" "Same outputs as target model with no quality loss and no changes to reasoning behavior", titik bahawa ini ialah lapisan pecutan "tanpa kehilangan (lossless)" inilah yang membezakannya secara muktamad daripada pengkuantitian atau penyulingan.
Menghuraikan dengan lebih lanjut "Apa yang dilihat oleh drafter"
Bagi pemula, bahagian yang sukar mungkin terletak pada aspek intuitif: mengapa drafter kecil mampu menghasilkan jawapan yang "hampir betul" daripada taburan kebarangkalian yang sama seperti model utama. Terdapat dua kunci pelaksanaan untuk perkara ini.
Yang pertama ialah "perkongsian jadual pembenaman" (embedding table sharing). Drafter merujuk kepada jadual pembenaman input yang sama dengan model utama Gemma 4. Oleh kerana token seperti "dog", "猫", dan "東京" dikendalikan dalam ruang vektor yang benar-benar sama dengan model utama, ketidakselarasan leksikal pada dasarnya tidak akan berlaku. Yang kedua ialah "penggunaan pengaktifan sasaran" (target activation). Drafter menerima vektor pengaktifan yang dihasilkan oleh lapisan terakhir model utama sebagai input, kemudian menghasilkan ramalan untuk N token akan datang menggunakan transformer ringan 4 lapisan. Dengan kata lain, model utama sudah memiliki petunjuk yang agak kuat tentang "apa yang akan datang seterusnya", dan drafter melakukan ramalan ke hadapan dengan mewarisi petunjuk tersebut, jadi ia sukar terpesong daripada konteks.
Dalam kes Gemma 4, terutamanya untuk model-model yang disasarkan kepada edge seperti E2B (efektif 2.3B) / E4B (efektif 4.5B), terdapat tambahan inovasi yang dipanggil "embedder clustering", yang menapis daripada 256K perbendaharaan kata kepada 4K kluster yang "berkemungkinan" dari segi konteks. Dengan ini, walaupun pada peranti dengan memori dan pengiraan yang terhad seperti telefon pintar, pengiraan logit drafter tidak menjadi halangan. Dalam dokumentasi Google AI for Developers "Speed-up Gemma 4 with Multi-Token Prediction", dinyatakan bahawa drafter "the model groups similar tokens into clusters" (mengumpulkan token-token serupa ke dalam kluster).
Kadar penerimaan token (acceptance rate) juga merupakan petunjuk yang penting. Menurut pengesahan oleh syarikat buildfastwithai, drafter Gemma 4 MTP menunjukkan kadar 70–90% dalam tugas perbualan, manakala dalam tugas penjanaan kod menunjukkan nilai yang lebih rendah. Ini kerana walaupun kod mempunyai tahap rawak yang lebih rendah, ia mempunyai banyak kebergantungan jarak jauh (closure atau sintaks yang puluhan token ke hadapan), dan terdapat lebih banyak situasi di mana drafter tunggal tidak dapat meramalkan sepenuhnya. Apabila menjalankan Gemma 4 MTP secara praktikal pada vLLM, parameter yang disyorkan "num_assistant_tokens" ditetapkan kepada 3–4 untuk kod, 5–8 untuk perbualan, dan 10–15 untuk prosa panjang, dan operasi yang menyesuaikan secara dinamik mengikut kadar penerimaan menggunakan jadual "heuristic" telah diperkenalkan dalam blog pembangun seperti dasroot dan kaitchup.
Salasilah dengan DeepSeek, Meta, dan EAGLE: MTP ialah "medan pertempuran utama seterusnya"
Sebagaimana yang dinyatakan dalam blog rasmi Google, pendekatan ala MTP bukanlah satu kejayaan mengejut, sebaliknya diletakkan sebagai langkah terkini dalam silsilah penyelidikan yang terkumpul. Pada April 2024, Meta telah menerbitkan "Better & Faster Large Language Models via Multi-token Prediction" (arXiv:2404.19737) di bawah nama Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve dan lain-lain, yang menunjukkan bahawa dengan meramalkan "N token seterusnya" menggunakan kepala output bebas semasa latihan, model 13B mencatat skor 12% lebih tinggi pada HumanEval dan 17% lebih tinggi pada MBPP berbanding model ramalan token-seterusnya sedia ada, dan model ramalan serentak 4 token mencapai kelajuan inferens sehingga 3 kali ganda lebih pantas. DeepSeek mengamalkan MTP ini dalam V3 mereka, menjalankan pra-latihan 14.8 trilion token dengan kepala ramalan n=4, dan dalam laporan teknikal di ArXiv mencatatkan bahawa kadar penerimaan MTP1 melebihi 80% semasa inferens, merealisasikan peningkatan kadar pemprosesan penjanaan kira-kira 1.8 kali ganda.
Jenis DeepSeek yang menggabungkan MTP ke dalam fungsi objektif semasa latihan, dan jenis Google yang hanya menambah pendraf bantuan semasa inferens, dipanggil dengan nama yang serupa tetapi pendekatannya berbeza. Dalam kes Google Gemma 4, latihan utama itu sendiri diselesaikan dengan ramalan token-seterusnya standard, dan pendraf ringan dilatih secara berasingan kemudian dan dipasang. Dengan ini, kelebihan operasi yang besar adalah pemecutan boleh ditambah kemudian kepada 31B Dense atau 26B MoE yang sudah dilatih, tanpa perlu melatih semula.
Selain itu, sebagai teknologi berkaitan, terdapat "MEDUSA" oleh Tianle Cai dan rakan-rakan (pendekatan menumbuhkan beberapa kepala ramalan terus pada model utama), "EAGLE-3" oleh Yuhui Li dan rakan-rakan (kepala draf luaran yang menggabungkan ciri tiga lapisan awal, tengah dan akhir), dan "Lookahead Decoding" (menjana n-gram secara selari dengan tetingkap 2D). Menurut penjelasan blending oleh SyncSoft.AI, EAGLE-3 mengekalkan kadar penerimaan 0.75–0.85 untuk sistem sembang, dan dikatakan memperoleh kelajuan tambahan 1.7–2.1 kali ganda dan 1.5–1.6 kali ganda berbanding MEDUSA dan Lookahead. Malah, untuk Gemma 4 juga, sebelum pelepasan MTP rasmi, komuniti telah pun melatih pendraf EAGLE-3 lebih awal, dan dipublikasikan sebagai thoughtworks/Gemma-4-31B-Eagle3 dan RedHatAI/gemma-4-31B-it-speculator.eagle3. Artikel Eastern Herald dan claypier turut menunjukkan bahawa pelepasan rasmi Google kali ini diletakkan sebagai "akhirnya mengembalikan kepada komuniti dalam bentuk rasmi, kepala MTP yang telah dipadam semasa pelepasan pemberat pertama Gemma 4".
Membaca Penanda Aras: Di Mana 3 Kali Ganda, dan Berapa Kali Ganda dalam Realiti
Apa yang menarik perhatian serentak pelbagai syarikat media ialah kesahihan angka "sehingga 3 kali ganda" yang diketengahkan oleh Google. Mengenai perkara ini, dengan membandingkan beberapa sumber, gambarannya menjadi agak jelas.
Dalam persekitaran workstation kelas tinggi, angkanya memang baik. Pengukuran pada NVIDIA DGX Spark/GB10 yang dipos di NVIDIA Developer Forum menunjukkan bahawa Gemma 4 26B A4B-it (pengkuantuman FP8) yang digabungkan dengan MTP γ=4 mencatatkan 108.78 tokens/sec untuk permintaan tunggal (2.66 kali ganda berbanding garis dasar 40.85 tokens/sec tanpa MTP). Untuk 8 permintaan selari, daya pemprosesan agregat mencapai 674 tokens/sec, dan dilaporkan bahawa walaupun dari sudut pandangan pengguna individu ia mengekalkan kira-kira 2 kali ganda berbanding sebelumnya, secara keseluruhan pelayan ia berskala sehingga 16.5 kali ganda. Dalam data pengesahan PR #41745 di pihak vLLM (dimulakan oleh Luciano Martins, digabungkan pada 6 Mei 2026), peningkatan daya pemprosesan yang besar turut dilaporkan pada H100, iaitu 130% untuk E2B, 178% untuk E4B, dan 319% untuk 31B Dense.
Sebaliknya, pengalaman pada kelas komputer riba mahupun MacBook agak lebih sederhana. Seperti yang disebut oleh Decrypt, pada Apple Silicon dengan saiz batch 1 (iaitu kegunaan sembang pengguna individu), Gemma 4 26B MoE hanya berada pada sekitar 1.5〜1.7 kali ganda. Ini kerana dalam seni bina MoE (Mixture-of-Experts) yang direka supaya pakar yang berbeza diaktifkan bagi setiap token, pemberat pakar yang berbeza perlu dimuatkan pada setiap kedudukan dalam urutan token yang dibaca terlebih dahulu oleh drafter, lalu mengurangkan kesan penjimatan lebar jalur memori. Jika saiz batch dinaikkan kepada 4〜8 dan permintaan selari diikat bersama, ia akan kembali kepada kira-kira 2.2 kali ganda. Bagi model 31B versi Dense, kerana tiada kekangan penghalaan seperti ini, ia lebih mudah memberikan kesan sekitar 2 kali ganda dengan lebih stabil walaupun pada Apple Silicon — itulah pandangan yang sepakat antara blog Hugging Face dan komuniti MLX.
Satu lagi perkara yang ditegaskan secara sama oleh blog rasmi Google dan MarkTechPost ialah "premisnya ialah model instruction-tuned (-it), bukan base model". Dalam pengesahan mesin sebenar oleh AI-Muninn, dilaporkan bahawa apabila drafter dipasangkan pada base model, kelajuannya sebaliknya jatuh kepada 0.61 kali ganda, dan ini ialah perkara yang perlu diberi perhatian yang kurang ditekankan dalam pengumuman rasmi Google.
Pandangan VC Silicon Valley: Keyakinan bahawa "lapisan inferens" akan menjadi medan pertempuran utama seterusnya
Komuniti VC Silicon Valley membaca langkah Google ini bukan sebagai sekadar kemas kini produk secara berasingan, tetapi sebagai tanda bahawa kategori pasaran baharu yang dipanggil "lapisan inferens (inference layer)" sedang matang. Laporan "Welcome to LLMflation — LLM inference cost is going down fast" yang dikeluarkan oleh Guido Appenzeller dari Andreessen Horowitz (a16z) menunjukkan dengan angka bahawa kos inferens LLM pada prestasi yang setara jatuh pada kadar 10 kali ganda setiap tahun, dengan kos kelas GPT-3 yang pada November 2021 berharga $60 bagi 1M token telah jatuh ke $0.06 bagi 1M token dengan Llama 3.2 3B pada 2025 (kejatuhan 1000 kali ganda dalam 3 tahun), dan menyenaraikan "pengurangan keperluan pengiraan dan lebar jalur memori melalui pengoptimuman perisian" sebagai salah satu daripada 6 tonggak utama kejatuhan tersebut. MTP adalah wakil sebenar bagi "penambahbaikan lebar jalur melalui pengoptimuman perisian" tersebut.
Seolah-olah menyokong tesis ini dengan dana, pada Januari 2026, Inferact yang ditubuhkan oleh penyelenggara utama vLLM (Simon Mo, Woosuk Kwon, Kaichao You, Roger Wang) telah melengkapkan pusingan benih sebanyak $150 juta (kira-kira ¥22.5 bilion) yang dipimpin bersama oleh a16z dan Lightspeed Venture Partners, dan dilancarkan pada penilaian $800 juta (kira-kira ¥120 bilion). Pelaburan turut disertai oleh Sequoia Capital, Altimeter Capital, Redpoint Ventures dan Databricks Ventures. Menurut laporan TechCrunch, a16z secara jelas menyatakan tesis pelaburannya bahawa "dengan hanya menambah pembelian H100, kita tidak dapat menembusi tembok kadar penggunaan GPU 30–40%. Yang akan menarik keluar baki 70% kuasa pengiraan berlebihan ialah lapisan perisian." vLLM yang ingin dikomersialkan oleh Inferact adalah persis sistem yang baru sahaja melaksanakan sokongan Day 0 untuk Gemma 4 MTP, dengan tesis dan produk sebenar sejajar antara satu sama lain.
Yang turut mendapat perhatian hangat daripada pelabur ialah awan inferens Together AI dan Fireworks AI. Together AI pada Februari 2025 menghimpunkan Siri B sebanyak $305 juta (kira-kira ¥45.75 bilion) yang dipimpin bersama oleh General Catalyst dan Prosperity 7, melonjak ke penilaian $3.3 bilion (kira-kira ¥495 bilion) dalam satu langkah. Syarikat itu secara rasmi menjelaskan bahawa mereka "menggabungkan penyahkodan spekulatif, pengkuantitian dan kernel FP8 untuk menghasilkan prestasi", dan telah mempersiapkan sistem untuk dengan pantas mengintegrasikan drafter daripada keluarga MTP ke dalam platform inferens mereka. Fireworks AI pada Oktober 2025 melaksanakan Siri C sebanyak $250 juta (kira-kira ¥37.5 bilion) pada penilaian $4 bilion (kira-kira ¥600 bilion). Menurut analisis Sacra, ARR syarikat itu mencapai $315 juta (kira-kira ¥47.25 bilion) pada Februari 2026, mencapai pertumbuhan pesat 416% berbanding tahun sebelumnya.
Dalam "Summer 2026 Requests for Startups" oleh Y Combinator, rakan kongsi am Diana Hu secara eksplisit memohon "cip khusus untuk gelung ejen". Beliau menyatakan "GPU semasa hanya menghasilkan kadar penggunaan 30–40% dalam beban kerja ejen (gelung, panggilan alat, cabang, backtrack, pengekalan konteks jangka panjang). Kami mahukan cip yang direka dengan pertukaran konteks pantas antara model, penyahkodan spekulatif natif, dan cache KV yang merentasi keseluruhan graf pelaksanaan", dan tindak balas daripada pihak perkakasan turut menjadi nyata. MTP adalah teknologi yang menjadi teras kepada "penyahkodan spekulatif natif" tersebut.
Sequoia Capital pada April 2026 mengumumkan dana lanjutan $7 bilion (kira-kira ¥1.05 trilion) untuk pelaburan AI/peringkat akhir, dan dalam laporan syarikat itu "AI in 2026: A Tale of Two AIs" dan "2026: This is AGI", dengan memetik ramalan IDC bahawa permintaan inferens dalam era ejen akan membengkak 1000 kali ganda menjelang 2027, syarikat itu menyatakan bahawa "kejatuhan struktur kos inferens dan letupan permintaan akan berlaku selari." Mengikut himpunan laporan daripada Bloomberg dan finsmes, Sequoia secara aktif mengutip syarikat permulaan yang menjual teknologi penyahkodan spekulatif yang menjadi asas MTP (seperti Pipeshift) dalam julat benih hingga Siri B, di samping Inferact dan Fireworks AI yang khusus dalam pengoptimuman inferens.
Kesan kepada perusahaan juga mula muncul sebagai angka. Laporan AICC melaporkan bahawa "pada April 2026, harga unit token efektif (campuran) perusahaan telah jatuh kepada $6.07 bagi setiap 1M token, turun 67% daripada $18.40 setahun yang lalu." Fortune Business Insights menjangkakan bahawa pasaran inferens AI akan mencapai $117.8 bilion (kira-kira ¥17.7 trilion) pada 2026 daripada $103.73 bilion (kira-kira ¥15.6 trilion) pada 2025, dan $312.64 bilion (kira-kira ¥46.9 trilion) menjelang 2034. Mengenai pasaran AI tepi, Grand View Research meramalkan $24.91 bilion (kira-kira ¥3.7 trilion) pada 2025 → $29.98 bilion (kira-kira ¥4.5 trilion) pada 2026 → $118.69 bilion (kira-kira ¥17.8 trilion, CAGR 21.7%) pada 2033, dan keluaran kali ini di mana E2B/E4B untuk tepi berjalan dengan MTP yang diringankan akan menjadi tiupan angin yang besar tepat di tengah-tengah keluk ini.
Nada laporan: Asal-usul "3x Tanpa Kehilangan" dan analisis yang tenang
Cara pelaporan setiap media mempunyai nuansa yang halus. Eastern Herald, MarkTechPost, AIToolly, Pulse2.0 dan Neuronad secara amnya melaporkan dengan nada yang terus menerima mesej rasmi Google iaitu "3 kali ganda lebih pantas, tanpa penurunan kualiti". Sebaliknya, media yang lebih berorientasikan teknikal seperti The Decoder (di bawah Heise), Decrypt, claypier dan buildfastwithai menegaskan bahawa angka 3 kali ganda hanyalah had atas pada "perkakasan tertentu, saiz batch tertentu dan beban kerja tertentu", dan "jangkaan yang sepatutnya" dalam persekitaran sebenar ialah 1.7 hingga 2.2 kali ganda. Dalam thread Hacker News (item 48024540), banyak penjelasan tepat telah diberikan oleh pembangun veteran, seperti "ini pada hakikatnya sama dengan melakukan self-batching terhadap laluan masa hadapan yang anda jangkakan sendiri" dan "ini adalah mekanisme untuk mengisi unit pengiraan yang menganggur pada GPU yang dibatasi lebar jalur memori", dan terdapat suara yang memuji kecekapan token Gemma 4 yang berdampingan dengan penilaian tenang bahawa ia kalah berbanding Claude atau GPT dalam penjanaan kod dan panggilan alat yang kompleks.
Reaksi komuniti di Reddit r/LocalLLaMA juga wajar diberi perhatian. Menurut Startup Fortune, pada hari pelancaran 5 Mei, subreddit tersebut mengumpulkan 463 upvote / 128 komen dalam masa 3 jam, dan pada hari yang sama laporan pengesahan operasi pada llama.cpp, Ollama, vLLM dan LM Studio muncul satu demi satu. Penilaian yang mendominasi ialah "inilah impak terbesar terhadap kepantasan inferens tempatan pada perkakasan yang sama sejak MTP semasa latihan diperkenalkan dalam DeepSeek V3" dan "ini lebih daripada sekadar pelancaran model baharu — ia adalah pergerakan yang akan menjadi tipping point bagi pengoperasian praktikal inferens tempatan".
Pelaporan dalam ruang bahasa Jepun masih terhad, tetapi media teknologi utama telah mula mengetengahkannya melalui terjemahan blog rasmi Google, dan khususnya semakin banyak ulasan yang memberi perhatian kepada "pengoperasian praktikal ejen on-device pada Pixel TPU dan Apple Silicon" dalam konteks penggunaan edge / on-premise. Dalam "Bring state-of-the-art agentic skills to the edge with Gemma 4" yang diterbitkan serentak oleh Google Developers Blog, contoh operasi diperkenalkan di mana Gemma 4 E2B / E4B menjalankan ejen autonomi berbilang langkah sepenuhnya secara offline dengan digabungkan dengan ciri baharu Agent Skills, dan Tris Warkentin (Ketua Produk Google DeepMind) telah menyiarkan di X (dahulunya Twitter) bahawa "pengalaman AI di tempatan baru sahaja bermula dari sini".
Skop kesan: ke arah sembang, ejen, dan AI dalam peranti
Dari sudut teknikal, MTP pada hakikatnya berkesan dalam keadaan di mana "lebar jalur memori menjadi penghambat dan unit pengiraan terbiar". Ini secara khusus memberi kesan langsung kepada tiga kes penggunaan berikut.
Pertama ialah penjanaan teks panjang yang berterusan, serta tugas sembang yang menghasilkan output panjang secara berturutan seperti rumusan dan terjemahan. Dalam kes seperti meminta AI menulis keseluruhan artikel blog, memformat minit mesyuarat, atau menjana draf pembentangan panjang, kelajuan yang dirasakan secara harfiah menjadi lebih daripada dua kali ganda. Kedua ialah antara muka suara. Dalam bidang di mana penjanaan teks respons daripada LLM menjadi laluan kritikal kependaman dalam saluran sintesis suara, permulaan respons dirasakan menjadi 30% hingga separuh lebih pendek. Dalam nota keluaran Google AI Edge Gallery dan dokumentasi LiteRT-LM, disebut dengan angka bahawa kelajuan penyahkodan menjadi lebih daripada dua kali ganda pada GPU mudah alih, dan ada kemungkinan pelaksanaan aplikasi suara dan dialog pada titik akhir Pixel dan Android akan maju dengan pesat sekaligus.
Ketiga ialah "beban kerja ejen" yang diletakkan oleh VC Silicon Valley sebagai tema terbesar untuk tahun 2026. Seperti yang dilambangkan oleh Sequoia yang mengisytiharkan "2026 is the year of long-horizon agents" dan Diana Hu dari Y Combinator yang mencari "cip khusus untuk gelung ejen", dalam gelung berpuluh-puluh langkah yang melibatkan panggilan alat, percabangan dan penjejakan balik, kependaman panggilan LLM terkumpul. Jika satu panggilan menjadi dua kali lebih pantas, maka ejen 10 langkah akan dirasakan 5 hingga 8 kali lebih pantas. Tambahan pula, jika cache KV boleh dikongsi antara perancang, badan utama dan antara langkah, pemuatan semula konteks dapat dikurangkan. Apabila diletakkan bersebelahan dengan "Claude Opus 4.6 Fast Mode" yang diumumkan Anthropic dalam berita Mei 2026 yang mengeluarkan daya pemprosesan 2.5 kali ganda, serta GPT-5.3-Codex OpenAI yang dipercepatkan sebanyak 25%, kelihatan bahawa keseluruhan industri sedang menumpu serentak ke arah "kaedah khusus untuk menghasilkan kepintaran yang sama dengan lebih pantas dan lebih murah".
Risiko dan perkara yang perlu diberi perhatian dari perspektif VC: Bukan semua orang boleh menikmati ganjaran 3 kali ganda
Dari perspektif VC Silicon Valley, terdapat tiga isu yang belum diselesaikan berkaitan dengan penyebaran MTP.
Pertama, kebergantungan kepada perkakasan yang tidak sekata. Memandangkan keberkesanan MTP sangat bergantung pada nisbah antara lebar jalur memori dan ketumpatan pengiraan, model peringkat atas seperti NVIDIA H100/RTX PRO 6000 dan Apple Silicon memperoleh manfaat yang besar, manakala kesannya terhad pada peranti hujung rendah sebenar seperti Raspberry Pi 5 atau mikropengawal dengan hierarki memori yang cetek. Menurut dokumentasi LiteRT-LM, penyahkodan Gemma 4 E2B pada Raspberry Pi 5 adalah 7.6 tokens/saat pada CPU, dan meningkat sehingga 31 tokens/saat pada NPU Qualcomm Dragonwing IQ8. Sejujurnya, sejauh mana MTP berkesan pada NPU masih bergantung pada pelaksanaan setiap vendor SoC. Apabila pelabur menilai syarikat pemula "On-Device AI", mereka perlu sedar bahawa pemilihan perkakasan dan keserasian MTP memberi kesan besar kepada angka prestasi.
Kedua, pertukaran ketepatan dalam beban kerja penjanaan kod. Berdasarkan pengesahan AI-Muninn dan kaitchup, kadar penerimaan drafter menurun untuk tugasan penjanaan kod, dan pengiraan spekulatif yang sia-sia bertambah, justeru ia jauh berkurangan daripada kes terbaik 3x. Produk bantuan kod seperti Anthropic Claude Code, GitHub Copilot, Cursor dan Replit Agent berkemungkinan tidak memperoleh manfaat MTP dengan semudah produk berasaskan perbualan. Apabila VC menjalankan usaha wajar dalam bidang ini, kepentingan untuk mengesahkan sama ada penanda aras terlalu berpusat kepada sembang menjadi semakin meningkat.
Ketiga, persaingan untuk pempiawaian ekosistem. "Gemma 4 MTP Drafter" rasmi Google, bersama dengan aliran daripada komuniti seperti EAGLE-3, MEDUSA, Lookahead dan MTP gaya DeepSeek semasa latihan, sedang berkembang secara selari, dan peta kuasa boleh berubah bergantung kepada mana satu yang dilayan sebagai "rakyat kelas pertama" oleh runtime inferens (vLLM, SGLang, MLX, llama.cpp, TensorRT-LLM). Hakikat bahawa vLLM mengutamakan drafter Google pada Day 0 mencadangkan kewujudan pakatan Google×vLLM×Inferact, dan ia merupakan pergerakan yang menarik untuk memahami strategi portfolio a16z.
Bila dan apa yang akan berlaku: Peta hala tuju 6–18 bulan akan datang
Sebagai perkembangan terkini, pertama sekali pada Mei–Jun 2026, keluaran utama siri vLLM v0.20.x dijangka mengintegrasikan Gemma 4 MTP ke dalam versi stabil, dan daripada perbincangan GitHub Issue #42005 dan PR #41745, ia telah mencapai peringkat di mana imej Docker rasmi disediakan untuk kedua-dua Hopper dan Blackwell. Dalam tahun ini, MTP juga dijangka mencapai kualiti pengeluaran pada MLX dan llama.cpp, dengan kaitchup mengumumkan terlebih dahulu di blognya bahawa "MTP pada llama.cpp akan dinaik taraf daripada beta kepada GA".
Dalam jangka masa sederhana, sebagaimana Sequoia Capital menggambarkan 2026 sebagai "a year of delays", kelewatan pengembangan pusat data dan kelewatan garis masa AGI berlanggar antara satu sama lain, dan kepentingan pengurangan kos inferens akan semakin meningkat menjelang 2027. Berdasarkan ramalan IDC bahawa "permintaan inferens akan meningkat 1000 kali ganda menjelang 2027", kaedah seperti MTP yang "memproses lebih banyak dengan perkakasan yang sama" mempunyai makna kuat sebagai jawapan struktural kepada kekangan bekalan GPU. Gartner pula meneruskan dengan lebih jauh, meramalkan bahawa menjelang 2030, kos inferens LLM 1 trilion parameter bagi pengusaha GenAI akan turun lebih daripada 90% berbanding 2025.
Sebagai petanda jangka panjang, calon model frontier seperti DeepSeek V4 (model generasi seterusnya yang dikhabarkan akan keluar pada separuh kedua 2026, dengan perhatian tiga dimensi merangkumi ruang, masa, dan modaliti yang sedang diperkatakan), Meta Llama 5, xAI Grok 5, dan versi seterusnya Mistral Large, semuanya semakin menjadi haluan tetap untuk "mengintegrasikan MTP atau bentuk lanjutannya daripada peringkat reka bentuk". NVIDIA dalam blog teknikal rasmi telah memperkenalkan "DeepSeek V4 with NVIDIA Blackwell", menunjukkan aliran mengoptimumkan teras tensor generasi Blackwell untuk penyahkodan spekulatif. Jika syarikat permulaan "cip khusus gelung ejen" yang sedang diambil oleh Y Combinator muncul di pasaran, manfaat MTP akan diperkuatkan dari kedua-dua belah perkakasan dan perisian.
Bagi VC Silicon Valley, keluaran Google MTP kali ini dilihat bukan sebagai "komitmen tambahan terhadap Gemma 4 itu sendiri", tetapi sebagai sokongan kukuh daripada Google terhadap tesis "lapisan pengoptimuman inferens" yang telah mereka pertaruhkan sejak 2024. Laporan LLMflation a16z, pembiayaan benih 22.5 bilion yen ke Inferact, pelaburan tambahan jumlah besar ke Together AI dan Fireworks AI, serta dana baharu Sequoia Capital berskala 1 trilion yen, semuanya berdasarkan logik bahawa "pemenang gemilang dalam latihan model dan pemenang yang sederhana tetapi besar dalam pelaksanaan inferens adalah dua perkara yang berbeza". MTP merupakan simbol bagi "kaedah yang sederhana tetapi berkesan" itu, dan dengan kemunculannya sehingga sesiapa sahaja boleh mengesahkannya pada model berat terbuka yang mudah diakses iaitu Gemma 4, ia secara serta-merta telah menyerlahkan kewujudan pasaran lapisan inferens — itulah ringkasan keseluruhan setakat Mei 2026.
Sumber
- Mempercepatkan Gemma 4: inferens lebih pantas dengan pelakar ramalan berbilang token - Google Blog
- Pecutkan Gemma 4 dengan Ramalan Berbilang Token - Google AI for Developers
- Ramalan Berbilang Token (MTP) Gemma 4 menggunakan Hugging Face Transformers - Google AI for Developers
- Gemma 4: Bait demi bait, model terbuka paling berkemampuan - Google Blog
- Gemma 4 - Google DeepMind
- Gemma 4: Memperluaskan Gemmaverse dengan Apache 2.0 - Google Open Source Blog
- Selamat datang Gemma 4: Kepintaran multimodal sempadan pada peranti - Hugging Face
- Google AI Mengeluarkan Pelakar Ramalan Berbilang Token (MTP) untuk Gemma 4 - MarkTechPost
- Google mempercepatkan Gemma 4 tiga kali ganda dengan ramalan berbilang token - The Decoder
- Google Menemui Cara untuk Menjadikan AI Tempatan Sehingga 3x Lebih Pantas - Decrypt
- Gemma 4 Google Menjadi 3× Lebih Pantas Dengan Naik Taraf MTP - Eastern Herald
- Google Melancarkan Pelakar MTP untuk Gemma 4 - claypier
- Pelakar MTP Gemma 4: Dapatkan Inferens 3x Lebih Pantas (Panduan 2026) - Build Fast With AI
- Liftoff: Gemma 4 mencapai 670 tok/s agregat pada DGX Spark - AI Muninn
- vLLM PR #41745: Menambah sokongan penyahkodan spekulatif MTP Gemma4
- Hacker News: Mempercepatkan Gemma 4 (item 48024540)
- Inferens Pantas daripada Transformers melalui Penyahkodan Spekulatif - Yaniv Leviathan et al., arXiv:2211.17192
- Mengimbas kembali penyahkodan spekulatif - Google Research Blog
- Model Bahasa Besar Lebih Baik & Lebih Pantas melalui Ramalan Berbilang Token - Meta, arXiv:2404.19737
- Laporan Teknikal DeepSeek-V3 - arXiv:2412.19437
- Selamat datang ke LLMflation - Kos inferens LLM - Andreessen Horowitz
- Melabur dalam Inferact - Andreessen Horowitz
- Syarikat permulaan inferens Inferact memperoleh $150J untuk mengkomersilkan vLLM - TechCrunch
- Together AI Mengumumkan Siri B $305J
- Hasil, penilaian & pembiayaan Fireworks AI - Sacra
- Sequoia Capital - AI pada 2026: Kisah Dua AI
- Sequoia Capital - 2026: Inilah AGI
- Permintaan Syarikat Permulaan YC Musim Panas 2026 (Diana Hu)
- Gambaran Keseluruhan LiteRT-LM - Google AI Edge
- Bawa kemahiran agentik tercanggih ke pinggir dengan Gemma 4 - Google Developers Blog
- Pengumuman sokongan MTP Hari-0 vLLM (X)
- Saiz Pasaran & Ramalan Inferens AI - Fortune Business Insights
- Saiz Pasaran & Trend Edge AI - Grand View Research
- Gartner: Kos inferens pada LLM 1T-parameter turun 90% menjelang 2030