Semua tentang AI tulen Jepun NTT tsuzumi 2, model tsuzumi 2 Vision

Model bahasa besar "tsuzumi (つづみ)" yang dibangunkan sepenuhnya secara domestik oleh NTT telah beralih generasi kepada "tsuzumi 2" dengan peluasan parameter kepada kira-kira 30 bilion (30B) pada Oktober 2025, dan pada 19 Mei 2026, model "tsuzumi 2 Vision" telah ditambah dengan keupayaan membaca dokumen perniagaan Bahasa Jepun berserta carta dan rajah dalam bentuk imej. Ciri utamanya ialah kemampuan beroperasi dengan hanya satu unit GPU, dilengkapi pengetahuan terbina dalam bidang kewangan, perubatan, dan awam, serta boleh digunakan secara on-premise tanpa menghantar data sulit ke luar syarikat. Makalah ini merangkum perjalanan dan teknologi tsuzumi, pemikiran Penyelidik Kanan Khusus Kyosuke Nishida (西田京介) yang mengetuai pembangunannya, serta penggunaannya di Universiti Komunikasi Tokyo dan platform AI kerajaan "Gennai", sebelum meninjau Silicon Va

tsuzumi (つづみ) ialah — AI buatan Jepun tulen yang bersaing bukan dengan "saiz" tetapi dengan "keringanan"

Pertama, saya ingin menjelaskan gambaran konkrit tentang apakah AI tsuzumi itu. Bayangkan seorang kakitangan bank tempatan bertanya, "Bagaimana cara menangani kod ralat dalam sistem dalaman ini?" dan jawapan terus diberikan serta-merta; kakitangan pentadbiran hospital meringkaskan panduan rawatan yang tebal; pejabat majlis tempatan menyediakan draf notis kepada penduduk — semua kerja ini dilaksanakan sepenuhnya dalam satu pelayan (satu unit GPU) yang diletakkan di dalam bangunan pejabat atau pusat data, tanpa menghantar sebarang data ke awan luar. Itulah cara penggunaan yang dibayangkan oleh tsuzumi.

tsuzumi ialah model bahasa besar (LLM) khusus bahasa Jepun yang dibangunkan sendiri oleh NTT. Namanya berasal daripada alat muzik tradisional Jepun "tsuzumi" (gendang), yang membawa maksud "kecil namun bergema dengan kaya" — mencerminkan semangat AI buatan Jepun. Berbeza dengan siri GPT daripada OpenAI atau Gemini daripada Google yang mengejar "model serba boleh yang semakin besar untuk mengendalikan segalanya", pendekatan tsuzumi adalah sebaliknya. NTT mengetengahkan visi masa depan bahawa "bukannya dengan membesarkan dan memusatkan LLM, sebaliknya melalui kerjasama pelbagai AI yang mempunyai keperibadian berbeza, Well-being masyarakat bersama manusia dapat direalisasikan" — dan menjadikan syarat reka bentuk pertama adalah membina AI dengan "saiz yang boleh digunakan" yang muat dalam kekangan belanjawan dan perkakasan di lapangan, bukan satu otak gergasi tunggal.

"Keringanan" ini bukan sekadar falsafah, tetapi berkait langsung dengan kerasionalan ekonomi. Model gergasi frontier memerlukan puluhan hingga ratusan unit GPU untuk inferens (menjalankan AI secara sebenar), dan penggunaan tenaga elektrik serta kos operasi telah menjadi halangan kepada penggunaan oleh syarikat. tsuzumi mengatasi ini dengan muat dalam satu unit GPU sahaja, mengurangkan penggunaan tenaga dan kos secara ketara. Selain itu, tsuzumi berpegang teguh pada pendekatan "dari awal (pembangunan sendiri dari sifar)" yang hanya menggunakan data yang NTT miliki haknya atau telah mendapat lesen penggunaannya dalam latihan — mengelakkan risiko pertikaian hak cipta dan harta intelek yang membayangi model luar negara yang telah mengumpulkan teks dari web secara tanpa kebenaran dalam jumlah besar. Ini juga menjadi faktor pembezaan penting yang membolehkan syarikat dan agensi kerajaan menggunakannya dengan tenang.

Perjalanan tsuzumi ― Dari Kemunculannya pada 2023, Pengkomersilan, hingga Pergantian Generasi

tsuzumi telah diperkenalkan kepada dunia pada 1 November 2023. NTT mengumumkan tsuzumi dalam sidang akhbar sebagai LLM proprietari yang dibangunkan berdasarkan kira-kira 40 tahun penyelidikan pemprosesan bahasa semula jadi yang terkumpul di makmal mereka. tsuzumi generasi pertama hadir dalam saiz yang sangat kecil — versi ultra-ringan dengan 600 juta (0.6B) parameter dan versi ringan dengan 7 bilion (7B) parameter — iaitu masing-masing kira-kira 1/300 dan 1/25 daripada GPT-3 OpenAI (175 bilion = 175B). Falsafah reka bentuk yang memfokuskan pada satu kelebihan utama iaitu "kecil tetapi kukuh dalam bahasa Jepun" sudah jelas ketara pada ketika itu.

Pada 25 Mac 2024, NTT memulakan penawaran komersial tsuzumi. Pada peringkat awal, NTT Communications dan NTT Data bertindak sebagai pintu masuk, dan kemudiannya syarikat-syarikat dalam kumpulan seperti NTT East dan NTT West turut mula menyebarkannya secara berperingkat. Model ringan yang mampu memenuhi permintaan pelanggan yang ingin menggunakannya secara on-premise (pemasangan sendiri) dilihat sebagai kekuatan yang tidak dimiliki oleh pesaing luar negara yang bergantung kepada awan. Selanjutnya, pada November 2024, penyediaan melalui Microsoft Azure turut dimulakan, dan tsuzumi generasi pertama semakin meluas penggunaannya terutamanya di persekitaran kerja yang "bersifat sulit dan sukar untuk diserahkan kepada awan luar negara" seperti pihak berkuasa tempatan, kewangan, dan penjagaan kesihatan.

Kemudian pada 20 Oktober 2025, NTT akan memulakan penawaran model generasi seterusnya, "tsuzumi 2". Ini merupakan peralihan generasi yang mewarisi haluan generasi pertama (ringan, keselamatan tinggi, kos rendah) sambil meningkatkan prestasi ke tahap yang lebih tinggi, dan inilah subjek utama artikel ini. NTT menjadikan tsuzumi 2 ini sebagai teras visi "AI For Quality Growth" yang diusung oleh Presiden Akira Shimada — iaitu menyelesaikan cabaran pelanggan melalui AI dan bersama-sama merealisasikan pertumbuhan yang mampan dan berkualiti tinggi.

tsuzumi 2 ― Pengembangan kepada 30B dan Falsafah Reka Bentuk "Beroperasi dengan 1 GPU"

Perubahan terbesar dalam tsuzumi 2 ialah pengembangan skala parameter secara ketara daripada 7B pada generasi pertama kepada kira-kira 30 bilion (30B). Secara umumnya, model yang lebih besar cenderung lebih pintar tetapi kos operasinya turut melonjak. tsuzumi 2 berjaya meningkatkan saiznya sambil mengekalkan syarat mutlak sejak generasi pertama iaitu "boleh dijalankan dengan satu GPU" melalui teknik yang mengurangkan keperluan memori semasa inferens. Menurut NTT, pelaburan awal perkakasan yang diperlukan hanyalah setara dengan satu unit NVIDIA A100 (40GB), bernilai kira-kira 5 juta yen. Berbanding kos perkakasan untuk kegunaan setara — kira-kira 100 juta yen bagi DeepSeek-V3.1 (sekitar 700B) dan kira-kira 50 juta yen bagi Llama-4 daripada Meta (sekitar 400B) — ini bermakna kos inferens dapat dikurangkan kepada kira-kira sepersepuluh hingga seperdua puluh.

Dari segi kandungan, fokusnya bukan pada kepintaran umum yang bersaing, sebaliknya tertumpu sepenuhnya pada "bidang yang sebenarnya digunakan oleh syarikat Jepun". NTT telah memperkukuh pengetahuan yang merangkumi istilah industri, peraturan, dan dokumen operasi dalam tiga bidang — kewangan, perubatan, dan awam (pihak berkuasa tempatan) — sejak peringkat pra-latihan. Selain itu, ketepatan RAG (Retrieval-Augmented Generation) yang menjawab sambil mencari dokumen dalaman, serta kecekapan penalaan halus menggunakan data kecil mengikut keperluan, turut ditingkatkan. Bukti yang menonjol ialah dalam bidang kewangan — bagi soalan setara Peperiksaan Kemahiran Perancangan Kewangan Gred 2 (FP Gred 2), model Gemma 27B daripada Google mencapai kadar jawapan betul 64% dengan 1,900 contoh latihan tambahan, manakala tsuzumi 2 mencapai 70% hanya dengan 200 contoh tambahan, seperti yang ditunjukkan oleh NTT. Ini bermakna "mudah dilatih menjadi pakar industri dengan bahan pengajaran yang sedikit" menjadi kelebihan praktikal dalam pelaksanaan di lapangan.

tsuzumi 2 direka untuk operasi dalam persekitaran on-premise atau awan persendirian, membolehkan maklumat sulit dikendalikan tanpa perlu dikeluarkan dari organisasi. Lebih daripada sekadar enjin pengetahuan serba boleh, ia merupakan alat praktikal harian untuk mengurangkan "geseran" dalam kerja harian seperti merumuskan manual dalaman, mencari peraturan, dan soal jawab berdasarkan dokumen — dan itulah juga cara NTT sendiri memposisikan tsuzumi 2.

Model Visi tsuzumi 2 ― Membaca Dokumen Perniagaan Berserta Carta dan Rajah "Sebagai Imej"

Pada 19 Mei 2026, NTT mengumumkan kemas kini besar kepada tsuzumi 2, yang dikenali sebagai "Model Visi tsuzumi 2". Ini merupakan pengembangan multimodal yang mampu memahami bukan sahaja teks, malah imej — dengan tumpuan utama pada pemahaman visual terhadap jadual, graf, dan rajah (carta) yang lazim terdapat dalam dokumen perniagaan Jepun, dengan cara membaca keseluruhan dokumen tersebut sebagai imej.

Terdapat alasan praktikal di sebalik pendekatan "sebagai imej" ini. Dokumen sulit seperti laporan kewangan, lukisan teknikal, borang permohonan, dan dokumen kelulusan dalaman sering kali mengandungi angka dan syarat penting yang tertanam bukan sahaja dalam teks, tetapi juga dalam jadual dan rajah. Jika diproses dengan cara konvensional — iaitu mengekstrak teks dahulu sebelum memproses — susun atur dan struktur jadual akan rosak, menyebabkan salah tafsir makna. tsuzumi 2 Vision mampu mengekstrak maklumat terpenting daripada jadual dan rajah untuk dijadikan pangkalan data, mengeluarkan butiran yang diperlukan daripada borang, serta memahami aliran carta proses. Selain itu, keupayaan "penaakulan logik dan pemprosesan angka" turut dipertingkatkan — termasuk pemahaman dan pengiraan nilai berangka seperti jumlah jualan, serta pentafsiran fungsi dalam dokumen teknikal seperti dokumentasi API.

Kes penggunaan yang disasarkan oleh NTT termasuk proses penilaian kredit yang melibatkan pembacaan dokumen penuh dengan jadual dan rajah, serta sokongan perkhidmatan pertanyaan teknikal yang menjawab soalan dengan merujuk dokumen teknikal. Yang penting, pemahaman rajah dan jadual yang canggih ini masih dicapai dalam persekitaran satu unit GPU. Kemampuan untuk membaca dan menganalisis dokumen sulit yang mengandungi rajah secara dalaman — tanpa perlu memuat naik ke awan luar negara — memberi nilai yang besar kepada syarikat dan agensi kerajaan yang mengutamakan penyelesaian setempat (on-premise). Penyediaan perkhidmatan ini dijadualkan akan dilaksanakan secara berperingkat melalui syarikat-syarikat kumpulan NTT.

Bagaimana Membaca Prestasi Bahasa Jepun ― Kandungan dan Had Penilaian "Setaraf GPT-5"

Apabila membincangkan tsuzumi 2, ungkapan "prestasi bahasa Jepun setaraf GPT-5" sentiasa muncul. Ini perlu difahami dengan tepat.

Dalam penilaian NTT, tsuzumi 2 dilaporkan mengatasi pesaing dalam kelas saiz yang sama, iaitu Gemma-3 27B dari Google dan Qwen-2.5 32B dari Alibaba, dalam empat penanda aras penting untuk operasi perniagaan: pengetahuan, analisis, pelaksanaan arahan, dan keselamatan. Selain itu, NTT menjelaskan bahawa model ini menunjukkan skor yang setanding dengan GPT-5 — yang jauh lebih besar daripada model mereka sendiri — dalam kebanyakan tugasan MT-Bench versi Bahasa Jepun yang mengukur kualiti dialog. Beberapa media khusus termasuk Ledge.ai turut melaporkan bahawa "reka bentuk dari awal (full scratch) berjaya merealisasikan prestasi bahasa Jepun setaraf GPT-5 dalam model ringan."

Walau bagaimanapun, perlu ada sikap berhati-hati di sini. Seperti yang dinyatakan oleh beberapa artikel analisis, ini hanyalah penilaian dalam konteks "bahasa Jepun" dan "kelas saiz yang sama" sahaja. Dalam prestasi keseluruhan merentas pelbagai tugasan, model-model frontier seperti GPT-5, Claude dari Anthropic, dan Gemini 3 Pro dari Google masih kekal di hadapan. tsuzumi 2 bukanlah model yang "mengatasi ChatGPT dalam semua aspek," sebaliknya ia adalah model yang kuat dalam konteks di mana "syarikat Jepun yang tidak boleh mendedahkan maklumat sulit ke luar, mengendalikan tugasan bahasa Jepun pada tahap tinggi dengan kos yang realistik." Penetapan konteks inilah yang merupakan teras strategi tsuzumi, dan adalah silap untuk membaca angka-angka penanda aras itu secara harfiah sebagai "menewaskan model gergasi."

Penyelidik Kanan Khas Nishida Kyosuke yang mengetuai pembangunan

Penyelidik Kanan Istimewa di NTT Human Information Research Institute, Kyosuke Nishida, adalah orang yang mengetuai penyelidikan dan pembangunan tsuzumi. "Penyelidik Kanan Istimewa" adalah jawatan yang diberikan oleh Kumpulan NTT kepada penyelidik yang sangat berbakat dan dijangka memberikan sumbangan jangka panjang, dengan misi untuk menerajui pembangunan teknologi yang inovatif dan perintis dalam bidang yang penting bagi kumpulan dalam jangka masa panjang.

Kepakaran Nishida merangkumi model bahasa berskala besar, pemprosesan bahasa semula jadi, pemahaman mesin (AI yang membaca teks dan menjawab soalan), serta model Vision-and-Language (bahasa visual) yang menghubungkan teks dengan imej, dan pembelajaran mendalam. Latar belakang ini amat bermakna. Arah tsuzumi 2 Vision dalam membaca dokumen bergambar dan rajah sebagai imej adalah kesinambungan langsung daripada pengumpulan pengetahuan Nishida dan rakan-rakannya yang telah bertahun-tahun menyelidiki pemahaman mesin dan model bahasa visual. Rekod penyelidikannya juga kaya — beliau telah menerbitkan banyak makalah di persidangan antarabangsa paling berprestij dalam bidang pemprosesan bahasa semula jadi, iaitu ACL, AAAI, ICLR, dan EMNLP — dan telah mendapat pengiktirafan tinggi di dalam dan luar negara, termasuk Anugerah Terbaik NLP2021, Anugerah NTT R&D 2024, serta pelbagai anugerah berkaitan Persatuan Pemprosesan Bahasa 2025.

Apa yang kerap diutarakan oleh Nishida adalah gambaran masa depan di mana bukan satu AI besar yang memusatkan kecerdasan, tetapi banyak AI yang masing-masing mempunyai keperibadian tersendiri bekerja secara harmoni bersama manusia. Sambil mengetengahkan "merealisasikan AI serba guna yang dapat hidup berdampingan secara semula jadi dengan manusia dalam sebarang persekitaran," pilihan yang seolah-olah paradoks — bahawa pelaksanaannya bukan melalui model mega berskala besar tetapi melalui tsuzumi yang ringan — itulah yang mencerminkan falsafah AI NTT.

Kes Penggunaan ― Universiti, Elektrik, dan Kerajaan "Gen'nai"

Penggunaan tsuzumi 2 terus berkembang secara konsisten di kalangan organisasi yang mementingkan keseimbangan antara kerahsiaan dan kos.

Dalam bidang pendidikan, Universiti Komunikasi Tokyo menjadi institusi pendidikan pertama yang menggunakan tsuzumi 2. Universiti tersebut membina infrastruktur LLM dalaman yang tidak bergantung kepada awan, membolehkan data pelajar dan kakitangan kekal di dalam kampus, dan dimanfaatkan untuk soal jawab lanjutan berkaitan pengajaran, sokongan dalam penyediaan bahan dan peperiksaan, serta kaunseling individu mengenai kursus dan kerjaya. Keupayaan menggunakan AI sambil melindungi data peribadi pelajar menjadi alasan utama pemilihan tsuzumi yang beroperasi secara on-premise.

Dalam bidang tenaga, pada 26 Januari 2026, NTT Docomo Business (NTT Communications) dan Chugoku Electric Power mengumumkan permulaan pembinaan dan pengesahan LLM khusus operasi tenaga elektrik menggunakan tsuzumi 2. Mereka berhasrat membina LLM yang dikhususkan untuk industri tenaga dengan melatihnya menggunakan maklumat operasi dan kepakaran Chugoku Electric Power, dengan matlamat penggunaan penuh dari tahun fiskal 2026 dan seterusnya. Dalam bidang kewangan, kerjasama juga sedang berkembang yang menggabungkan teknologi penstrukturan dokumen "REiLI" milik Fujifilm Business Innovation dengan tsuzumi untuk menangani dokumen korporat tidak berstruktur.

Yang paling simbolik ialah penggunaannya oleh kerajaan. Pada 6 Mac 2026, Agensi Digital memilih 7 model termasuk tsuzumi 2 daripada 15 permohonan sebagai LLM buatan domestik untuk dicuba dalam platform AI generatif "Gennai (GENAI)" yang digunakan oleh kakitangan di semua kementerian dan agensi kerajaan. Nama "Gennai" berasal daripada penemu zaman Edo, Hiraga Gennai, sekaligus merupakan permainan kata dengan AI Generatif (GenAI). tsuzumi 2 dijangka memberi sumbangan dalam penyediaan, ringkasan, dan penyusunan dokumen pentadbiran serta pemanfaatan pengetahuan operasi sebagai "model yang mahir dalam bahasa Jepun dan berorientasikan penggunaan praktikal dalam perniagaan dan pentadbiran." Pemilihan model buatan tempatan sepenuhnya untuk infrastruktur yang mengendalikan maklumat penting negara merupakan kepercayaan yang besar bagi tsuzumi.

Bagaimana Silicon Valley dan Dunia Memandangnya ― Geopolitik "AI Berdaulat"

Di sini, saya ingin meletakkan tsuzumi dalam konteks yang sedang menjadi tumpuan perhatian para pelabur modal teroka (VC) di Silicon Valley. Kata kuncinya ialah "AI Berdaulat (Sovereign AI)" — iaitu pendekatan membangun dan mengoperasikan AI di bawah kawalan data, budaya, dan sistem undang-undang negara sendiri.

Pihak yang paling lantang memperjuangkan arus ini ialah Jensen Huang, Ketua Pegawai Eksekutif NVIDIA, syarikat yang menguasai dunia semikonduktor AI. Dalam forum seperti World Government Summit, beliau menyatakan bahawa "setiap negara akan membina AI mereka sendiri" dan "tiada siapa yang memerlukan bom atom, tetapi semua orang memerlukan AI." Beliau mentakrifkan AI Berdaulat sebagai "sesuatu yang menyandikan budaya anda, kecerdasan masyarakat anda, akal budi, dan sejarah anda. Data anda sendiri, yang anda miliki." Beliau bahkan melangkah lebih jauh dengan menasihati pemimpin negara membangun: "Sandikan data bahasa dan budaya negara anda ke dalam model bahasa besar negara anda sendiri." Dalam pandangan dunia yang menganggap infrastruktur AI sebagai tunjang negara ini, tsuzumi milik NTT diletakkan sebagai contoh utama "AI Berdaulat Jepun." Presiden NTT sendiri, Encik Shimada, telah meluahkan pemikiran yang serupa dengan konsep AI Berdaulat itu sendiri — bahawa setiap negara seharusnya membangunkan teknologi yang sesuai dengan latar belakang budaya dan sejarah masing-masing.

Dana VC juga mengalir deras ke arah ini. Dalam pelaburan AI tahun 2026, dana kekayaan negara (sovereign wealth fund) seperti PIF Arab Saudi dan Mubadala Abu Dhabi semakin menonjol sebagai penyumbang utama dalam pengumpulan dana berskala besar. Ini kerana terdapat permintaan kukuh di setiap pasaran negara untuk AI yang direka khas bagi mereka, didorong oleh kebimbangan mengenai lokasi data (data residency), pematuhan peraturan, dan keselamatan maklumat.

Di Jepun, permintaan ini dizahirkan oleh sekumpulan syarikat permulaan yang menjadi perbandingan langsung bagi tsuzumi. Antara yang menonjol, Sakana AI berjaya mengumpul dana Siri B sebanyak 135 juta dolar AS (kira-kira 20 bilion yen) pada 17 November 2025, dengan penilaian mencapai 2.65 bilion dolar AS (kira-kira 400 bilion yen). Syarikat yang diasaskan pada tahun 2023 oleh Llion Jones — salah seorang pengarang bersama makalah "Attention Is All You Need" — bersama rakan-rakan bekas Google ini, mempunyai keistimewaan dalam menghasilkan model yang dioptimumkan untuk bahasa dan budaya Jepun dengan data yang lebih sedikit dan latihan pasca (post-training) yang cekap. Antara pelabur yang terlibat ialah MUFG (Kumpulan Kewangan Mitsubishi UFJ), Khosla Ventures, NEA, Lux Capital, dan juga In-Q-Tel, VC yang berkaitan dengan agensi perisikan Amerika Syarikat. Di Eropah pula, Mistral AI dari Perancis berjaya mengumpul dana Siri C sebanyak 1.7 bilion euro (kira-kira 280 bilion yen) pada September 2025, dengan ASML — pengeluar peralatan pendedahan semikonduktor — sebagai pemegang saham utama, menjadikan penilaiannya melonjak kepada kira-kira 13.8 bilion dolar AS (kira-kira 2.07 trilion yen). Pusingan yang sama turut menyaksikan penyertaan NVIDIA dan Andreessen Horowitz (a16z). Gambaran di mana setiap negara dan rantau melabur secara besar-besaran dalam "AI buatan sendiri" ini benar-benar mencerminkan kegairahan global AI Berdaulat.

Berbanding dengan ini, tsuzumi mempunyai perbezaan asal-usul yang ketara — ia bukan syarikat permulaan yang mengejar pertumbuhan pesat dengan wang VC, melainkan model yang dibangunkan sendiri oleh NTT, sebuah syarikat infrastruktur telekomunikasi, dengan penyelidikan dan pembangunan sebagai terasnya. Namun, satu perkara yang penting ialah media luar negara (seperti AI News dan Computer Weekly) secara konsisten menilai tsuzumi sebagai "pendekatan ringan yang beroperasi dengan satu GPU, berbanding strategi hyperscaler yang memerlukan puluhan hingga ratusan GPU," dan meletakkannya sebagai penyelesaian praktikal bagi organisasi yang tidak mampu menggunakan model frontier yang besar. tsuzumi merupakan contoh pelaksanaan paling menonjol di Jepun bagi arus balik yang sedang berlaku di Silicon Valley — peralihan daripada pembesaran semata-mata kepada penggunaan model kecil yang cekap (SLM) secara khusus mengikut tugas.

Susunan LLM Tempatan yang Bersaing ― Kedudukan tsuzumi

Mari kita susun juga siapa saingan tsuzumi di pasaran domestik AI berdaulat. Tujuh model yang dipilih oleh Kementerian Digital Jepun "Gennai" mencerminkan hampir keseluruhan peta kuasa LLM Jepun pada masa ini. Model-model yang terpilih ialah "tsuzumi 2" oleh NTT Data, "Llama-3.1-ELYZA-JP-70B" oleh KDDI dan ELYZA, "Sarashina2 mini" oleh SoftBank, "cotomi v3" oleh NEC (Nippon Electric Company), "Takane 32B" oleh Fujitsu, "PLaMo 2.0 Prime" oleh Preferred Networks (PFN), dan "CC Gov-LLM" oleh Customer Cloud — tujuh entri kesemuanya.

Pendekatan pembangunan terbahagi kepada dua aliran utama. Pertama, aliran *full-scratch* yang membangunkan model asas dari sifar secara dalaman, seperti tsuzumi dan PLaMo milik PFN. Kedua, aliran pra-latihan berterusan yang melakukan latihan tambahan menggunakan data Bahasa Jepun ke atas model sedia ada seperti Llama milik Meta, sebagaimana yang dilakukan oleh ELYZA. PFN bekerjasama dengan Sakura Internet dan NICT, dan sedang membangunkan "PLaMo 3.0 Prime" yang mampu berfikir lebih mendalam, mendakwa ia menghampiri Qwen3-235B dan gpt-oss-120b dari luar negara. SB Intuitions di bawah SoftBank menaungi siri Sarashina dengan konfigurasi MoE (Mixture of Experts) berskala kira-kira 460 bilion parameter (460B), Takane milik Fujitsu mengambil pendekatan perusahaan yang menggabungkan pengkuantuman dan penyulingan, manakala ELYZA di bawah KDDI paling maju dalam penggunaan komersial — begitulah setiap syarikat membezakan diri mereka dengan kekuatan masing-masing.

Kedudukan tsuzumi 2 dalam susunan ini adalah jelas. Ia mengambil pendekatan yang berbeza daripada aliran yang berlumba-lumba untuk bilangan parameter terbesar (seperti PLaMo dan Sarashina), dan mendefinisikan dirinya sebagai model kelas sederhana yang dioptimumkan untuk keperluan operasi praktikal perusahaan dan agensi kerajaan — dengan kelebihan "keringanan yang boleh dijalankan pada 1 GPU", "pengetahuan industri dalam kewangan, perubatan, dan sektor awam", serta "operasi *on-premise* yang memastikan maklumat sulit tidak keluar". Apa yang ditunjukkan oleh pemilihan Gennai ialah hakikat bahawa sebab kerajaan berpegang teguh kepada produk buatan tempatan bukan semata-mata kerana "prestasi yang tinggi secara mudah", melainkan kerana falsafah reka bentuk seperti kedaulatan data, keselamatan, dan keperluan perolehan — dan inilah gelanggang tsuzumi itu sendiri.

Ke Depan ― Pelbagai Bahasa & Suara, dan Titik Perubahan Perolehan Kerajaan 2027

Akhir sekali, mari kita lihat ke mana dan pada bila-bila masa tsuzumi akan menuju.

Dari segi teknikal, NTT menunjukkan hasrat untuk terus meningkatkan prestasi pemprosesan bahasa Jepun dan Inggeris, sambil memperluas bahasa yang disokong seperti Cina, Korea, Perancis, dan Jerman bagi mengembangkan pangkalan pengguna. tsuzumi 2 menjangkau sokongan multimodal yang merangkumi bukan sahaja teks dan imej, malah audio, dan model Vision yang dilancarkan pada Mei 2026 dilihat sebagai langkah pertama dalam memperoleh "mata" tersebut. Menuju visi yang digambarkan oleh Nishida dan rakan-rakannya tentang "pelbagai AI berkepribadian yang bekerjasama", pengembangan seterusnya kepada audio dan penaakulan yang lebih canggih selepas pemahaman carta dan rajah dijangka menjadi mercu tanda berikutnya.

Dari segi perniagaan, titik perpisahan terbesar ialah jangka masa sekitar platform AI kerajaan "Gennai". Mengikut rancangan Agensi Digital, 7 model yang dipilih dijadualkan untuk percubaan bermula sekitar musim panas 2026 (sekitar Ogos) merangkumi 39 agensi kerajaan dan kira-kira 180,000 pengguna, dengan keputusan penilaian dijangka diterbitkan sekitar Januari 2027. Kemudian, mulai April 2027 dan seterusnya, model-model terbaik akan diperolehi oleh kerajaan secara berbayar. Dengan kata lain, tiga titik masa utama yang perlu diperhatikan ialah "permulaan demonstrasi berskala besar pada Ogos 2026", "pengumuman penilaian kerajaan pada Januari 2027", dan "perolehan penuh mulai April 2027 dan seterusnya". Jika tsuzumi 2 mencapai keputusan yang baik di sini, jalan terbuka untuk ia memainkan peranan sebagai sebahagian daripada platform AI buatan tempatan sepenuhnya di peringkat semua kementerian dan agensi. Berdasarkan laporan media, permintaan domestik telah mencapai skala 2,000 pertanyaan, dan asas pengguna terus berkembang secara konsisten terutamanya dalam kalangan kerajaan tempatan, kewangan, dan penjagaan kesihatan.

Dalam persaingan untuk menjadi lebih besar, mustahil untuk mengejar sempadan global — mengakui realiti ini, NTT mencabar persaingan melalui paksi yang berbeza iaitu "keringanan", "bahasa Jepun", dan "kedaulatan". Seperti yang dikatakan oleh Jensen Huang, dalam era di mana setiap negara memerlukan AI mereka sendiri, tsuzumi 2 dan tsuzumi 2 Vision telah memasuki fasa di mana nilai sebenar mereka diuji sebagai salah satu pilihan paling praktikal bagi Jepun untuk mengendalikan bahasa, budaya, dan maklumat sulitnya sendiri dengan tangannya sendiri.