Semua model AI murni buatan dalam negeri NTT tsuzumi 2, tsuzumi 2 Vision

Model bahasa besar "tsuzumi" yang dikembangkan secara murni dalam negeri oleh NTT telah berevolusi ke generasi berikutnya menjadi "tsuzumi 2" pada Oktober 2025 dengan perluasan parameter hingga sekitar 30 miliar (30B), dan pada 19 Mei 2026 ditambahkan "tsuzumi 2 Vision model" yang mampu membaca dokumen bisnis berbahasa Jepang berisi diagram dan tabel sebagai gambar. Keunggulan terbesarnya adalah dapat berjalan hanya dengan satu GPU, dilengkapi pengetahuan yang telah dibangun sebelumnya di bidang keuangan, medis, dan publik, serta dapat digunakan secara on-premise tanpa mengeluarkan data rahasia ke luar perusahaan. Artikel ini merangkum perjalanan dan teknologi tsuzumi, filosofi Nishida Kyosuke (Peneliti Utama Senior yang memimpin pengembangan), hingga adopsinya di Tokyo University of Communications dan platform AI pemerintah "Gennai", serta Silicon Va

tsuzumi (つづみ) adalah — AI buatan dalam negeri yang bersaing bukan dengan "ukuran", melainkan dengan "keringanan"

Pertama, izinkan saya menjelaskan gambaran konkret tentang apa itu AI tsuzumi. Ketika pegawai bank daerah bertanya "bagaimana cara menangani kode error pada sistem internal ini?", jawaban langsung tersedia; staf administrasi rumah sakit dapat meringkas panduan klinis yang tebal; kantor pemerintah daerah dapat membuat draf pengumuman untuk warga — semua pekerjaan ini diselesaikan sepenuhnya di dalam satu server (satu unit GPU) yang ditempatkan di gedung kantor atau pusat data, tanpa mengirim data sama sekali ke cloud di luar organisasi. Inilah cara penggunaan yang dibayangkan untuk tsuzumi.

Tsuzumi adalah model bahasa besar (LLM) khusus bahasa Jepang yang dikembangkan sendiri oleh NTT. Namanya berasal dari alat musik tradisional Jepang "tsuzumi" (gendang kecil), yang mengandung makna: meski kecil, menghasilkan resonansi yang kaya — mencerminkan karakter AI buatan Jepang. Jika seri GPT dari OpenAI dan Gemini dari Google mengejar "model serbaguna yang semakin besar dan mampu menangani segalanya", maka konsep tsuzumi adalah kebalikannya. NTT mengusung visi "bukan pembesaran dan sentralisasi LLM, melainkan banyak AI dengan karakter berbeda yang saling berkolaborasi untuk mewujudkan well-being masyarakat bersama manusia", dan menjadikan syarat desain utama bukan satu otak raksasa, melainkan AI berukuran "yang bisa dipakai" — yang masuk dalam anggaran dan batasan perangkat keras di lapangan.

"Keringanan" ini bukan sekadar filosofi, melainkan berhubungan langsung dengan kelayakan ekonomis. Model-model besar di garis depan membutuhkan puluhan hingga ratusan GPU hanya untuk inferensi (menjalankan AI secara aktual), sehingga konsumsi daya dan biaya operasional menjadi hambatan bagi adopsi perusahaan. Tsuzumi memuatnya dalam satu GPU, secara drastis menekan konsumsi daya dan biaya. Selain itu, tsuzumi menerapkan pendekatan "full scratch" (pengembangan mandiri dari nol) yang hanya menggunakan data yang hak ciptanya dimiliki NTT atau yang telah memperoleh izin penggunaan — sehingga terhindar dari risiko sengketa hak cipta dan kekayaan intelektual yang kerap membayangi model-model luar negeri yang menyerap teks dari internet secara massal tanpa izin. Hal ini pun menjadi faktor diferensiasi penting yang membuat perusahaan dan instansi pemerintah dapat menggunakannya dengan tenang.

Perjalanan tsuzumi ― Dari kemunculannya pada tahun 2023 hingga komersialisasi, dan pergantian generasi

tsuzumi diluncurkan ke publik pada 1 November 2023. NTT mengumumkan tsuzumi dalam konferensi pers sebagai LLM proprietary yang dikembangkan berdasarkan sekitar 40 tahun penelitian pemrosesan bahasa alami yang telah diakumulasi oleh laboratorium mereka. tsuzumi generasi pertama hadir dalam ukuran yang sangat kecil: versi ultra-ringan dengan 600 juta (0,6B) parameter dan versi ringan dengan 7 miliar (7B) parameter — masing-masing sekitar 1/300 dan 1/25 dari GPT-3 milik OpenAI (175 miliar = 175B). Filosofi desain dengan satu keunggulan tunggal, yaitu "kecil namun kuat dalam bahasa Jepang," sudah terlihat jelas sejak tahap ini.

Pada 25 Maret 2024, NTT mulai menyediakan tsuzumi secara komersial. NTT Communications dan NTT Data menjadi pintu gerbang awal, kemudian NTT East, NTT West, dan anak perusahaan grup lainnya menyusul secara bertahap. Model ringan yang mampu memenuhi permintaan pelanggan yang ingin menggunakannya secara on-premise (instalasi mandiri) dipandang sebagai keunggulan yang tidak dimiliki oleh pemain luar negeri yang mengasumsikan penggunaan berbasis cloud. Lebih lanjut, pada November 2024, layanan melalui Microsoft Azure pun dimulai, dan tsuzumi generasi pertama semakin luas diadopsi terutama di lingkungan yang "memiliki kerahasiaan tinggi dan sulit untuk dipercayakan ke cloud luar negeri," seperti pemerintah daerah, sektor keuangan, dan layanan kesehatan.

Kemudian pada 20 Oktober 2025, NTT akan mulai menyediakan model generasi berikutnya, "tsuzumi 2." Ini merupakan pergantian generasi yang mewarisi jalur pendahulunya (ringan, keamanan tinggi, biaya rendah) sekaligus meningkatkan performa ke tingkat yang lebih tinggi — dan inilah tokoh utama dalam artikel ini. NTT menempatkan tsuzumi 2 ini sebagai inti dari visi "AI For Quality Growth" yang diusung oleh Presiden Shimada Akira — yaitu memecahkan tantangan pelanggan melalui AI dan bersama-sama mewujudkan pertumbuhan yang berkelanjutan dan berkualitas tinggi.

tsuzumi 2 ― Perluasan ke 30B dan Filosofi Desain "Berjalan dengan 1 GPU"

Perubahan terbesar pada tsuzumi 2 adalah perluasan skala parameter secara signifikan dari 7B pada generasi pertama menjadi sekitar 30 miliar (30B). Secara umum, model yang lebih besar cenderung lebih cerdas, namun biaya operasionalnya pun melonjak. tsuzumi 2 berhasil meningkatkan ukurannya sekaligus mempertahankan syarat mutlak sejak generasi pertama, yaitu "dapat berjalan pada satu GPU", melalui berbagai optimasi untuk menekan kebutuhan memori saat inferensi. Menurut NTT, investasi awal perangkat keras yang diperlukan hanya sekitar 5 juta yen, setara dengan satu unit NVIDIA A100 (40GB). Jika dibandingkan dengan penggunaan yang setara, biaya perangkat keras untuk DeepSeek-V3.1 (sekitar 700B) diperkirakan mencapai sekitar 100 juta yen, dan untuk Llama-4 dari Meta (sekitar 400B) sekitar 50 juta yen — sehingga tsuzumi 2 mampu menekan biaya inferensi hingga sepersepuluh hingga seperduapuluhnya.

Dari sisi konten pun, fokusnya bukan pada kecerdasan serba-guna, melainkan diarahkan sepenuhnya ke "bidang yang benar-benar digunakan oleh perusahaan-perusahaan Jepang". NTT memperkuat pengetahuan di tiga bidang — keuangan, kesehatan, dan layanan publik (pemerintah daerah) — sejak tahap pra-pelatihan, mencakup terminologi industri, regulasi, dan dokumen operasional. Selain itu, akurasi RAG (Retrieval-Augmented Generation) yang menjawab pertanyaan sambil mencari dokumen internal, serta efisiensi fine-tuning menggunakan data kecil yang disesuaikan dengan kebutuhan, juga ditingkatkan. Yang paling simbolis adalah hasil verifikasi di bidang keuangan: pada soal setara Ujian Keterampilan Perencanaan Keuangan Level 2 (FP Level 2), model Gemma 27B dari Google mencapai tingkat jawaban benar 64% dengan 1.900 data pelatihan tambahan, sementara tsuzumi 2 berhasil mencapai 70% hanya dengan 200 data tambahan, sebagaimana ditunjukkan oleh NTT. Dengan kata lain, kemampuan untuk "lebih mudah dibentuk menjadi ahli di bidang tertentu dengan lebih sedikit materi pelatihan" menjadi keunggulan praktis dalam penerapan di lapangan.

tsuzumi 2 dirancang untuk dioperasikan secara on-premise atau di private cloud, sehingga informasi rahasia dapat ditangani tanpa keluar dari organisasi. Bukan sebagai mesin pengetahuan serba bisa, melainkan sebagai alat kerja praktis untuk mengurangi "gesekan" dalam pekerjaan sehari-hari — seperti merangkum manual internal, mencari peraturan, dan tanya jawab berbasis dokumen — itulah pula bagaimana NTT sendiri memposisikan tsuzumi 2.

Model tsuzumi 2 Vision ― Membaca dokumen bisnis berisi diagram dan grafik "sebagai gambar"

Pada 19 Mei 2026, NTT mengumumkan pembaruan besar pada tsuzumi 2, yang dikenal sebagai "tsuzumi 2 Vision model". Ini merupakan perluasan multimodal yang mampu memahami tidak hanya teks tetapi juga gambar, dengan fokus utama pada pemahaman visual terhadap tabel, grafik, dan diagram yang umum ditemukan dalam dokumen bisnis Jepang, dengan cara membaca seluruh dokumen sebagai gambar.

Ada alasan praktis di balik pendekatan "sebagai gambar" ini. Dokumen rahasia seperti laporan keuangan, dokumen desain, formulir pendaftaran, dan dokumen persetujuan internal sering kali menyimpan angka-angka dan kondisi penting tidak hanya dalam teks, tetapi juga dalam tabel dan diagram. Jika diproses dengan cara konvensional melalui ekstraksi teks terlebih dahulu, struktur tata letak dan tabel akan rusak sehingga menimbulkan kesalahan interpretasi. tsuzumi 2 Vision mampu mengekstrak informasi penting dari dalam tabel dan diagram untuk dijadikan basis data, mengambil informasi yang diperlukan dari formulir, serta memahami alur diagram. Selain itu, kemampuan "penalaran logis dan pemrosesan numerik" juga ditingkatkan, mencakup pemahaman dan perhitungan informasi numerik seperti jumlah penjualan, serta interpretasi fungsi yang terdapat dalam dokumen teknis seperti dokumentasi API.

Contoh kasus penggunaan yang disebutkan NTT antara lain pekerjaan pemeriksaan kredit yang memproses materi penuh dengan tabel dan diagram, serta dukungan layanan pertanyaan teknis yang menjawab pertanyaan dengan merujuk pada dokumen teknis. Yang terpenting, pemahaman diagram tingkat lanjut ini tetap dapat diwujudkan dalam lingkungan satu GPU. Kemampuan untuk menganalisis dokumen rahasia berisi diagram di lingkungan internal tanpa mengunggahnya ke cloud luar negeri memiliki arti yang besar bagi perusahaan dan instansi pemerintah yang berorientasi pada infrastruktur lokal (on-premise). Layanan ini akan disediakan secara bertahap melalui masing-masing perusahaan dalam Grup NTT.

Cara Membaca Performa Bahasa Jepang ― Isi dan Batas dari Penilaian "Setara GPT-5"

Ketika membicarakan tsuzumi 2, ekspresi yang selalu muncul adalah "kemampuan bahasa Jepang setara GPT-5." Hal ini perlu dipahami secara tepat.

Dalam evaluasi NTT, tsuzumi 2 diklaim mengungguli pesaing di kelas ukuran yang sama, yaitu Gemma-3 27B dari Google dan Qwen-2.5 32B dari Alibaba, dalam empat tolok ukur penting untuk operasional bisnis: pengetahuan, analisis, kepatuhan instruksi, dan keamanan. Lebih lanjut, NTT menjelaskan bahwa model ini menunjukkan skor yang sebanding dengan GPT-5 — yang jauh lebih besar dari model milik mereka sendiri — dalam banyak tugas pada MT-Bench versi bahasa Jepang yang mengukur kualitas dialog. Sejumlah media spesialis seperti Ledge.ai pun melaporkan bahwa model ini "mewujudkan kemampuan bahasa Jepang setara GPT-5 dengan desain dari nol pada model berukuran ringan."

Namun, di sini diperlukan reservasi yang tenang. Seperti yang ditunjukkan oleh berbagai artikel analisis, ini hanyalah evaluasi dalam konteks "bahasa Jepang" dan "kelas ukuran yang sama," dan dalam hal kinerja umum yang mencakup semua jenis tugas, model-model frontier seperti GPT-5, Claude dari Anthropic, dan Gemini 3 Pro dari Google masih tetap unggul. tsuzumi 2 bukanlah model yang "lebih baik dari ChatGPT di segala bidang," melainkan model yang kuat dalam "arena di mana perusahaan Jepang yang tidak dapat mengeluarkan informasi rahasia ke luar dapat menangani pekerjaan berbahasa Jepang pada tingkat tinggi dengan biaya yang realistis." Penetapan arena inilah yang merupakan inti dari strategi tsuzumi, dan membaca angka tolok ukur secara harfiah sebagai "mengalahkan model raksasa" adalah sebuah kekeliruan.

Peneliti Senior Utama Keisuke Nishida yang memimpin pengembangan

Peneliti yang memimpin penelitian dan pengembangan tsuzumi adalah Kyosuke Nishida, Senior Distinguished Researcher di NTT Human Informatics Laboratories. Jabatan "Senior Distinguished Researcher" diberikan oleh Grup NTT kepada peneliti yang sangat berbakat dan diharapkan memberikan kontribusi jangka panjang, dengan misi untuk memimpin pengembangan teknologi inovatif dan pelopor di bidang-bidang yang penting bagi grup dalam jangka panjang.

Keahlian Nishida mencakup model bahasa besar, pemrosesan bahasa alami, machine reading comprehension (AI yang membaca teks dan menjawab pertanyaan), serta model Vision-and-Language (bahasa visual) yang menghubungkan teks dengan gambar, dan deep learning. Latar belakang ini sangat bermakna. Arah pengembangan tsuzumi 2 Vision dalam memahami dokumen bergambar sebagai citra merupakan kelanjutan dari akumulasi penelitian Nishida dan timnya selama bertahun-tahun dalam bidang machine reading comprehension dan model bahasa visual. Rekam jejak penelitiannya pun sangat kaya — ia telah mempublikasikan banyak makalah di konferensi internasional paling bergengsi dalam bidang pemrosesan bahasa alami, yaitu ACL, AAAI, ICLR, dan EMNLP — dan telah mendapatkan pengakuan tinggi di dalam maupun luar negeri, termasuk Penghargaan Terbaik NLP2021, NTT R&D Award 2024, serta berbagai penghargaan terkait Asosiasi Pemrosesan Bahasa tahun 2025.

Yang berulang kali disampaikan Nishida adalah visi masa depan di mana bukan satu AI raksasa yang memusatkan kecerdasan, melainkan banyak AI yang masing-masing memiliki karakteristik unik dan bekerja secara kolaboratif bersama manusia. Di balik tekadnya untuk "mewujudkan AI serbaguna yang dapat hidup berdampingan secara alami dengan manusia di berbagai lingkungan", justru terdapat pilihan yang tampak paradoks — bahwa implementasinya bukan melalui model super-raksasa, melainkan tsuzumi yang ringan. Di sinilah filosofi AI dari NTT tercermin.

Studi Kasus ― Universitas, Energi, dan Pemerintah "Gennai"

Adopsi tsuzumi 2 terus berkembang secara konsisten dari kalangan pengguna yang membutuhkan keseimbangan antara kerahasiaan data dan efisiensi biaya.

Di bidang pendidikan, Tokyo University of Communications menjadi institusi pendidikan pertama yang mengadopsi tsuzumi 2. Universitas tersebut membangun infrastruktur LLM internal yang dapat beroperasi tanpa bergantung pada cloud, sehingga data mahasiswa dan staf pengajar tetap tersimpan di dalam kampus. Infrastruktur ini dimanfaatkan untuk layanan tanya jawab tingkat lanjut seputar perkuliahan, dukungan pembuatan materi ajar dan soal ujian, serta konseling individual terkait rencana studi dan karier. Kemampuan tsuzumi yang berjalan secara on-premise—memungkinkan penggunaan AI sambil tetap melindungi data pribadi mahasiswa—menjadi alasan utama pemilihannya.

Di bidang energi, pada 26 Januari 2026, NTT Docomo Business (NTT Communications) dan Chugoku Electric Power mengumumkan dimulainya pembangunan dan pengujian LLM khusus operasional ketenagalistrikan berbasis tsuzumi 2. LLM ini dirancang dengan melatihnya menggunakan informasi operasional dan keahlian teknis Chugoku Electric Power, dengan target penerapan penuh mulai tahun fiskal 2026 dan seterusnya. Di bidang keuangan, kolaborasi juga tengah berjalan antara teknologi strukturisasi dokumen "REiLI" milik Fujifilm Business Innovation dengan tsuzumi, untuk menangani dokumen perusahaan yang tidak terstruktur.

Yang paling simbolis adalah adopsinya oleh pemerintah. Pada 6 Maret 2026, Badan Digital (Digital Agency) memilih 7 model, termasuk tsuzumi 2, dari 15 kandidat yang diajukan sebagai LLM buatan dalam negeri untuk diuji coba pada platform AI generatif "Gen-nai (GENAI)" yang diperuntukkan bagi pegawai di seluruh kementerian dan lembaga pemerintah. Nama "源内 (Gen-nai)" terinspirasi dari Hiraga Gennai, seorang penemu dari era Edo, sekaligus merupakan permainan kata dengan "GenAI" (AI Generatif). tsuzumi 2 diharapkan berkontribusi dalam penyusunan, peringkasan, dan pengorganisasian dokumen administrasi serta pemanfaatan pengetahuan operasional, sebagai "model yang unggul dalam bahasa Jepang dan berorientasi pada penggunaan praktis di lingkungan bisnis dan pemerintahan." Terpilihnya model buatan dalam negeri murni untuk infrastruktur yang menangani informasi penting negara merupakan kepercayaan besar bagi tsuzumi.

Bagaimana Silicon Valley dan Dunia Memandangnya ― Geopolitik "AI Berdaulat"

Di sini saya ingin menempatkan tsuzumi dalam konteks yang kini tengah mendapat perhatian besar dari para VC (Venture Capital) di Silicon Valley. Kata kuncinya adalah "Sovereign AI (AI Kedaulatan)"――sebuah gagasan untuk mengembangkan dan mengoperasikan AI di bawah kendali data, budaya, dan sistem hukum suatu negara sendiri.

Pihak yang paling lantang menyuarakan tren ini adalah Jensen Huang, CEO NVIDIA yang mendominasi dunia semikonduktor AI. Dalam forum seperti World Government Summit, ia menyatakan bahwa "setiap negara akan membangun AI-nya sendiri" dan "tidak ada yang membutuhkan bom atom, tetapi semua orang membutuhkan AI," serta mendefinisikan Sovereign AI sebagai "sesuatu yang mengkodekan budaya Anda, kecerdasan masyarakat Anda, akal sehat, dan sejarah Anda. Data Anda sendiri, yang Anda miliki." Ia bahkan melangkah lebih jauh dengan memberikan saran kepada para pemimpin negara berkembang: "Kodekan data bahasa dan budaya negara Anda ke dalam model bahasa besar milik negara Anda sendiri." Dalam pandangan dunia yang menempatkan infrastruktur AI sebagai fondasi negara ini, tsuzumi dari NTT diposisikan sebagai contoh representatif dari "Sovereign AI Jepang." Presiden NTT, Shimada, sendiri mengungkapkan gagasan yang merupakan inti dari Sovereign AI itu sendiri――bahwa setiap negara harus mengembangkan teknologi yang sesuai dengan latar belakang budaya dan sejarah masing-masing.

Dana VC pun mengalir deras ke arah ini. Dalam investasi AI tahun 2026, dana sovereign wealth fund (SWF) seperti PIF dari Arab Saudi dan Mubadala dari Abu Dhabi semakin menunjukkan kehadiran yang kuat sebagai kontributor utama dalam penggalangan dana berskala besar. Hal ini karena di setiap pasar nasional terdapat permintaan yang kuat terhadap AI yang dibuat khusus untuk negara mereka sendiri, didorong oleh kekhawatiran mengenai residensi data, kepatuhan regulasi, dan keamanan informasi.

Di Jepang, kelompok startup yang menjadi pembanding langsung tsuzumi merupakan wujud nyata dari permintaan ini. Di antaranya, Sakana AI berhasil mengumpulkan dana Seri B sebesar 135 juta dolar (sekitar 200 miliar yen) pada 17 November 2025, dengan valuasi mencapai 2,65 miliar dolar (sekitar 400 miliar yen). Perusahaan yang didirikan pada tahun 2023 oleh alumni Google termasuk Llion Jones――salah satu penulis makalah "Attention Is All You Need"――ini memiliki keunggulan dalam membuat model yang dioptimalkan untuk bahasa dan budaya Jepang dengan data yang lebih sedikit dan post-training yang efisien. Para investornya mencakup MUFG (Mitsubishi UFJ Financial Group), Khosla Ventures, NEA, Lux Capital, hingga In-Q-Tel, VC yang berafiliasi dengan komunitas intelijen Amerika Serikat. Di Eropa, Mistral AI dari Prancis pada September 2025 berhasil mengumpulkan dana Seri C senilai 1,7 miliar euro (sekitar 280 miliar yen) dengan ASML――produsen alat litografi semikonduktor――sebagai pemegang saham utama, mendorong valuasinya melonjak hingga sekitar 13,8 miliar dolar (sekitar 2,07 triliun yen). NVIDIA dan Andreessen Horowitz (a16z) juga turut berpartisipasi dalam putaran tersebut. Pola di mana setiap negara dan kawasan menginvestasikan dana besar untuk memiliki "AI sendiri" ini benar-benar mencerminkan semangat global Sovereign AI.

Dibandingkan dengan semua itu, tsuzumi memiliki perbedaan asal-usul yang mendasar――bukan startup yang mengejar pertumbuhan pesat dengan dana VC, melainkan model yang dikembangkan secara mandiri oleh NTT, perusahaan infrastruktur telekomunikasi, dengan riset dan pengembangan sebagai fondasinya. Namun, hal yang penting adalah bahwa media asing (seperti AI News dan Computer Weekly) secara seragam menilai tsuzumi sebagai "jalur ringan yang berjalan dengan satu GPU, berbeda dengan strategi hyperscaler yang membutuhkan puluhan hingga ratusan GPU," dan memposisikannya sebagai solusi realistis bagi organisasi yang tidak memiliki sumber daya untuk menggunakan model frontier berskala besar. tsuzumi adalah implementasi paling terdepan di Jepang dari tren yang tengah terjadi di Silicon Valley――"reaksi balik terhadap obsesi pembesaran semata"――yakni tren penggunaan model kecil yang efisien (SLM) secara selektif sesuai kebutuhan bisnis tertentu.

Formasi LLM Domestik yang Bersaing ― Posisi tsuzumi

Mari kita perjelas pula siapa saja lawan yang dihadapi tsuzumi di pasar dalam negeri AI berdaulat. Tujuh model yang dipilih oleh Badan Digital "Gennai" hampir secara langsung mencerminkan peta kekuatan LLM di Jepang saat ini. Yang terpilih adalah "tsuzumi 2" dari NTT Data, "Llama-3.1-ELYZA-JP-70B" dari KDDI/ELYZA, "Sarashina2 mini" dari SoftBank, "cotomi v3" dari NEC (Nippon Electric Corporation), "Takane 32B" dari Fujitsu, "PLaMo 2.0 Prime" dari Preferred Networks (PFN), dan "CC Gov-LLM" dari Customer Cloud — total tujuh entri.

Pendekatan pengembangan terbagi menjadi dua aliran besar. Yang pertama adalah aliran full-scratch, seperti tsuzumi dan PLaMo dari PFN, yang mengembangkan model fondasi dari nol secara mandiri. Yang kedua adalah aliran continual pre-training, seperti ELYZA, yang melatih ulang Llama milik Meta menggunakan data bahasa Jepang. PFN bekerja sama dengan Sakura Internet dan NICT, mengembangkan "PLaMo 3.0 Prime" yang mampu berpikir panjang, dan mengklaim kemampuannya mendekati Qwen3-235B dan gpt-oss-120b dari luar negeri. SB Intuitions di bawah naungan SoftBank memiliki seri Sarashina dengan konfigurasi MoE (Mixture of Experts) berskala sekitar 460 miliar parameter (460B), Takane dari Fujitsu mengambil jalur enterprise yang menggabungkan kuantisasi dan distilasi, sementara ELYZA di bawah KDDI paling unggul dalam komersialisasi — masing-masing perusahaan memiliki keunggulan berbeda dan menempati ceruk pasarnya sendiri.

Di antara formasi ini, posisi tsuzumi 2 sudah jelas. Berbeda dari jalur yang bersaing dalam jumlah parameter maksimum (seperti PLaMo atau Sarashina), tsuzumi 2 mendefinisikan dirinya sebagai model kelas menengah yang dioptimalkan untuk kebutuhan operasional nyata perusahaan dan instansi pemerintah — dengan keunggulan "ringan cukup untuk berjalan di 1 GPU", "pengetahuan industri di bidang keuangan, medis, dan layanan publik", serta "operasi on-premise yang menjaga kerahasiaan data". Apa yang ditunjukkan oleh seleksi Gennai adalah kenyataan bahwa alasan pemerintah bersikukuh pada produk dalam negeri bukan semata-mata "keunggulan kinerja murni", melainkan terletak pada filosofi desain seperti kedaulatan data, keamanan, dan persyaratan pengadaan — dan inilah arena bermain tsuzumi itu sendiri.

Ke Depan ― Multibahasa & Suara, serta Titik Balik Pengadaan Pemerintah Tahun 2027

Terakhir, mari kita cermati ke mana dan kapan kira-kira tsuzumi akan melangkah.

Dari sisi teknologi, NTT menyatakan akan terus meningkatkan kemampuan pemrosesan bahasa Jepang dan Inggris, sekaligus memperluas dukungan ke bahasa Mandarin, Korea, Prancis, Jerman, dan lainnya guna memperluas basis pengguna. tsuzumi 2 menargetkan dukungan multimodal yang mencakup suara di samping teks dan gambar, dan model Vision yang diluncurkan pada Mei 2026 dipandang sebagai langkah pertama dalam memperoleh "mata" tersebut. Menuju visi masa depan yang digambarkan oleh Nishida dan rekan-rekannya tentang "banyak AI berkepribadian yang saling bekerja sama," ekspansi ke suara dan penalaran yang lebih canggih setelah pemahaman diagram dan grafik diyakini menjadi tonggak berikutnya.

Dari sisi bisnis, titik kritis terbesar adalah kerangka waktu seputar platform AI pemerintah "Gennai." Berdasarkan rencana Badan Digital, 7 model yang terpilih akan mulai diuji coba pada musim panas 2026 (sekitar Agustus) di seluruh 39 lembaga kementerian/lembaga dengan sekitar 180.000 pengguna, dan hasil evaluasinya akan dipublikasikan sekitar Januari 2027. Selanjutnya, mulai April 2027, model-model terbaik dijadwalkan untuk diadakan secara berbayar oleh pemerintah. Dengan kata lain, peristiwa penting yang patut diperhatikan ke depan terangkum dalam tiga momen: "dimulainya demonstrasi skala besar pada Agustus 2026," "pengumuman hasil evaluasi pemerintah pada Januari 2027," dan "pengadaan penuh mulai April 2027 dan seterusnya." Jika tsuzumi 2 meraih hasil yang baik di sini, jalan terbuka bagi model ini untuk mengambil peran sebagai salah satu fondasi platform AI buatan dalam negeri di seluruh kementerian dan lembaga. Berdasarkan laporan media, permintaan domestik sudah mencapai skala 2.000 kasus, dan cakupannya terus meluas secara konsisten, terutama di sektor pemerintah daerah, keuangan, dan kesehatan.

Menghadapi kenyataan bahwa kompetisi gigantisme tidak mampu menyamai garis depan dunia—dengan tetap menyadari realitas itu—NTT memilih untuk bersaing di poros yang berbeda: "kekompakan," "bahasa Jepang," dan "kedaulatan." Di era di mana setiap negara membutuhkan AI-nya sendiri, seperti yang dikatakan Jensen Huang, tsuzumi 2 dan tsuzumi 2 Vision kini memasuki fase di mana nilai sesungguhnya mereka diuji sebagai salah satu pilihan paling realistis bagi Jepang untuk menangani bahasa, budaya, dan informasi rahasia miliknya sendiri dengan tangannya sendiri.