Tất cả về AI thuần nội địa của NTT: mô hình tsuzumi 2 và tsuzumi 2 Vision

Mô hình ngôn ngữ lớn "tsuzumi (つづみ)" được NTT phát triển hoàn toàn trong nước đã chuyển sang thế hệ mới là "tsuzumi 2" vào tháng 10 năm 2025 với việc mở rộng tham số lên khoảng 30 tỷ (30B), và vào ngày 19 tháng 5 năm 2026, đã bổ sung thêm "mô hình tsuzumi 2 Vision" có khả năng đọc hiểu các tài liệu kinh doanh tiếng Nhật có kèm biểu đồ dưới dạng hình ảnh. Đặc điểm nổi bật nhất là có thể hoạt động chỉ với một GPU duy nhất, tích hợp sẵn kiến thức chuyên ngành về tài chính, y tế và dịch vụ công, đồng thời có thể sử dụng on-premise mà không cần đưa dữ liệu mật ra bên ngoài. Bài viết này tổng hợp quá trình phát triển và công nghệ của tsuzumi, tư tưởng của Nghiên cứu viên Đặc biệt Cấp cao Kyosuke Nishida (西田京介) — người phụ trách tổng thể việc phát triển — cùng với việc được áp dụng tại Đại học Thông tin Tokyo và nền tảng AI của chính phủ "Gennai", cũng như [phần còn lại bị cắt]

tsuzumi (つづみ) là gì — AI thuần nội địa cạnh tranh bằng "sự nhẹ nhàng" chứ không phải "kích thước"

Trước tiên, hãy hình dung cụ thể tsuzumi là loại AI như thế nào. Một nhân viên ngân hàng địa phương hỏi "Cách xử lý mã lỗi này trong hệ thống nội bộ là gì?" và nhận được câu trả lời ngay lập tức; bộ phận hành chính bệnh viện nhờ tóm tắt tập hướng dẫn điều trị dày cộm; ủy ban nhân dân nhờ soạn thảo thông báo gửi đến người dân — tất cả những công việc này được thực hiện hoàn toàn trên một máy chủ duy nhất (1 GPU) đặt tại trụ sở cơ quan hoặc trung tâm dữ liệu, mà không cần gửi bất kỳ dữ liệu nào ra ngoài lên cloud. Đây chính là cách sử dụng mà tsuzumi hướng đến.

tsuzumi là mô hình ngôn ngữ lớn (LLM) chuyên biệt cho tiếng Nhật, do NTT tự phát triển. Tên gọi bắt nguồn từ nhạc cụ truyền thống Nhật Bản "tsuzumi" (trống tay), mang ý nghĩa nhỏ gọn nhưng vang vọng phong phú — thể hiện bản sắc của một AI thuần Nhật. Trong khi dòng GPT của OpenAI hay Gemini của Google theo đuổi hướng "mô hình vạn năng, càng lớn càng xử lý được mọi thứ", thì triết lý của tsuzumi hoàn toàn ngược lại. NTT đặt ra tầm nhìn về tương lai không phải là "mở rộng quy mô LLM và tập trung hóa", mà là "nhiều AI với cá tính khác nhau cùng phối hợp, hiện thực hóa Well-being của xã hội cùng với con người". Từ đó, điều kiện thiết kế đầu tiên là tạo ra một AI có "kích thước có thể dùng được" — phù hợp với ngân sách và giới hạn phần cứng thực tế tại hiện trường, thay vì một bộ não khổng lồ duy nhất.

"Sự nhẹ nhàng" này không chỉ là triết lý, mà còn gắn trực tiếp với tính hợp lý kinh tế. Các mô hình lớn tiên tiến nhất đòi hỏi hàng chục đến hàng trăm GPU chỉ để chạy suy luận (tức là để AI hoạt động thực tế), khiến mức tiêu thụ điện năng và chi phí vận hành trở thành rào cản đối với doanh nghiệp. tsuzumi thu gọn điều đó xuống chỉ còn 1 GPU, giảm đáng kể điện năng và chi phí. Ngoài ra, quá trình huấn luyện tuân theo phương châm "full scratch" (tự phát triển từ đầu) — chỉ sử dụng dữ liệu mà NTT sở hữu quyền hoặc đã được cấp phép sử dụng. Điều này giúp tránh được rủi ro tranh chấp bản quyền và sở hữu trí tuệ vốn vẫn bám theo các mô hình nước ngoài vốn thu thập ồ ạt văn bản trên web mà không xin phép — và đây cũng là yếu tố khác biệt quan trọng để các doanh nghiệp và cơ quan nhà nước có thể sử dụng với sự an tâm.

Hành trình của tsuzumi ― Từ khi ra mắt năm 2023 đến thương mại hóa và thế hệ tiếp theo

tsuzumi ra mắt vào ngày 1 tháng 11 năm 2023. Tại buổi họp báo, NTT giới thiệu tsuzumi như một LLM độc quyền được phát triển dựa trên nền tảng gần 40 năm nghiên cứu xử lý ngôn ngữ tự nhiên tích lũy tại các phòng thí nghiệm của tập đoàn. Tsuzumi thế hệ đầu tiên có kích thước rất nhỏ gọn: phiên bản siêu nhẹ với 600 triệu (0,6B) tham số và phiên bản nhẹ với 7 tỷ (7B) tham số — lần lượt chỉ bằng khoảng 1/300 và 1/25 so với GPT-3 của OpenAI (175 tỷ = 175B). Triết lý thiết kế "nhỏ nhưng mạnh về tiếng Nhật" đã được xác lập rõ ràng ngay từ thời điểm đó.

Ngày 25 tháng 3 năm 2024, NTT bắt đầu cung cấp tsuzumi trên thị trường thương mại. Ban đầu, NTT Communications và NTT Data đảm nhận vai trò cửa ngõ tiếp thị, sau đó các công ty trong tập đoàn như NTT East và NTT West lần lượt triển khai theo. Mô hình nhẹ có khả năng đáp ứng nhu cầu sử dụng on-premise (cài đặt tại chỗ) của khách hàng được đánh giá là lợi thế mà các đối thủ nước ngoài vốn dựa trên đám mây không thể có. Đến tháng 11 năm 2024, tsuzumi còn được cung cấp qua Microsoft Azure, và tsuzumi thế hệ đầu tiên dần được triển khai rộng rãi, tập trung vào các môi trường "có tính bảo mật cao, khó giao phó cho đám mây nước ngoài" như chính quyền địa phương, tài chính và y tế.

Và vào ngày 20 tháng 10 năm 2025, NTT bắt đầu cung cấp mô hình thế hệ tiếp theo "tsuzumi 2" — nhân vật chính của bài viết này. Đây là một thế hệ kế thừa đường lối của người tiền nhiệm (nhẹ, bảo mật cao, chi phí thấp) đồng thời nâng cao hiệu suất lên một tầm mới. NTT đặt tsuzumi 2 làm trụ cột trong tầm nhìn "AI For Quality Growth" mà Chủ tịch Akira Shimada đề xướng — giải quyết các thách thức của khách hàng bằng AI, cùng nhau hiện thực hóa sự tăng trưởng bền vững và chất lượng cao.

tsuzumi 2 ― Mở rộng lên 30B và triết lý thiết kế "chạy được trên 1 GPU"

Thay đổi lớn nhất của tsuzumi 2 là việc mở rộng đáng kể quy mô tham số từ 7B của phiên bản đầu lên khoảng 30 tỷ (30B). Nhìn chung, mô hình càng lớn thì càng thông minh, nhưng chi phí vận hành cũng tăng vọt. tsuzumi 2 tăng kích thước nhưng vẫn duy trì điều kiện tuyệt đối từ phiên bản đầu là "chạy trên một GPU duy nhất" nhờ các biện pháp giảm bộ nhớ cần thiết trong quá trình suy luận. Theo NTT, chi phí đầu tư phần cứng ban đầu chỉ tương đương khoảng 5 triệu yên cho một card NVIDIA A100 (40GB). So sánh với các mô hình cùng mục đích sử dụng, DeepSeek-V3.1 (khoảng 700B) tốn khoảng 100 triệu yên và Llama-4 của Meta (khoảng 400B) tốn khoảng 50 triệu yên về chi phí phần cứng, điều này có nghĩa là chi phí suy luận của tsuzumi 2 chỉ bằng khoảng 1/10 đến 1/20.

Về nội dung, thay vì cạnh tranh về trí thông minh đa năng, mô hình được định hướng hoàn toàn vào "lĩnh vực mà các doanh nghiệp Nhật Bản thực sự sử dụng". NTT đã tăng cường kiến thức về thuật ngữ ngành, quy định và tài liệu thực tế trong 3 lĩnh vực tài chính, y tế và công cộng (chính quyền địa phương) ngay từ giai đoạn tiền huấn luyện. Ngoài ra, độ chính xác của RAG (Retrieval-Augmented Generation — tạo sinh tăng cường bằng tìm kiếm) để trả lời dựa trên tìm kiếm tài liệu nội bộ và hiệu quả fine-tuning với lượng dữ liệu nhỏ theo mục đích cũng được nâng cao. Một ví dụ điển hình là kiểm chứng trong lĩnh vực tài chính: với các câu hỏi tương đương kỳ thi Kỹ năng Lập kế hoạch Tài chính cấp 2 (FP cấp 2), mô hình Gemma 27B của Google đạt tỷ lệ trả lời đúng 64% với 1.900 dữ liệu học bổ sung, trong khi tsuzumi 2 đạt 70% chỉ với 200 dữ liệu học bổ sung theo công bố của NTT. Nói cách khác, "dễ đào tạo thành chuyên gia ngành với ít tài liệu hơn" chính là lợi ích thực tiễn khi triển khai tại hiện trường.

tsuzumi 2 được thiết kế để vận hành trên hệ thống on-premise hoặc private cloud, cho phép xử lý thông tin mật mà không cần đưa ra ngoài tổ chức. Thay vì là một công cụ tri thức vạn năng, đây là công cụ thực tế giúp giảm "ma sát" trong công việc hàng ngày như tóm tắt tài liệu nội bộ, tìm kiếm quy định, hỏi đáp dựa trên tài liệu — và chính NTT cũng định vị tsuzumi 2 theo cách đó.

Mô hình tsuzumi 2 Vision ― Đọc hiểu tài liệu kinh doanh có biểu đồ "dưới dạng hình ảnh"

Ngày 19 tháng 5 năm 2026, NTT đã công bố bản cập nhật lớn cho tsuzumi 2, ra mắt cái gọi là "mô hình tsuzumi 2 Vision". Đây là phần mở rộng đa phương thức có khả năng hiểu cả hình ảnh lẫn văn bản, tập trung chủ yếu vào việc đọc toàn bộ tài liệu dưới dạng hình ảnh để hiểu trực quan các bảng biểu, đồ thị và sơ đồ (biểu đồ) vốn thường xuất hiện trong tài liệu kinh doanh tại Nhật Bản.

Lý do phải "xử lý dưới dạng hình ảnh" xuất phát từ thực tế của môi trường làm việc. Các tài liệu mật như báo cáo tài chính, bản thiết kế, đơn đăng ký, phiếu phê duyệt nội bộ thường chứa đựng các con số và điều kiện quan trọng không chỉ trong văn bản mà còn trong các bảng biểu và đồ thị. Nếu xử lý theo cách truyền thống là trích xuất văn bản trước rồi mới phân tích, bố cục và cấu trúc bảng sẽ bị phá vỡ, dẫn đến hiểu sai nội dung. tsuzumi 2 Vision có thể trích xuất thông tin quan trọng nhất từ bên trong các bảng biểu và đưa vào cơ sở dữ liệu, trích xuất các thông tin cần thiết từ biểu mẫu, và hiểu được luồng của các sơ đồ quy trình. Đồng thời, năng lực "suy luận logic và xử lý số liệu" cũng được nâng cao, bao gồm khả năng hiểu và tính toán các thông tin số như doanh thu, cũng như diễn giải các hàm có trong tài liệu kỹ thuật như tài liệu API.

Các trường hợp sử dụng mà NTT đề xuất bao gồm nghiệp vụ thẩm định tín dụng với việc đọc các tài liệu đầy bảng biểu, và hỗ trợ nghiệp vụ tư vấn kỹ thuật trong đó cần tra cứu tài liệu kỹ thuật để trả lời câu hỏi. Điều quan trọng là khả năng hiểu bảng biểu nâng cao này vẫn được thực hiện trên môi trường một GPU duy nhất. Việc có thể đọc hiểu các tài liệu mật có chứa bảng biểu ngay trong nội bộ công ty mà không cần tải lên các dịch vụ đám mây nước ngoài có ý nghĩa rất lớn đối với các doanh nghiệp và cơ quan nhà nước có xu hướng ưa chuộng giải pháp triển khai tại chỗ (on-premise). Dịch vụ dự kiến sẽ được triển khai lần lượt thông qua các công ty thành viên của Tập đoàn NTT.

Cách đọc hiệu suất tiếng Nhật ― Nội dung và giới hạn của đánh giá "cấp độ GPT-5"

Khi nói về tsuzumi 2, cụm từ "hiệu năng tiếng Nhật ngang tầm GPT-5" luôn xuất hiện. Đây là điều cần được hiểu một cách chính xác.

Theo đánh giá của NTT, tsuzumi 2 được cho là đã vượt qua các đối thủ cùng phân khúc kích thước là Gemma-3 27B của Google và Qwen-2.5 32B của Alibaba trên bốn tiêu chuẩn đánh giá quan trọng trong công việc: kiến thức, phân tích, tuân thủ chỉ thị và an toàn. Hơn nữa, NTT giải thích rằng mô hình này đạt điểm số tương đương GPT-5 — vốn lớn hơn nhiều so với sản phẩm của chính họ — trong nhiều tác vụ của MT-Bench phiên bản tiếng Nhật dùng để đo lường chất lượng đối thoại. Nhiều phương tiện truyền thông chuyên ngành như Ledge.ai cũng đưa tin rằng mô hình này "hiện thực hóa hiệu năng tiếng Nhật ngang tầm GPT-5 bằng mô hình nhẹ với thiết kế từ đầu (full-scratch)."

Tuy nhiên, cần có sự dè dặt tỉnh táo ở đây. Như nhiều bài phân tích đã chỉ ra, đây chỉ là đánh giá trong phạm vi "tiếng Nhật" và "cùng phân khúc kích thước", và về hiệu năng tổng hợp đa năng trải rộng mọi tác vụ, các mô hình frontier như GPT-5, Claude của Anthropic hay Gemini 3 Pro của Google vẫn đang dẫn đầu. tsuzumi 2 không phải là mô hình "vượt trội hơn ChatGPT trên mọi mặt trận", mà là mô hình mạnh trên sân chơi "các doanh nghiệp Nhật Bản không thể đưa thông tin mật ra bên ngoài, với chi phí thực tế, xử lý nghiệp vụ tiếng Nhật ở mức cao". Chính việc định vị sân chơi này là cốt lõi chiến lược của tsuzumi, và việc đọc con số benchmark theo nghĩa đen là "đã đánh bại mô hình khổng lồ" là một sự hiểu nhầm.

Nghiên cứu viên đặc biệt cấp cao Nishida Kyosuke, người dẫn dắt quá trình phát triển

Người dẫn đầu nghiên cứu và phát triển tsuzumi là Thượng cấp Nghiên cứu viên Đặc biệt Nishida Kyosuke (西田京介) thuộc Viện Nghiên cứu Thông tin Con người NTT. Chức danh "Thượng cấp Nghiên cứu viên Đặc biệt" là vị trí mà Tập đoàn NTT trao cho những nhà nghiên cứu xuất sắc đặc biệt, được kỳ vọng sẽ có đóng góp lâu dài, với sứ mệnh dẫn dắt việc phát triển công nghệ đổi mới và tiên phong trong các lĩnh vực quan trọng về lâu dài đối với tập đoàn.

Chuyên môn của ông Nishida trải rộng từ mô hình ngôn ngữ quy mô lớn, xử lý ngôn ngữ tự nhiên, đọc hiểu máy móc (AI đọc văn bản và trả lời câu hỏi), đến mô hình Vision-and-Language (ngôn ngữ thị giác) kết nối văn bản với hình ảnh, cùng với học sâu. Hành trình này mang nhiều ý nghĩa. Việc tsuzumi 2 Vision đi theo hướng đọc hiểu tài liệu có biểu đồ dưới dạng hình ảnh là sự tiếp nối liền mạch từ những tích lũy nhiều năm nghiên cứu đọc hiểu máy móc và mô hình ngôn ngữ thị giác của ông Nishida và các cộng sự. Ông cũng có thành tích nghiên cứu phong phú, đã công bố nhiều bài báo tại các hội nghị quốc tế hàng đầu trong lĩnh vực xử lý ngôn ngữ tự nhiên như ACL, AAAI, ICLR, EMNLP, và được đánh giá cao trong lẫn ngoài nước với các giải thưởng như Giải thưởng Xuất sắc nhất NLP2021, Giải thưởng NTT R&D năm 2024, cùng các giải thưởng liên quan đến Hội Xử lý Ngôn ngữ năm 2025.

Điều mà ông Nishida nhắc đi nhắc lại là hình ảnh tương lai không phải tập trung trí tuệ vào một AI khổng lồ duy nhất, mà là vô số AI mang đặc tính riêng biệt cùng phối hợp làm việc với con người. Trong khi đề cao "mục tiêu hiện thực hóa AI đa năng có thể cùng tồn tại tự nhiên với con người trong mọi môi trường", chính sự lựa chọn thoạt nhìn có vẻ nghịch lý — rằng cách triển khai đó không phải là mô hình siêu khổng lồ mà là tsuzumi nhỏ gọn — mới là nơi triết lý AI của NTT được thể hiện.

Trường hợp triển khai ― Đại học, điện lực, và chính phủ "Gennai"

Việc áp dụng tsuzumi 2 đang dần mở rộng một cách chắc chắn từ những môi trường thực tế mà cả tính bảo mật lẫn chi phí đều là yêu cầu thiết yếu.

Trong lĩnh vực giáo dục, Đại học Thông tin Tokyo là cơ sở giáo dục đầu tiên triển khai tsuzumi 2. Trường đã xây dựng nền tảng LLM nội bộ không phụ thuộc vào đám mây, cho phép dữ liệu của sinh viên và cán bộ giảng viên được lưu giữ hoàn toàn trong hệ thống nội bộ, ứng dụng vào các mục đích như hỏi đáp chuyên sâu về bài giảng, hỗ trợ soạn thảo tài liệu học tập và đề thi, cũng như tư vấn cá nhân về đăng ký môn học và định hướng nghề nghiệp. Khả năng sử dụng AI trong khi vẫn bảo vệ dữ liệu cá nhân của sinh viên chính là lý do then chốt để lựa chọn tsuzumi — mô hình có thể vận hành on-premise.

Trong lĩnh vực năng lượng, ngày 26 tháng 1 năm 2026, NTT Docomo Business (NTT Communications) và Chugoku Electric Power đã công bố khởi động xây dựng và kiểm chứng một LLM chuyên biệt cho nghiệp vụ điện lực, sử dụng tsuzumi 2. Kế hoạch là đào tạo mô hình với thông tin nghiệp vụ và kiến thức chuyên môn của Chugoku Electric Power để tạo ra một LLM chuyên sâu cho ngành điện, hướng tới triển khai chính thức từ năm tài chính 2026 trở đi. Trong lĩnh vực tài chính, sự hợp tác kết hợp công nghệ cấu trúc hóa tài liệu "REiLI" của Fujifilm Business Innovation với tsuzumi nhằm xử lý các tài liệu doanh nghiệp phi chuẩn cũng đang được thúc đẩy.

Và điều mang tính biểu tượng nhất chính là việc được chính phủ lựa chọn. Ngày 6 tháng 3 năm 2026, Văn phòng Chuyển đổi Số (Digital Agency) đã chọn tsuzumi 2 cùng 6 mô hình khác — tổng cộng 7 mô hình — từ 15 ứng viên, để thử nghiệm trong nền tảng AI tạo sinh "Gennai (源内/GENAI)" phục vụ cán bộ công chức toàn bộ các bộ ngành. Tên "Gennai" được lấy cảm hứng từ nhà phát minh thời Edo Hiraga Gennai, đồng thời cũng là cách chơi chữ với "GenAI" (AI tạo sinh). tsuzumi 2 được kỳ vọng đóng góp với tư cách là "mô hình mạnh về tiếng Nhật, định hướng thực tiễn trong môi trường kinh doanh và hành chính" — ứng dụng vào soạn thảo, tóm tắt, sắp xếp văn bản hành chính cũng như khai thác tri thức nghiệp vụ. Việc một mô hình thuần nội địa được lựa chọn cho nền tảng xử lý thông tin quan trọng của quốc gia là sự tín nhiệm lớn đối với tsuzumi.

Thung lũng Silicon và thế giới nhìn nhận như thế nào — Địa chính trị của "AI Có Chủ Quyền"

Hãy đặt tsuzumi vào bối cảnh mà các nhà đầu tư mạo hiểm (VC) ở Thung lũng Silicon đang tập trung chú ý. Từ khóa ở đây là "AI Chủ quyền (Sovereign AI)" — tư tưởng phát triển và vận hành AI dưới sự kiểm soát về dữ liệu, văn hóa và hệ thống pháp lý của chính quốc gia mình.

Người lên tiếng mạnh mẽ nhất về xu hướng này chính là Jensen Huang, CEO của NVIDIA — công ty đang thống lĩnh thị trường chip bán dẫn AI toàn cầu. Tại Hội nghị thượng đỉnh Chính phủ Thế giới và nhiều diễn đàn khác, ông phát biểu: "Mọi quốc gia đều sẽ xây dựng AI của riêng mình", "Không ai cần bom nguyên tử, nhưng tất cả đều cần AI", và định nghĩa AI Chủ quyền là "thứ mã hóa nền văn hóa, trí tuệ xã hội, lẽ thường và lịch sử của bạn — dữ liệu của bạn, do bạn sở hữu." Ông còn tiến xa hơn khi khuyên các nhà lãnh đạo các nước đang phát triển: "Hãy mã hóa ngôn ngữ và văn hóa của đất nước bạn vào các mô hình ngôn ngữ lớn của chính bạn." Trong thế giới quan coi hạ tầng AI là nền tảng quốc gia này, tsuzumi của NTT được định vị chính xác là đại diện tiêu biểu cho "AI Chủ quyền của Nhật Bản." Bản thân Chủ tịch NTT, ông Shimada, cũng đã bày tỏ tư tưởng AI Chủ quyền — rằng mỗi quốc gia nên phát triển công nghệ phù hợp với bối cảnh văn hóa và lịch sử của mình.

Dòng vốn VC cũng đang chảy mạnh theo hướng này. Trong làn sóng đầu tư AI năm 2026, các quỹ đầu tư quốc gia (Sovereign Wealth Fund) như PIF của Ả Rập Saudi và Mubadala của Abu Dhabi ngày càng khẳng định vai trò là những nhà cung cấp vốn chủ chốt trong các vòng gọi vốn khổng lồ. Nguyên nhân là bởi các thị trường trong nước có nhu cầu mạnh mẽ đối với AI được tạo ra cho riêng mình, xuất phát từ những lo ngại về nơi lưu trữ dữ liệu (data residency), tuân thủ quy định và an ninh thông tin.

Tại Nhật Bản, nhu cầu này được thể hiện qua một nhóm các startup là đối tượng so sánh trực tiếp với tsuzumi. Nổi bật trong số đó là Sakana AI, đã gọi vốn thành công 135 triệu USD (khoảng 200 tỷ yên) trong vòng Series B vào ngày 17 tháng 11 năm 2025, đưa định giá công ty lên 2,65 tỷ USD (khoảng 400 tỷ yên). Được thành lập năm 2023 bởi Llion Jones — đồng tác giả bài báo "Attention Is All You Need" — cùng các cựu nhân viên Google, công ty này có đặc trưng là tạo ra các mô hình được tối ưu hóa cho tiếng Nhật và văn hóa Nhật Bản với ít dữ liệu hơn thông qua quá trình học sau (post-training) hiệu quả. Danh sách nhà đầu tư bao gồm MUFG (Tập đoàn tài chính Mitsubishi UFJ), Khosla Ventures, NEA, Lux Capital, và cả In-Q-Tel — quỹ VC liên kết với cộng đồng tình báo Mỹ. Tại châu Âu, Mistral AI của Pháp đã gọi vốn 1,7 tỷ euro (khoảng 2.800 tỷ yên) trong vòng Series C vào tháng 9 năm 2025, với ASML — nhà sản xuất máy khắc bán dẫn — là cổ đông lớn nhất, đẩy định giá lên khoảng 13,8 tỷ USD (khoảng 2,07 triệu tỷ yên). Vòng đó cũng có sự tham gia của NVIDIA và Andreessen Horowitz (a16z). Bức tranh về việc mỗi quốc gia và khu vực rót số tiền khổng lồ vào "AI của riêng mình" chính là phản ánh cơn sốt AI Chủ quyền toàn cầu.

So với những cái tên kể trên, tsuzumi có sự khác biệt rõ ràng về xuất phát điểm: đây không phải startup tìm kiếm tăng trưởng nhanh bằng vốn VC, mà là mô hình do công ty hạ tầng viễn thông NTT tự phát triển, lấy nghiên cứu và phát triển nội bộ làm nền tảng. Tuy nhiên, điều đáng chú ý là truyền thông nước ngoài (AI News, Computer Weekly...) đồng loạt đánh giá tsuzumi là "giải pháp nhẹ hoạt động trên một GPU duy nhất, đối lập với chiến lược hyperscaler đòi hỏi hàng chục đến hàng trăm GPU", và định vị nó như một giải pháp thực tế cho các tổ chức không đủ tiềm lực để sử dụng các mô hình frontier khổng lồ. Tsuzumi chính là hiện thân rõ nét nhất tại Nhật Bản của làn sóng đang diễn ra ở Thung lũng Silicon — sự đảo chiều từ xu hướng mô hình ngày càng to hơn, sang hướng sử dụng linh hoạt các mô hình nhỏ, hiệu quả (SLM) chuyên biệt theo từng lĩnh vực nghiệp vụ.

Đội hình các LLM nội địa cạnh tranh ― Vị thế của tsuzumi

Chúng ta cũng nên làm rõ những đối thủ mà tsuzumi phải đối mặt trên thị trường nội địa trong lĩnh vực AI có chủ quyền. Bảy mô hình được Cục Kỹ thuật số "Gennai" lựa chọn phản ánh gần như toàn bộ bức tranh thế lực LLM hiện tại của Nhật Bản. Bảy mô hình được chọn gồm: "tsuzumi 2" của NTT Data, "Llama-3.1-ELYZA-JP-70B" của KDDI và ELYZA, "Sarashina2 mini" của SoftBank, "cotomi v3" của NEC (Nippon Electric), "Takane 32B" của Fujitsu, "PLaMo 2.0 Prime" của Preferred Networks (PFN), và "CC Gov-LLM" của Customer Cloud.

Các phương pháp phát triển chia thành hai hướng lớn. Một là trường phái phát triển từ đầu (full-scratch) như tsuzumi của NTT hay PLaMo của PFN, tự phát triển mô hình nền tảng từ con số không. Hai là trường phái học liên tục (continual pre-training) như ELYZA, lấy Llama của Meta rồi huấn luyện thêm bằng dữ liệu tiếng Nhật. PFN hợp tác với Sakura Internet và NICT, đang tiến hành phát triển "PLaMo 3.0 Prime" có khả năng suy nghĩ sâu hơn, và tuyên bố có thể bắt kịp các mô hình nước ngoài như Qwen3-235B hay gpt-oss-120b. SB Intuitions thuộc SoftBank sở hữu dòng Sarashina với cấu trúc MoE (Mixture of Experts) khoảng 460 tỷ tham số (460B), Takane của Fujitsu theo hướng doanh nghiệp kết hợp lượng tử hóa và chưng cất, còn ELYZA thuộc KDDI là đơn vị tiên phong nhất trong triển khai thương mại — mỗi công ty đang phân chia thị trường theo những thế mạnh khác nhau.

Vị thế của tsuzumi 2 trong đội hình này rất rõ ràng. Khác biệt hoàn toàn với hướng chạy đua số lượng tham số tối đa (như PLaMo hay Sarashina), tsuzumi 2 tự định vị mình là mô hình hạng trung được tối ưu hóa cho yêu cầu thực tế của doanh nghiệp và cơ quan nhà nước, với ba lợi thế: "nhẹ đủ để chạy trên 1 GPU", "kiến thức chuyên ngành tài chính, y tế, công vụ", và "vận hành on-premise không để lộ dữ liệu mật ra ngoài". Điều mà quyết định lựa chọn của Gennai cho thấy là lý do chính phủ ưu tiên sản phẩm nội địa không nhất thiết là "hiệu năng đơn thuần", mà nằm ở triết lý thiết kế xoay quanh chủ quyền dữ liệu, bảo mật và các yêu cầu mua sắm — và đây chính là sân nhà của tsuzumi.

Tương lai ― Đa ngôn ngữ, giọng nói và bước ngoặt mua sắm chính phủ năm 2027

Cuối cùng, hãy nhìn về phía trước xem tsuzumi sẽ đi đâu và vào khoảng thời gian nào.

Về mặt kỹ thuật, NTT cho thấy phương hướng tiếp tục nâng cao hiệu suất xử lý tiếng Nhật và tiếng Anh, đồng thời mở rộng sang các ngôn ngữ như tiếng Trung, tiếng Hàn, tiếng Pháp, tiếng Đức để mở rộng tệp người dùng. tsuzumi 2 đang hướng tới hỗ trợ đa phương thức, xử lý không chỉ văn bản và hình ảnh mà còn cả giọng nói, và mô hình Vision ra mắt vào tháng 5 năm 2026 được định vị là bước đi đầu tiên trong việc có được "đôi mắt" đó. Hướng tới tương lai mà ông Nishida và các cộng sự hình dung — "nhiều AI có cá tính riêng phối hợp cùng nhau" — sau khả năng hiểu biểu đồ, việc mở rộng sang giọng nói và suy luận ở cấp độ cao hơn được xem là cột mốc tiếp theo.

Về mặt kinh doanh, ranh giới quan trọng nhất là khung thời gian xoay quanh nền tảng AI của chính phủ "Genai". Theo kế hoạch của Cục Kỹ thuật số, 7 mô hình được lựa chọn sẽ bắt đầu thử nghiệm từ mùa hè năm 2026 (khoảng tháng 8) trên quy mô toàn bộ 39 cơ quan thuộc các bộ, ngành với khoảng 180.000 người dùng, và kết quả đánh giá sẽ được công bố vào khoảng tháng 1 năm 2027. Sau đó, từ tháng 4 năm 2027 trở đi, các mô hình xuất sắc sẽ được chính phủ mua sắm có trả phí. Nói cách khác, các sự kiện đáng chú ý trong thời gian tới tập trung vào ba thời điểm: "khởi động thử nghiệm quy mô lớn vào tháng 8 năm 2026", "công bố đánh giá của chính phủ vào tháng 1 năm 2027", và "mua sắm chính thức từ tháng 4 năm 2027 trở đi". Nếu tsuzumi 2 đạt kết quả tốt tại đây, con đường trở thành một trong những trụ cột của nền tảng AI thuần nội địa ở quy mô toàn bộ các bộ, ngành sẽ mở ra. Theo các báo cáo, số lượng yêu cầu trong nước đã đạt tới khoảng 2.000 trường hợp, và phạm vi ứng dụng đang mở rộng ổn định, tập trung vào các lĩnh vực chính quyền địa phương, tài chính và y tế.

Không thể theo kịp các tiên phong thế giới trong cuộc đua phình to về quy mô — nhìn thẳng vào thực tế đó, NTT đang thách thức cuộc chơi trên một trục khác: "nhẹ nhàng", "tiếng Nhật" và "chủ quyền". Trong thời đại mà như Jensen Huang nói, mỗi quốc gia đều cần có AI của riêng mình, tsuzumi 2 và tsuzumi 2 Vision đã bước vào giai đoạn phải chứng minh giá trị thực sự của mình như một trong những lựa chọn thực tế nhất để Nhật Bản tự xử lý ngôn ngữ, văn hóa và thông tin mật của chính mình.