NTT纯国产AI tsuzumi 2、tsuzumi 2 Vision模型的全部内容

NTT自主研发的大规模语言模型"tsuzumi（つづみ）"于2025年10月升级为参数扩展至约300亿（30B）的"tsuzumi 2"，并于2026年5月19日新增了能够以图像形式解读含图表的日语商业文档的"tsuzumi 2 Vision模型"。其最大特点在于：仅需单块GPU即可运行，预先内置金融、医疗、公共领域的专业知识，并支持本地部署，确保机密数据不流出外部。本文将梳理tsuzumi的发展历程与技术特点、负责统筹开发的高级特别研究员西田京介的理念，以及其被东京通信大学和政府AI基础设施"源内"采用的经过，并与硅谷

tsuzumi（鼓）是什么 ― 不以"规模"取胜，而以"轻量"见长的纯国产AI

首先，我想通过具体的使用场景来描绘tsuzumi是一款怎样的AI。地方银行的行员询问"这个内部系统的错误代码该如何处理"，系统立刻给出答案；医院的行政人员让它对厚厚的诊疗指南进行摘要；市政府让它起草面向居民的通知文稿——这些业务均无需将任何数据发送至外部云端，仅在庁舍或数据中心内的一台服务器（单块GPU）上即可完成。这就是tsuzumi所设想的使用方式。

tsuzumi是NTT自主研发的日语专用大规模语言模型（LLM）。其名称源自日本传统乐器"鼓（つづみ）"，寓意虽小却能发出丰富共鸣，彰显了这款AI作为日本原创产品的独特气质。OpenAI的GPT系列和Google的Gemini追求"不断扩大规模、无所不能的通用模型"，而tsuzumi的理念则截然相反。NTT提出的愿景是："不走LLM大规模化、单极集中的路线，而是让拥有不同个性的众多AI协同合作，与人类共同实现社会的Well-being。"因此，NTT将其首要设计条件定为：打造的不是一个庞大的单一智慧体，而是能够适应一线预算与硬件限制、"大小合用"的AI。

这种"轻量化"并非单纯的理念，而是与经济合理性直接挂钩。前沿的大型模型在推理（即实际运行AI）时需要数十乃至数百块GPU，电力消耗和运营成本一直是企业导入的门槛。tsuzumi将这一需求压缩至单块GPU，大幅降低了能耗与费用。此外，tsuzumi坚持"全量自研（从零开始的自主开发）"原则，训练数据仅使用NTT持有版权或已获授权的内容，从而规避了海外模型因大量抓取网络文本而引发的版权与知识产权纠纷风险。这一点对于企业和政府机构放心使用而言，也是重要的差异化优势。

tsuzumi的历程 ― 从2023年问世到商业化，再到世代更替

tsuzumi于2023年11月1日问世。NTT在新闻发布会上将tsuzumi作为独自研发的大语言模型正式发布，该模型以研究所积累的约40年自然语言处理研究为基础开发而成。初代tsuzumi分为超轻量版6亿（0.6B）参数和轻量版70亿（7B）参数，规模极小，分别相当于OpenAI GPT-3（1750亿=175B）的约三百分之一和二十五分之一。"体量虽小，日语能力却极强"这一单点突破的设计理念，在这一阶段便已清晰确立。

2024年3月25日，NTT正式开始tsuzumi的商业化提供。初期以NTT Communications和NTT DATA作为对接窗口，此后NTT东日本、西日本等集团各子公司相继跟进，逐步构建起全面推广的体系。能够满足客户本地部署（自行安装）需求的轻量化模型，被视为以云端为前提的海外厂商所不具备的独特优势。2024年11月，NTT还开始通过Microsoft Azure提供服务，初代tsuzumi的导入范围持续扩大，尤其在地方政府、金融、医疗等"保密性高、难以托管于海外云端"的应用场景中得到广泛采用。

2025年10月20日，NTT将正式开始提供新一代模型"tsuzumi 2"。该模型在继承初代路线（轻量、高安全性、低成本）的基础上，进一步提升了性能，完成了新旧代际的交替，也是本文的主角。NTT将tsuzumi 2定位为岛田明社长所倡导的"AI For Quality Growth"愿景的核心——即通过AI解决客户难题，携手实现可持续的高质量增长。

tsuzumi 2 ― 扩展至30B与"单GPU可运行"的设计理念

tsuzumi 2最大的变化，是将参数规模从初代的7B大幅扩展至约300亿（30B）。一般来说，模型越大越智能，但运行成本也随之急剧上升。tsuzumi 2在增加规模的同时，通过降低推理时所需内存的技术，维持了初代以来"在单张GPU上运行"这一绝对条件。据NTT介绍，所需硬件的初期投资仅相当于NVIDIA A100（40GB）一张卡，约500万日元。与同等用途相比，DeepSeek-V3.1（约700B）的硬件成本约为1亿日元，Meta系的Llama-4（约400B）约为5000万日元，而tsuzumi 2的推理成本可压缩至前者的约十分之一至二十分之一。

在内容打磨上，也并非追求通用意义上的智能竞争，而是完全聚焦于"日本企业实际使用的领域"。NTT针对金融、医疗、公共（地方政府）三大领域，从预训练阶段就强化了涵盖行业术语、法规及实务文档的专业知识。此外，还提升了结合内部文档进行检索回答的RAG（检索增强生成）精度，以及利用少量数据进行微调的效率。最具代表性的是金融领域的验证结果：在相当于理财规划师技能检定2级（FP2级）的题目测试中，Google系的Gemma 27B模型经过1900条追加学习后正答率为64%，而tsuzumi 2仅凭200条追加学习便达到了70%。这意味着"用更少的训练数据，更容易培养出该行业的专家级能力"，这正是其在实际业务落地中的核心价值。

tsuzumi 2以本地部署或私有云运营为前提，可在不将机密信息传出组织外的情况下使用。与其说是万能的知识引擎，不如说是减少日常业务"摩擦"的实用工具——用于内部手册摘要、规程检索、基于文档的问答等场景。NTT自身也正是如此定位tsuzumi 2的。

tsuzumi 2 Vision模型 ― 将含图表的商业文档"作为图像"进行解读

2026年5月19日，NTT对tsuzumi 2进行了重大更新，发布了所谓的"tsuzumi 2 Vision模型"。这是一项不仅能理解文本、还能理解图像的多模态扩展，其重点在于将日本商业文档中常见的表格、图表、示意图（图表）作为图像整体读取，进行视觉化理解。

之所以采用"图像方式"，背后有实际业务的考量。财务报告、设计文件、申请表、审批文书等机密文档中，往往在图表中嵌入了重要数字和条件，而非仅以文本形式呈现。若像以往那样先提取文本再进行处理，版面和表格结构会遭到破坏，导致理解偏差。tsuzumi 2 Vision能够从图表中提取关键信息并进行数据库化、从表单中抽取所需事项、理解流程图的逻辑脉络。与此同时，对销售金额等数值信息的理解与计算、以及对API文档等技术文件中函数的解析等"逻辑推理与数值处理"能力也得到了显著提升。

NTT列举的预期使用场景包括：将大量图表资料输入用于信用审查业务，以及在参照技术文档的同时提供技术咨询支援等。值得关注的是，如此高水平的图表理解能力，依然在单台GPU环境下实现。对于倾向于本地部署的企业和政府机构而言，无需将含有机密图表的文件上传至境外云端、即可在内部完成解读，具有重要意义。该服务计划通过NTT集团各子公司陆续提供。

如何解读日语性能——"GPT-5级"这一评价的内容与局限

在谈论tsuzumi 2时，"GPT-5级日语性能"这一表述必然会被提及。对此需要准确理解。

根据NTT的评测，tsuzumi 2在知识、解析、指令执行、安全性这四项对业务至关重要的基准测试中，超越了同等规模的竞争对手——谷歌的Gemma-3 27B和阿里巴巴的Qwen-2.5 32B。此外，NTT表示，在衡量对话质量的日语版MT-Bench的多项任务中，tsuzumi 2展现出了与规模远大于自身的GPT-5相媲美的分数。Ledge.ai等多家专业媒体也报道称，"以全新设计实现了GPT-5级日语性能的轻量化模型"。

不过，这里需要保持冷静的审慎态度。正如多篇分析文章所指出的，这仅仅是在"日语"且"同等规模"条件下的评测结果，在跨越所有任务的通用综合性能方面，GPT-5、Anthropic的Claude、谷歌的Gemini 3 Pro等前沿模型依然领先。tsuzumi 2并非"在所有方面都胜过ChatGPT"的模型，而是在"无法将机密数据外传的日本企业，以合理成本，高水准处理日语业务"这一特定赛道上表现出色的模型。正是这一赛道定位构成了tsuzumi战略的核心，若将基准测试的数字简单解读为"击败了大型模型"，则是一种误读。

由西田京介高级特别研究员主导开发

领导tsuzumi研发工作的，是NTT人类信息研究所的西田京介高级特别研究员。"高级特别研究员"是NTT集团授予极为优秀、有望长期活跃的研究人员的职位，肩负着在对集团具有长期重要意义的领域中引领创新性、先导性技术开发的使命。

西田的专业领域涵盖大规模语言模型、自然语言处理、机器阅读理解（能够阅读文章并回答问题的AI），以及将文字与图像相结合的Vision-and-Language（视觉语言）模型和深度学习。这段经历颇具启示意义。tsuzumi 2 Vision走向将含有图表的文档作为图像进行解读的方向，正是与西田等人多年深耕机器阅读理解和视觉语言模型所积累的成果一脉相承。其研究成果亦十分丰硕，在自然语言处理领域最顶尖的国际会议ACL、AAAI、ICLR、EMNLP上发表了大量论文，并荣获NLP2021最优秀奖、2024年NTT R&D奖以及2025年语言处理学会相关各奖项，在国内外均获得高度评价。

西田反复阐述的，是一种并非将智能集中于单一庞大AI，而是由各具个性的众多AI与人类协同工作的未来愿景。他提出"实现能够在一切环境中与人类自然共存的通用AI"，而其实现路径并非超大规模模型，而是轻量化的tsuzumi——正是这一看似自相矛盾的选择，体现了NTT的AI哲学。

导入案例 ― 大学、电力，以及政府"源内"

tsuzumi 2的采用，正在从那些兼顾保密性与成本的一线场景中稳步扩展。

在教育领域，东京通信大学作为首家教育机构引入了tsuzumi 2。该校无需依赖云端，在校内数据不出校园的前提下构建了校内LLM基础设施，并将其用于课程相关的高级问答、教材与试题的制作辅助，以及选课和职业发展方面的个性化咨询。能够在保护学生个人数据的同时使用AI，正是可在本地部署运行的tsuzumi被选中的独特理由。

在能源领域，2026年1月26日，NTT Docomo Business（NTT Communications）与中国电力联合宣布，开始基于tsuzumi 2构建并验证面向电力业务的专用LLM。计划将中国电力的业务信息与专业知识融入训练，打造电力行业专属LLM，并着眼于2026年度以后的全面应用。在金融领域，富士胶片商业创新公司将其文件结构化技术"REiLI"与tsuzumi相结合，双方在处理非结构化企业文档方面的合作也在推进之中。

而最具象征意义的，是被政府采用。数字厅于2026年3月6日，在面向全体府省厅职员的生成式AI基础平台"源内（GENAI）"试用阶段，从15个申请项目中遴选出包含tsuzumi 2在内的7个模型。"源内"之名源自江户时代的发明家平贺源内，同时也与"生成AI（GenAI）"形成谐音。tsuzumi 2作为"日语能力强、面向商务与行政实用场景的模型"，被寄望在行政文件的起草、摘要与整理，以及业务知识的运用等方面发挥贡献。在处理国家重要信息的基础平台上，纯国产模型得以入选，这对tsuzumi而言是莫大的信任与肯定。

硅谷与世界如何看待——"主权AI"这一地缘政治学

我想在此将tsuzumi置于硅谷风险投资人（VC）眼下正炙手可热的语境中重新审视。关键词是"主权AI（Sovereign AI）"——在本国数据、文化与法律制度的管控下开发和运营AI的理念。

最响亮地倡导这一潮流的，是以AI芯片横扫全球的英伟达（NVIDIA）CEO黄仁勋。他在世界政府峰会等场合表示："每个国家都将构建自己的AI""没有人需要原子弹，但每个人都需要AI"，并将主权AI定义为"编码你的文化、社会智识、常识与历史——用你自己的数据，由你自己拥有"。他甚至向发展中国家领导人建议："将本国语言与文化的数据，编码进本国的大型语言模型。"在这种将AI基础设施视为国家根基的世界观中，NTT的tsuzumi正是"日本主权AI"的典型代表。NTT社长岛田本人也表达了与主权AI一脉相承的理念——各国应发展契合本国文化与历史背景的技术。

VC资金也在大力流向这一方向。在2026年的AI投资中，沙特PIF、阿布扎比穆巴达拉等主权财富基金（Sovereign Wealth Fund）作为巨额融资的主要出资方，存在感日益凸显。其背后的驱动力在于：各国市场出于对数据驻留（Data Residency）、合规要求及信息安全的顾虑，对专为本国打造的AI存在强烈需求。

在日本承载这一需求的，正是与tsuzumi形成直接对标的初创企业群体。其中，Sakana AI于2025年11月17日完成1.35亿美元（约200亿日元）的B轮融资，估值达26.5亿美元（约4000亿日元）。该公司由《Attention Is All You Need》论文共同作者Llion Jones等谷歌出身者于2023年创立，以利用少量数据和高效后训练（Post-Training）打造针对日语及日本文化优化的模型为特色，投资方阵容包括三菱UFJ金融集团（MUFG）、Khosla Ventures、NEA、Lux Capital，以及与美国情报机构关联的风险投资机构In-Q-Tel。在欧洲，法国Mistral AI于2025年9月完成以半导体光刻设备巨头ASML为领投方的17亿欧元（约2800亿日元）C轮融资，估值跃升至约138亿美元（约2兆700亿日元），英伟达与Andreessen Horowitz（a16z）也参与其中。各国各地区竞相向"自研AI"投入巨资的格局，正是主权AI全球热潮的真实写照。

与上述案例相比，tsuzumi的出身路径截然不同——它并非借助VC资金谋求快速增长的初创公司，而是电信基础设施企业NTT以研发为母体、自主培育的模式。然而有一点值得关注：海外媒体（AI News、Computer Weekly等）不约而同地将tsuzumi定位为"相对于需要数十乃至数百块GPU的超大规模策略，以单块GPU运行的轻量化路线"，视其为那些无力使用前沿大模型的组织的现实解决方案。硅谷正在发生的"从一味追求巨大化到回归理性的反转"——即将小型高效模型（SLM）按业务场景灵活调用的潮流——在日本最具代表性的落地实践，正是tsuzumi。

竞争中的国产LLM阵容 ― tsuzumi的定位

我们也来梳理一下，在主权AI的国内市场中，tsuzumi的竞争对手都有哪些。数字厅"源内"所选定的7个模型，几乎原原本本地反映了当前日本LLM的势力版图。入选者分别是：NTT Data的"tsuzumi 2"、KDDI·ELYZA的"Llama-3.1-ELYZA-JP-70B"、软银的"Sarashina2 mini"、NEC（日本电气）的"cotomi v3"、富士通的"Takane 32B"、Preferred Networks（PFN）的"PLaMo 2.0 Prime"，以及Customer Cloud的"CC Gov-LLM"，共7项。

开发路线大致分为两类：一类是像tsuzumi和PFN的PLaMo那样从零自主研发基础模型的"全自研派"；另一类是像ELYZA那样，在Meta的Llama基础上用日语数据进行持续预训练的"继续预训练派"。PFN联合樱花互联网（さくらインターネット）和NICT，正朝着具备深度推理能力的"PLaMo 3.0 Prime"迈进，并声称能够逼近海外的Qwen3-235B和gpt-oss-120b。软银旗下的SB Intuitions拥有约4600亿参数（460B）规模、采用MoE（混合专家）架构的Sarashina系列；富士通的Takane走量化与蒸馏相结合的企业级路线；KDDI旗下的ELYZA则在商业落地方面领先一步——各家公司以不同的优势实现了差异化竞争。

在这一阵列中，tsuzumi 2的定位十分明确。它与主打最大参数规模的路线（PLaMo和Sarashina）划清界限，将自身定义为一款面向企业与政府机关实际需求、高度优化的中量级模型——核心优势在于"单GPU即可运行的轻量化"、"金融·医疗·公共领域的行业知识"，以及"不将机密数据外传的本地化部署"。源内的选定所揭示的事实是：政府坚持国产的理由，未必是"单纯的性能卓越"，而在于数据主权、安全性与采购要求等设计理念——而这，恰恰正是tsuzumi的主场。

未来展望 ― 多语言·语音，以及2027年政府采购这一分水岭

最后，让我们展望一下tsuzumi大致将在何时走向何方。

在技术层面，NTT表示将进一步提升日语和英语的处理性能，同时扩展对中文、韩语、法语、德语等语言的支持，以拓宽用户群体。tsuzumi 2着眼于在文本和图像之外，还能处理语音的多模态能力，2026年5月发布的Vision模型被定位为获得"眼睛"的第一步。面向西田等人所描绘的"具有个性的众多AI协同联动"的未来愿景，图表理解之后，向语音以及更高级推理能力的扩展，预计将成为下一个里程碑。

在业务层面，最大的分水岭在于围绕政府AI基础设施"源内"的时间轴。根据数字厅的计划，入选的7个模型将于2026年夏季（8月前后）起，在全部府省厅39个机构、约18万人的规模内开始试用，并于2027年1月前后公布评估结果。此后，自2027年4月起，优秀模型将通过有偿方式纳入政府采购。也就是说，未来值得关注的重要节点，集中于以下三个时间点："2026年8月大规模实证的启动"、"2027年1月政府评估结果的公布"、"2027年4月以后的正式采购"。如果tsuzumi 2在此过程中取得优异成绩，便将开辟一条承担全府省厅规模纯国产AI基础设施一席之地的道路。据媒体报道，目前国内的询价已达2,000件规模，以地方政府、金融、医疗为中心，应用范围正在稳步扩展。

在巨型化竞争中无法追上世界前沿——直面这一现实，NTT正以"轻量化"、"日语"、"数字主权"为不同维度发起挑战。正如黄仁勋所言，在各国都需要拥有本国AI的时代，tsuzumi 2与tsuzumi 2 Vision已进入一个接受真正考验的阶段——作为日本以自己的双手处理本国语言、文化与机密信息的最现实选择之一。