メインコンテンツへスキップ

ChatTTS

ChatTTS インフォグラフィック

1. サービス概要

ChatTTS は、会話・対話シナリオに特化した次世代のオープンソース型テキスト読み上げ（TTS）モデルです。従来のTTSが文章の朗読に長けていたのに対し、ChatTTSは人間らしい自然な会話（フィラー、笑い声、ため息などの挿入）を再現することに特化しています。

主な機能:
会話の最適化: LLM（大規模言語モデル）アシスタントなどとの対話を想定し、自然なリズムと韻律で発話。
微細な制御: 記号（[laughter], [uv_break]等）を挿入することで、笑い声、ポーズ、感嘆詞を意図的に制御可能。
複数話者対応: プロンプトやシード値の指定により、多様な声質の書き分けが可能。
多言語対応: 主に中国語と英語に対応（日本語はコミュニティによる微調整モデルが存在）。
ユーザー数: 明確な登録ユーザー数は非公開ですが、GitHubでのStar数は3.6万を超え、Hugging Face等でも月間数十万単位のダウンロードを記録する非常に注目度の高いプロジェクトです。
対応プラットフォーム: Python環境（Windows, Linux, macOS）、Hugging Face（ウェブデモ）、Docker、および有志によるWebUI（Gradio等）。

2. 使用している技術スタック

ChatTTSは、近年のLLM（大規模言語モデル）で主流となっているアーキテクチャを音声合成に応用しています。

アーキテクチャ: Transformerベースのアウトレグレッシブ（自己回帰）モデル。テキストをトークン化し、音声の特徴量（セマンティック・トークン）を予測するスタイルを採用。
モデル構成:
VQ-VAE / Vocos: 音声データを離散的なトークンに変換するオーディオ・トークナイザー、およびトークンを波形に戻すボコーダー（Vocos）を使用。
Diffusion / Autoregressive: 音声生成プロセスにおいて、自己回帰型モデルと拡散モデルの利点を組み合わせた手法を検討・採用。
主なライブラリ/フレームワーク:
PyTorch: 深層学習フレームワーク。
Transformers (Hugging Face): モデルの配布と実装。
vLLM: 高速な推論を実現するための推論エンジン（オプション）。
学習データ: 10万時間以上の中国語および英語の音声データで学習。

3. 会社概要

ChatTTS は特定の法人による商用サービスというよりも、研究開発チーム「2Noise」によるオープンソースプロジェクトとしての側面が強いのが特徴です。

運営組織名: 2Noise (または 2Noise.ai)
設立年: 不明（プロジェクトの公開は2024年5月頃）
本社所在地: 中国（開発メンバーの多くが中国を拠点とする研究者・エンジニア）
従業員数: 不明（少数精鋭の研究チームと推定される）

4. 沿革、資本構成、国籍、役員情報

公開されている情報の多くが技術面やリポジトリに集中しており、企業としての財務・役員情報は限定的です。

沿革:
2024年5月: GitHubにてChatTTSをオープンソースとして公開。公開直後に自然な発話精度がSNSで話題となり、数日でGitHub Star数が1万を突破。
2024年後半: モデルの商用利用に関するライセンス整備や、より大規模な学習済モデルの公開ロードマップを発表。
資本構成: 非公開（VCからの資金調達に関する公式発表は現時点で確認できず、インディペンデントな研究チームまたはスタートアップの形態をとっている）。
国籍: 中国（開発チームおよび公式サイトのドメイン、主要なコミュニティが中国語圏中心）。
役員情報（氏名・キャリア・国籍）:
Jian Zhao (CEO/Founder等): プロジェクトの主要な発信者。過去に音声合成やAI研究に携わっていたとされるが、詳細なキャリアや他の役員構成については「不明」。