ChatTTS
1. サービス概要
ChatTTS は、会話・対話シナリオに特化した次世代のオープンソース型テキスト読み上げ(TTS)モデルです。従来のTTSが文章の朗読に長けていたのに対し、ChatTTSは人間らしい自然な会話(フィラー、笑い声、ため息などの挿入)を再現することに特化しています。
- 主な機能:
- 会話の最適化: LLM(大規模言語モデル)アシスタントなどとの対話を想定し、自然なリズムと韻律で発話。
- 微細な制御: 記号([laughter], [uv_break]等)を挿入することで、笑い声、ポーズ、感嘆詞を意図的に制御可能。
- 複数話者対応: プロンプトやシード値の指定により、多様な声質の書き分けが可能。
- 多言語対応: 主に中国語と英語に対応(日本語はコミュニティによる微調整モデルが存在)。
- ユーザー数: 明確な登録ユーザー数は非公開ですが、GitHubでのStar数は3.6万を超え、Hugging Face等でも月間数十万単位のダウンロードを記録する非常に注目度の高いプロジェクトです。
- 対応プラットフォーム: Python環境(Windows, Linux, macOS)、Hugging Face(ウェブデモ)、Docker、および有志によるWebUI(Gradio等)。
2. 使用している技術スタック
ChatTTSは、近年のLLM(大規模言語モデル)で主流となっているアーキテクチャを音声合成に応用しています。
- アーキテクチャ: Transformerベースのアウトレグレッシブ(自己回帰)モデル。テキストをトークン化し、音声の特徴量(セマンティック・トークン)を予測するスタイルを採用。
- モデル構成:
- VQ-VAE / Vocos: 音声データを離散的なトークンに変換するオーディオ・トークナイザー、およびトークンを波形に戻すボコーダー(Vocos)を使用。
- Diffusion / Autoregressive: 音声生成プロセスにおいて、自己回帰型モデルと拡散モデルの利点を組み合わせた手法を検討・採用。
- 主なライブラリ/フレームワーク:
- PyTorch: 深層学習フレームワーク。
- Transformers (Hugging Face): モデルの配布と実装。
- vLLM: 高速な推論を実現するための推論エンジン(オプション)。
- 学習データ: 10万時間以上の中国語および英語の音声データで学習。
3. 会社概要
ChatTTS は特定の法人による商用サービスというよりも、研究開発チーム「2Noise」によるオープンソースプロジェクトとしての側面が強いのが特徴です。
- 運営組織名: 2Noise (または 2Noise.ai)
- 設立年: 不明(プロジェクトの公開は2024年5月頃)
- 本社所在地: 中国(開発メンバーの多くが中国を拠点とする研究者・エンジニア)
- 従業員数: 不明(少数精鋭の研究チームと推定される)
4. 沿革、資本構成、国籍、役員情報
公開されている情報の多くが技術面やリポジトリに集中しており、企業としての財務・役員情報は限定的です。
- 沿革:
- 2024年5月: GitHubにてChatTTSをオープンソースとして公開。公開直後に自然な発話精度がSNSで話題となり、数日でGitHub Star数が1万を突破。
- 2024年後半: モデルの商用利用に関するライセンス整備や、より大規模な学習済モデルの公開ロードマップを発表。
- 資本構成: 非公開(VCからの資金調達に関する公式発表は現時点で確認できず、インディペンデントな研究チームまたはスタートアップの形態をとっている)。
- 国籍: 中国(開発チームおよび公式サイトのドメイン、主要なコミュニティが中国語圏中心)。
- 役員情報(氏名・キャリア・国籍):
- Jian Zhao (CEO/Founder等): プロジェクトの主要な発信者。過去に音声合成やAI研究に携わっていたとされるが、詳細なキャリアや他の役員構成については「不明」。
