newsify

ChatTTS

1. サービス概要

ChatTTS は、会話・対話シナリオに特化した次世代のオープンソース型テキスト読み上げ(TTS)モデルです。従来のTTSが文章の朗読に長けていたのに対し、ChatTTSは人間らしい自然な会話(フィラー、笑い声、ため息などの挿入)を再現することに特化しています。

  • 主な機能:
  • 会話の最適化: LLM(大規模言語モデル)アシスタントなどとの対話を想定し、自然なリズムと韻律で発話。
  • 微細な制御: 記号([laughter], [uv_break]等)を挿入することで、笑い声、ポーズ、感嘆詞を意図的に制御可能。
  • 複数話者対応: プロンプトやシード値の指定により、多様な声質の書き分けが可能。
  • 多言語対応: 主に中国語と英語に対応(日本語はコミュニティによる微調整モデルが存在)。
  • ユーザー数: 明確な登録ユーザー数は非公開ですが、GitHubでのStar数は3.6万を超え、Hugging Face等でも月間数十万単位のダウンロードを記録する非常に注目度の高いプロジェクトです。
  • 対応プラットフォーム: Python環境(Windows, Linux, macOS)、Hugging Face(ウェブデモ)、Docker、および有志によるWebUI(Gradio等)。

2. 使用している技術スタック

ChatTTSは、近年のLLM(大規模言語モデル)で主流となっているアーキテクチャを音声合成に応用しています。

  • アーキテクチャ: Transformerベースのアウトレグレッシブ(自己回帰)モデル。テキストをトークン化し、音声の特徴量(セマンティック・トークン)を予測するスタイルを採用。
  • モデル構成:
  • VQ-VAE / Vocos: 音声データを離散的なトークンに変換するオーディオ・トークナイザー、およびトークンを波形に戻すボコーダー(Vocos)を使用。
  • Diffusion / Autoregressive: 音声生成プロセスにおいて、自己回帰型モデルと拡散モデルの利点を組み合わせた手法を検討・採用。
  • 主なライブラリ/フレームワーク:
  • PyTorch: 深層学習フレームワーク。
  • Transformers (Hugging Face): モデルの配布と実装。
  • vLLM: 高速な推論を実現するための推論エンジン(オプション)。
  • 学習データ: 10万時間以上の中国語および英語の音声データで学習。

3. 会社概要

ChatTTS は特定の法人による商用サービスというよりも、研究開発チーム「2Noise」によるオープンソースプロジェクトとしての側面が強いのが特徴です。

  • 運営組織名: 2Noise (または 2Noise.ai)
  • 設立年: 不明(プロジェクトの公開は2024年5月頃)
  • 本社所在地: 中国(開発メンバーの多くが中国を拠点とする研究者・エンジニア)
  • 従業員数: 不明(少数精鋭の研究チームと推定される)

4. 沿革、資本構成、国籍、役員情報

公開されている情報の多くが技術面やリポジトリに集中しており、企業としての財務・役員情報は限定的です。

  • 沿革:
  • 2024年5月: GitHubにてChatTTSをオープンソースとして公開。公開直後に自然な発話精度がSNSで話題となり、数日でGitHub Star数が1万を突破。
  • 2024年後半: モデルの商用利用に関するライセンス整備や、より大規模な学習済モデルの公開ロードマップを発表。
  • 資本構成: 非公開(VCからの資金調達に関する公式発表は現時点で確認できず、インディペンデントな研究チームまたはスタートアップの形態をとっている)。
  • 国籍: 中国(開発チームおよび公式サイトのドメイン、主要なコミュニティが中国語圏中心)。
  • 役員情報(氏名・キャリア・国籍):
  • Jian Zhao (CEO/Founder等): プロジェクトの主要な発信者。過去に音声合成やAI研究に携わっていたとされるが、詳細なキャリアや他の役員構成については「不明」。