Fish Speech
1. サービス概要
Fish Speech は、最先端の生成AIを活用した、次世代型のオープンソース・テキスト読み上げ(TTS)および音声クローンサービスです。
- 主な機能:
- テキスト読み上げ (TTS): 100万時間を超える多言語音声データで学習された、極めて自然な音声合成。
- 音声クローン (Voice Cloning): 数十秒程度の参照音声から、特定の人物の声、感情、抑揚を忠実に再現。
- 多言語対応: 日本語(10万時間以上)、英語(30万時間以上)、中国語(30万時間以上)を含む、20以上の言語に対応。
- WebUI / API 提供: ブラウザ上で操作できるインターフェースのほか、開発者向けのAPIも提供。
- ユーザー数: 公開されている GitHub のスター数は 2.7万(2025年3月時点)を超えており、世界中の開発者やクリエイターに利用されています。具体的な総登録ユーザー数は非公開。
- 対応プラットフォーム: Webブラウザ(クラウド版)、Windows / Linux / macOS(ローカル環境、Docker対応)、Python SDK、API。
2. 使用している技術スタック
Fish Speech は、従来の VITS 等のモデルとは異なる「DualAR(デュアル自己回帰)」アーキテクチャを採用しているのが特徴です。
- アーキテクチャ:
- LLM (Large Language Model): Llama アーキテクチャに基づいた自己回帰型モデル。
- DualAR (Dual Auto-Regressive): テキストから音響トークンへの変換にデュアル自己回帰トランスフォーマーを使用。
- VITS / VQGAN / EnCodec: 音声の離散化および高品質なデコードに使用。
- 開発言語・フレームワーク: Python, PyTorch (torch.compile による高速化に対応).
- 環境構築: Docker, NVIDIA CUDA, Triton(高速化プラグイン), UV(パッケージ管理).
- モデル配布: Hugging Face にてチェックポイント(重みファイル)を公開。
3. 会社概要
運営実体は、米国のデラウェア州に登記されているスタートアップ企業です。
- 運営会社名: Hanabi AI Inc.(サービスブランド名は Fish Audio)
- 設立年: 2024年(ドメイン取得およびプロジェクトの本格始動時期より)
- 本社所在地: 131 Continental Dr, Suite 305, Newark, DE 19713, United States
- 従業員数: 不明(GitHub の主要なコントリビューターおよびコアメンバーは数名〜10名程度と推測される)
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2024年5月:Fish Speech V1.0 を発表。当初は商用利用不可のライセンス(CC BY-NC-SA 4.0)であった。
- 2024年12月:ライセンスを Apache License 2.0 に変更し、完全なオープンソース化と商用利用を解禁。
- 2025年3月:性能を大幅に向上させた Fish Speech V1.5 および最新の S2 モデルシリーズを発表。
- 資本構成: 外部からの大規模な資金調達(Series A等)の詳細は公表されておらず、現状は「Unfunded(自己資金またはエンジェル投資家等)」の段階とされている。
- 国籍: 会社登記は米国(デラウェア州)であるが、主要開発者および研究チームの多くが中国出身のエンジニアである。
- 役員情報:
- Songting Liu (CEO/Founder): 代表的な論文『Fish Audio S2 Technical Report』の筆頭著者であり、主要な開発を主導。
- 主要メンバー: Yifan Cheng, Ruoyi Zhang, Yisheng Zheng 等、AI・音声合成分野の研究者が名を連ねている。役員の詳細なキャリアパスについては、学術研究およびオープンソース開発を基盤としており、特定の国籍(中国系・米国籍等)や詳しい経歴の詳細は公式には非公開。
