Fish Speech

1. サービス概要

Fish Speech は、最先端の生成AIを活用した、次世代型のオープンソース・テキスト読み上げ（TTS）および音声クローンサービスです。

主な機能:
テキスト読み上げ (TTS): 100万時間を超える多言語音声データで学習された、極めて自然な音声合成。
音声クローン (Voice Cloning): 数十秒程度の参照音声から、特定の人物の声、感情、抑揚を忠実に再現。
多言語対応: 日本語（10万時間以上）、英語（30万時間以上）、中国語（30万時間以上）を含む、20以上の言語に対応。
WebUI / API 提供: ブラウザ上で操作できるインターフェースのほか、開発者向けのAPIも提供。
ユーザー数: 公開されている GitHub のスター数は 2.7万（2025年3月時点）を超えており、世界中の開発者やクリエイターに利用されています。具体的な総登録ユーザー数は非公開。
対応プラットフォーム: Webブラウザ（クラウド版）、Windows / Linux / macOS（ローカル環境、Docker対応）、Python SDK、API。

Fish Speech は、従来の VITS 等のモデルとは異なる「DualAR（デュアル自己回帰）」アーキテクチャを採用しているのが特徴です。

運営実体は、米国のデラウェア州に登記されているスタートアップ企業です。

沿革:
2024年5月：Fish Speech V1.0 を発表。当初は商用利用不可のライセンス（CC BY-NC-SA 4.0）であった。
2024年12月：ライセンスを Apache License 2.0 に変更し、完全なオープンソース化と商用利用を解禁。
2025年3月：性能を大幅に向上させた Fish Speech V1.5 および最新の S2 モデルシリーズを発表。
資本構成: 外部からの大規模な資金調達（Series A等）の詳細は公表されておらず、現状は「Unfunded（自己資金またはエンジェル投資家等）」の段階とされている。
国籍: 会社登記は米国（デラウェア州）であるが、主要開発者および研究チームの多くが中国出身のエンジニアである。
役員情報:
Songting Liu (CEO/Founder): 代表的な論文『Fish Audio S2 Technical Report』の筆頭著者であり、主要な開発を主導。
主要メンバー: Yifan Cheng, Ruoyi Zhang, Yisheng Zheng 等、AI・音声合成分野の研究者が名を連ねている。役員の詳細なキャリアパスについては、学術研究およびオープンソース開発を基盤としており、特定の国籍（中国系・米国籍等）や詳しい経歴の詳細は公式には非公開。