CosyVoice 2
1. サービス概要
CosyVoice 2は、Alibaba(アリババグループ)のAI研究部門である「Tongyi Speech Lab」が開発・公開している、大規模言語モデル(LLM)ベースのオープンソースなストリーミング音声合成(TTS:Text-to-Speech)モデルです。
- 主な機能:
- ゼロショット音声クローニング: わずか3秒から10秒程度の短い音声サンプル(参照音声)から、その話者の特徴(声質、感情、韻律)を模倣した音声を生成可能。
- 多言語・クロスリンガル対応: 日本語、中国語、英語、韓国語、および複数の中国語方言(広東語、四川語、上海語等)をサポート。
- 超低遅延ストリーミング: 独自の統合フレームワークにより、非ストリーミングと同等の品質を維持しつつ、初回パケット生成まで150ms以下の低遅延を実現。
- 精密な感情・韻律制御: 発音エラーが前モデル(CosyVoice 1.0)より30〜50%低減し、自然な感情表現やきめ細かな音声制御が可能。
- ユーザー数: オープンソースプロジェクトのため正確な総ユーザー数は不明ですが、GitHubでのStar数は2.1万(2025年3月時点、リポジトリ全体)を超えており、開発者コミュニティで広く利用されています。
- 対応プラットフォーム: Python環境(Linux/Windows/macOS)、Docker、およびWebUI(Gradio等)。ModelScopeやHugging Faceを通じてモデルが提供されています。
2. 使用している技術スタック
CosyVoice 2は、高度な生成AI技術を組み合わせたアーキテクチャを採用しています。
- 基盤モデル: 大規模言語モデル(LLM)ベースの生成フレームワーク。
- 音声トークナイザー: 音声信号を離散的なユニットに変換する技術。
- フロー・マッチング(Flow Matching): 拡散モデル(Diffusion)の発展形であるフロー・マッチングを導入し、音韻情報の精密なモデリングを実現。
- ストリーミング・インフラ: ストリーミングと非ストリーミングを統合したトレーニング・推論フレームワーク。
- フレームワーク: PyTorchをベースに構築。
- 推論最適化: ONNX、TensorRTなどへの対応(コミュニティによる実装を含む)。
3. 会社概要
CosyVoice 2は、アリババグループ(Alibaba Group Holding Limited)内の音声AI専門組織「Tongyi Speech Lab(通義音声ラボ)」によって開発されています。
- 運営会社名: Alibaba Group Holding Limited(アリババグループ)
- 設立年: 1999年
- 本社所在地: 中国 浙江省 杭州市 余杭区 文一西路969号
- 従業員数: 約204,000人(2024年グループ全体連結)
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 1999年:ジャック・マー(馬雲)ら18人により杭州で設立。
- 2014年:ニューヨーク証券取引所(NYSE)に上場。
- 2024年:AIモデル「通義千問(Tongyi Qianwen)」シリーズの一環として、音声合成モデル「CosyVoice」を発表。
- 2024年末〜2025年:大幅に性能を向上させた「CosyVoice 2」をリリース。
- 資本構成: ニューヨーク証券取引所(BABA)および香港証券取引所(9988)の上場企業。主要株主にはソフトバンクグループ(かつての筆頭株主、現在は大部分を解消済み)、BlackRock、Vanguardなどの国際的な機関投資家が含まれます。
- 国籍: 中華人民共和国(ケイマン諸島登記の持株会社)
- 役員情報:
- 蔡崇信 (Joseph Tsai): 会長(Chairman)。台湾出身、カナダ国籍。アリババ創設メンバーの一人。
- 呉泳銘 (Eddie Wu): 最高経営責任者(CEO)。中国国籍。アリババ創設メンバーの一人。
- 周暢 (Zhou Chang): Tongyi Speech Labを含むAIモデル開発を主導するシニア技術者・研究員(Alibaba Cloud所属)。
