CosyVoice 2

1. サービス概要

CosyVoice 2は、Alibaba（アリババグループ）のAI研究部門である「Tongyi Speech Lab」が開発・公開している、大規模言語モデル（LLM）ベースのオープンソースなストリーミング音声合成（TTS：Text-to-Speech）モデルです。

主な機能:
ゼロショット音声クローニング: わずか3秒から10秒程度の短い音声サンプル（参照音声）から、その話者の特徴（声質、感情、韻律）を模倣した音声を生成可能。
多言語・クロスリンガル対応: 日本語、中国語、英語、韓国語、および複数の中国語方言（広東語、四川語、上海語等）をサポート。
超低遅延ストリーミング: 独自の統合フレームワークにより、非ストリーミングと同等の品質を維持しつつ、初回パケット生成まで150ms以下の低遅延を実現。
精密な感情・韻律制御: 発音エラーが前モデル（CosyVoice 1.0）より30〜50%低減し、自然な感情表現やきめ細かな音声制御が可能。
ユーザー数: オープンソースプロジェクトのため正確な総ユーザー数は不明ですが、GitHubでのStar数は2.1万（2025年3月時点、リポジトリ全体）を超えており、開発者コミュニティで広く利用されています。
対応プラットフォーム: Python環境（Linux/Windows/macOS）、Docker、およびWebUI（Gradio等）。ModelScopeやHugging Faceを通じてモデルが提供されています。

CosyVoice 2は、高度な生成AI技術を組み合わせたアーキテクチャを採用しています。

基盤モデル: 大規模言語モデル（LLM）ベースの生成フレームワーク。
音声トークナイザー: 音声信号を離散的なユニットに変換する技術。
フロー・マッチング（Flow Matching）: 拡散モデル（Diffusion）の発展形であるフロー・マッチングを導入し、音韻情報の精密なモデリングを実現。
ストリーミング・インフラ: ストリーミングと非ストリーミングを統合したトレーニング・推論フレームワーク。
フレームワーク: PyTorchをベースに構築。
推論最適化: ONNX、TensorRTなどへの対応（コミュニティによる実装を含む）。

CosyVoice 2は、アリババグループ（Alibaba Group Holding Limited）内の音声AI専門組織「Tongyi Speech Lab（通義音声ラボ）」によって開発されています。

沿革:
1999年：ジャック・マー（馬雲）ら18人により杭州で設立。
2014年：ニューヨーク証券取引所（NYSE）に上場。
2024年：AIモデル「通義千問（Tongyi Qianwen）」シリーズの一環として、音声合成モデル「CosyVoice」を発表。
2024年末〜2025年：大幅に性能を向上させた「CosyVoice 2」をリリース。
資本構成: ニューヨーク証券取引所（BABA）および香港証券取引所（9988）の上場企業。主要株主にはソフトバンクグループ（かつての筆頭株主、現在は大部分を解消済み）、BlackRock、Vanguardなどの国際的な機関投資家が含まれます。
国籍: 中華人民共和国（ケイマン諸島登記の持株会社）
役員情報:
蔡崇信 (Joseph Tsai): 会長（Chairman）。台湾出身、カナダ国籍。アリババ創設メンバーの一人。
呉泳銘 (Eddie Wu): 最高経営責任者（CEO）。中国国籍。アリババ創設メンバーの一人。
周暢 (Zhou Chang): Tongyi Speech Labを含むAIモデル開発を主導するシニア技術者・研究員（Alibaba Cloud所属）。