Kokoro
1. サービス概要
「Kokoro」(主にKokoro-82Mとして知られる)は、オープンソースで公開されている軽量・高速かつ高品質なテキスト読み上げ(TTS: Text-to-Speech)モデルおよび関連サービスです。
- 主な機能:
- 高精度な音声合成: わずか8200万(82M)という小規模なパラメータ数ながら、XTTS v2やMetaVoiceといった大規模モデルを凌駕する自然な音声を生成。
- 多言語対応: 英語(米・英)、日本語、中国語、フランス語、韓国語、スペイン語、ヒンディ語、イタリア語、ポルトガル語など複数言語をサポート。
- ボイスミキシング: 複数の音声プロファイルを組み合わせて、独自の新しい声を作成する機能。
- リアルタイム処理: 非常に軽量なため、安価なハードウェアやエッジデバイスでもリアルタイムの音声合成が可能。
- ユーザー数: 具体的な登録ユーザー数は非公開(オープンソースプロジェクトのため)。Hugging Faceの「TTS Spaces Arena」で1位を獲得するなど、開発者コミュニティの間で急速に普及。
- 対応プラットフォーム:
- Web(Hugging Face Spaces, Docker経由のセルフホスト)
- OS: Windows, macOS, Linux
- デバイス: Apple Silicon (CoreML), NVIDIA GPU (CUDA), CPU(ローカル実行可能)
- その他: Pythonライブラリとしての利用、OpenAI互換APIサーバー、MCP (Model Context Protocol) サーバーなど
2. 使用している技術スタック
Kokoroは、効率性と品質を両立させるために以下の技術・アーキテクチャを採用しています。
- アーキテクチャ: StyleTTS 2 をベースとしたデコーダー専用(Decoder-only)アーキテクチャ。Diffusion(拡散モデル)やエンコーダーを使用せず、ISTFTNet を組み合わせることで高速な推論を実現。
- バックエンド/ライブラリ: PyTorch, CoreML(macOS/iOS用), ONNX(クロスプラットフォーム用)。
- G2P (Grapheme-to-Phoneme): テキストを音素に変換するために、独自のG2Pライブラリ misaki および eSpeak NG を使用。
- 開発言語: Python, TypeScript (Webインターフェース部), Rust (一部最適化実装)。
- ライセンス: モデルウェイトおよびコードは Apache 2.0 ライセンス で公開されており、商用利用も可能。
3. 会社概要
Kokoroは特定の伝統的な「株式会社」によって運営されているクローズドなサービスではなく、hexgrad という開発者ユニット/組織を中心としたオープンソースプロジェクトとして展開されています。
- 運営名: hexgrad(GitHub/Hugging Face上の開発組織)
- 設立年: 不明(Kokoro-82Mの初版公開は2024年12月25日)
- 本社所在地: 不明(グローバルなオープンソースコミュニティとして活動)
- 従業員数: 不明(コア開発者数名とコミュニティ貢献者による構成)
4. 沿革、資本構成、国籍、役員情報
プロジェクトの性質上、企業としての詳細な財務・役員情報は公開されていません。
- 沿革:
- 2024年12月: 初期の「Kokoro-82M v0.19」がHugging Faceに公開される。
- 2025年1月: Hugging Faceの「TTS Spaces Arena」にて、既存の大規模商用・オープンソースモデルを抑えてランキング1位を獲得し、世界的な注目を集める。
- 2025年以降: コミュニティにより、ONNX変換、CoreML対応、Dockerパッケージ化、多言語拡張(日本語含む)が急速に進む。
- 資本構成: 非公開。主に寄付やコミュニティの貢献によって維持されている。
- 国籍: 不明(開発者の「rzvzn」氏はDiscordやGitHubを中心に活動しており、特定の国籍に縛られないオンラインコミュニティベースの体制)。
- 役員情報:
- コア開発者: rzvzn(モデルのトレーニングおよび開発を主導)。キャリアや本名の詳細は非公開。
- 技術的基盤: アーキテクチャの設計はLiらによる「StyleTTS 2」の研究に基づいている。
