newsify

Kokoro

1. サービス概要

「Kokoro」(主にKokoro-82Mとして知られる)は、オープンソースで公開されている軽量・高速かつ高品質なテキスト読み上げ(TTS: Text-to-Speech)モデルおよび関連サービスです。

  • 主な機能:
  • 高精度な音声合成: わずか8200万(82M)という小規模なパラメータ数ながら、XTTS v2やMetaVoiceといった大規模モデルを凌駕する自然な音声を生成。
  • 多言語対応: 英語(米・英)、日本語、中国語、フランス語、韓国語、スペイン語、ヒンディ語、イタリア語、ポルトガル語など複数言語をサポート。
  • ボイスミキシング: 複数の音声プロファイルを組み合わせて、独自の新しい声を作成する機能。
  • リアルタイム処理: 非常に軽量なため、安価なハードウェアやエッジデバイスでもリアルタイムの音声合成が可能。
  • ユーザー数: 具体的な登録ユーザー数は非公開(オープンソースプロジェクトのため)。Hugging Faceの「TTS Spaces Arena」で1位を獲得するなど、開発者コミュニティの間で急速に普及。
  • 対応プラットフォーム:
  • Web(Hugging Face Spaces, Docker経由のセルフホスト)
  • OS: Windows, macOS, Linux
  • デバイス: Apple Silicon (CoreML), NVIDIA GPU (CUDA), CPU(ローカル実行可能)
  • その他: Pythonライブラリとしての利用、OpenAI互換APIサーバー、MCP (Model Context Protocol) サーバーなど

2. 使用している技術スタック

Kokoroは、効率性と品質を両立させるために以下の技術・アーキテクチャを採用しています。

  • アーキテクチャ: StyleTTS 2 をベースとしたデコーダー専用(Decoder-only)アーキテクチャ。Diffusion(拡散モデル)やエンコーダーを使用せず、ISTFTNet を組み合わせることで高速な推論を実現。
  • バックエンド/ライブラリ: PyTorch, CoreML(macOS/iOS用), ONNX(クロスプラットフォーム用)。
  • G2P (Grapheme-to-Phoneme): テキストを音素に変換するために、独自のG2Pライブラリ misaki および eSpeak NG を使用。
  • 開発言語: Python, TypeScript (Webインターフェース部), Rust (一部最適化実装)。
  • ライセンス: モデルウェイトおよびコードは Apache 2.0 ライセンス で公開されており、商用利用も可能。

3. 会社概要

Kokoroは特定の伝統的な「株式会社」によって運営されているクローズドなサービスではなく、hexgrad という開発者ユニット/組織を中心としたオープンソースプロジェクトとして展開されています。

  • 運営名: hexgrad(GitHub/Hugging Face上の開発組織)
  • 設立年: 不明(Kokoro-82Mの初版公開は2024年12月25日)
  • 本社所在地: 不明(グローバルなオープンソースコミュニティとして活動)
  • 従業員数: 不明(コア開発者数名とコミュニティ貢献者による構成)

4. 沿革、資本構成、国籍、役員情報

プロジェクトの性質上、企業としての詳細な財務・役員情報は公開されていません。

  • 沿革:
  • 2024年12月: 初期の「Kokoro-82M v0.19」がHugging Faceに公開される。
  • 2025年1月: Hugging Faceの「TTS Spaces Arena」にて、既存の大規模商用・オープンソースモデルを抑えてランキング1位を獲得し、世界的な注目を集める。
  • 2025年以降: コミュニティにより、ONNX変換、CoreML対応、Dockerパッケージ化、多言語拡張(日本語含む)が急速に進む。
  • 資本構成: 非公開。主に寄付やコミュニティの貢献によって維持されている。
  • 国籍: 不明(開発者の「rzvzn」氏はDiscordやGitHubを中心に活動しており、特定の国籍に縛られないオンラインコミュニティベースの体制)。
  • 役員情報:
  • コア開発者: rzvzn(モデルのトレーニングおよび開発を主導)。キャリアや本名の詳細は非公開。
  • 技術的基盤: アーキテクチャの設計はLiらによる「StyleTTS 2」の研究に基づいている。