Kokoro

1. サービス概要

「Kokoro」（主にKokoro-82Mとして知られる）は、オープンソースで公開されている軽量・高速かつ高品質なテキスト読み上げ（TTS: Text-to-Speech）モデルおよび関連サービスです。

主な機能:
高精度な音声合成: わずか8200万（82M）という小規模なパラメータ数ながら、XTTS v2やMetaVoiceといった大規模モデルを凌駕する自然な音声を生成。
多言語対応: 英語（米・英）、日本語、中国語、フランス語、韓国語、スペイン語、ヒンディ語、イタリア語、ポルトガル語など複数言語をサポート。
ボイスミキシング: 複数の音声プロファイルを組み合わせて、独自の新しい声を作成する機能。
リアルタイム処理: 非常に軽量なため、安価なハードウェアやエッジデバイスでもリアルタイムの音声合成が可能。
ユーザー数: 具体的な登録ユーザー数は非公開（オープンソースプロジェクトのため）。Hugging Faceの「TTS Spaces Arena」で1位を獲得するなど、開発者コミュニティの間で急速に普及。
対応プラットフォーム:
Web（Hugging Face Spaces, Docker経由のセルフホスト）
OS: Windows, macOS, Linux
デバイス: Apple Silicon (CoreML), NVIDIA GPU (CUDA), CPU（ローカル実行可能）
その他: Pythonライブラリとしての利用、OpenAI互換APIサーバー、MCP (Model Context Protocol) サーバーなど

Kokoroは、効率性と品質を両立させるために以下の技術・アーキテクチャを採用しています。

アーキテクチャ: StyleTTS 2 をベースとしたデコーダー専用（Decoder-only）アーキテクチャ。Diffusion（拡散モデル）やエンコーダーを使用せず、ISTFTNet を組み合わせることで高速な推論を実現。
バックエンド/ライブラリ: PyTorch, CoreML（macOS/iOS用）, ONNX（クロスプラットフォーム用）。
G2P (Grapheme-to-Phoneme): テキストを音素に変換するために、独自のG2Pライブラリ misaki および eSpeak NG を使用。
開発言語: Python, TypeScript (Webインターフェース部), Rust (一部最適化実装)。
ライセンス: モデルウェイトおよびコードは Apache 2.0 ライセンスで公開されており、商用利用も可能。

Kokoroは特定の伝統的な「株式会社」によって運営されているクローズドなサービスではなく、hexgrad という開発者ユニット/組織を中心としたオープンソースプロジェクトとして展開されています。

プロジェクトの性質上、企業としての詳細な財務・役員情報は公開されていません。

沿革:
2024年12月: 初期の「Kokoro-82M v0.19」がHugging Faceに公開される。
2025年1月: Hugging Faceの「TTS Spaces Arena」にて、既存の大規模商用・オープンソースモデルを抑えてランキング1位を獲得し、世界的な注目を集める。
2025年以降: コミュニティにより、ONNX変換、CoreML対応、Dockerパッケージ化、多言語拡張（日本語含む）が急速に進む。
資本構成: 非公開。主に寄付やコミュニティの貢献によって維持されている。
国籍: 不明（開発者の「rzvzn」氏はDiscordやGitHubを中心に活動しており、特定の国籍に縛られないオンラインコミュニティベースの体制）。
役員情報:
コア開発者: rzvzn（モデルのトレーニングおよび開発を主導）。キャリアや本名の詳細は非公開。
技術的基盤: アーキテクチャの設計はLiらによる「StyleTTS 2」の研究に基づいている。