メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。

Open-Sora

Open-Sora インフォグラフィック

1. サービス概要

Open-Sora は、シンガポールを拠点とする HPC-AI Tech(Colossal-AI チーム)が開発・公開している、オープンソースの動画生成AIプロジェクトです。「World Models(世界モデル)」の文脈においては、現実世界の物理法則や空間の連続性を理解し、シミュレート可能な高品質な動画を生成することを目指しています。

  • 主な機能:
  • Text-to-Video: テキストプロンプトからの動画生成(最新版 Open-Sora 2.0 では 720p 以上の高画質、最長16秒以上の生成に対応)。
  • Image-to-Video: 静止画をベースにした動画化。
  • 動画の拡張・編集: 既存動画の延長やループ生成。
  • 柔軟なアスペクト比・解像度: 多様な解像度(240pから720p+)とアスペクト比(16:9, 9:16等)をサポート。
  • 制御性: カメラワークや動作の強さをスコアで指定可能。
  • ユーザー数: オープンソースプロジェクトのため正確なユーザー数は不明ですが、GitHub のスター数は 21,000 を超え(2025年時点)、HPC-AI Tech は 300 社以上の企業クライアント獲得を目指して急速に普及しています。
  • 対応プラットフォーム:
  • OS: Linux (Ubuntu 等) 推奨。
  • ハードウェア: NVIDIA GPU(CUDA対応。推論には RTX 3090/4090 などのコンシューマー向けハイエンドGPUから A100/H100 等のデータセンター向けまで対応)。
  • デモ: Hugging Face Spaces 上で Web デモが提供されています。

2. 使用している技術スタック

Open-Sora は、OpenAI の Sora が採用している Diffusion Transformer (DiT) アーキテクチャをベースに、効率的な学習・推論を実現するための独自技術を組み合わせています。

  • アーキテクチャ: Diffusion Transformer (DiT)。
  • 学習フレームワーク: Colossal-AI(並列処理とメモリ最適化システム)。
  • コンポーネント:
  • VAE (Variational Autoencoder): 3D-VAE または Stability AI 製の VAE を使用。動画データを空間・時間軸の両方で圧縮。
  • Text Encoder: T5 (Text-to-Text Transfer Transformer) や CLIP。
  • 生成アルゴリズム: Rectified Flow(サンプリング効率の向上)。
  • インフラ技術:
  • Sequence Parallelism: 動画の長いフレームを複数GPUで分割処理する手法。
  • ZeRO-DP / Gradient Checkpointing: メモリ使用量を削減し、大規模モデルの学習を効率化。
  • データ処理: LLaVA や PLLaVA を利用した自動キャプショニング(動画への説明文付与)パイプライン。

3. 会社概要

Open-Sora を開発・運営しているのは HPC-AI Technology Inc.(通称:HPC-AI Tech)です。

  • 運営会社名: HPC-AI Technology Inc.
  • 設立年: 2021年
  • 本社所在地: シンガポール(1 Maritime Square, Harbourfront Centre, Suite 11-18, Singapore 099253)
  • ※中国・北京にも主要な開発拠点・オフィスを有しています。
  • 従業員数: 約 70名(2024年末時点の推計。数名から数十名規模の精鋭チームから急拡大中)。

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2021年:カリフォルニア大学バークレー校の博士号を持つ Yang You 教授により設立。
  • 2022年:シードおよびエンジェルラウンドで 600万ドルを調達。Colossal-AI の開発を加速。
  • 2024年3月:Open-Sora 1.0 をリリースし、Sora の再現プロジェクトとして注目を集める。
  • 2024年10月:シリーズAラウンドで 5,000万ドル(累計約 8,400万ドル)の資金調達を完了。
  • 2025年3月:商用レベルの性能を持つ Open-Sora 2.0 を公開。
  • 資本構成:
  • 主な投資家: BlueRun Ventures China (Lanchi Ventures), Sinovation Ventures(李開復氏のファンド), ZhenFund, Singapore Telecom (Singtel Innov8), Greater Bay Area Fund 等。
  • 国籍: シンガポール(グローバル本社)および中国。
  • 役員情報:
  • Yang You (尤洋) - 創業者・代表:
    • 国籍: 中国
    • キャリア: UCバークレーにてコンピュータサイエンスの博士号取得。Google、Microsoft、NVIDIA等での勤務経験。シンガポール国立大学(NUS)のプレジデンシャル・ヤング・プロフェッサー。AI学習速度の世界記録を複数回更新。
  • James Demmel - 最高科学顧問 (CSO):
    • 国籍: アメリカ
    • キャリア: UCバークレー教授。ACM および IEEE フェロー。並列計算および数値線形代数の世界的権威。
  • Zhengda Bian (卞正達) - CTO:
    • キャリア: 大規模分散学習システム Colossal-AI の中心的な開発者。
  • Shenggui Li (李昇貴) - CPO (Chief Product Officer):
    • キャリア: Colossal-AI の普及とプロダクト戦略を担当。