メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。

Stable Video Diffusion

Stable Video Diffusion インフォグラフィック

1. サービス概要

Stable Video Diffusion(SVD)は、画像生成AI「Stable Diffusion」の開発元であるStability AI社が提供する、静止画から短い動画を生成する高解像度の潜在ビデオ拡散モデル(Latent Video Diffusion Model)です。

  • 主な機能:
  • Image-to-Video: 1枚の入力画像から、その内容に基づいた一貫性のある動画(数秒間)を生成。
  • Multi-view Synthesis: 単一の画像から、物体を別角度から見た動画を生成(物体を3D的に把握する能力)。
  • カスタマイズ: カメラの動きや動きの強さ(Motion Bucket ID)を指定して生成結果を調整可能。
  • ユーザー数: 非公開。ただし、GitHub上でのオープンソース公開および同社のプラットフォーム「Stability AI Cloud (formerly DreamStudio)」や「Leonardo.ai」等を通じ、世界中で数百万単位のユーザーに利用されています。
  • 対応プラットフォーム:
  • Web: Stability AI 公式プラットフォーム(Stability AI Cloud / Sky-Reels等)。
  • API: 開発者向けAPI経由での統合。
  • ローカル環境: Windows/Linux/macOS(GitHubで公開されているソースコードおよびモデルウェイトを使用)。
  • サードパーティUI: ComfyUI, Automatic1111(拡張機能)など。

2. 使用している技術スタック

Stable Video Diffusionは、従来の画像生成モデルを動画用に拡張したアーキテクチャを採用しています。

  • 基盤アーキテクチャ: 潜在拡散モデル(Latent Diffusion Models: LDM)。画像生成モデルである「Stable Diffusion XL (SDXL)」をベースに、時間軸方向の層を追加してトレーニングされています。
  • モデル構造:
  • U-Net: 空間的な特徴に加え、時間的な連続性を学習するためのTemporal Layer(時間層)を統合。
  • VAE(Variational Autoencoder): 高解像度画像を低次元の潜在空間へ圧縮・復元。
  • CLIP ViT-L/14: テキストや画像の特徴量を抽出するエンコーダー。
  • トレーニング手法: 3段階のカリキュラム学習(画像予備学習、ビデオ事前学習、高品質ビデオ微調整)を実施。
  • 開発言語・フレームワーク: Python, PyTorch.
  • 提供形式: 重み(Weights)はHugging Faceにて公開、ソースコードはGitHub(Generative Modelsリポジトリ)で提供。

3. 会社概要

  • 運営会社名: Stability AI Ltd.
  • 設立年: 2020年(2019年とする説もあるが、公式活動および登記上は2020年が主流)。
  • 本社所在地: 英国 ロンドン(108 Cannon Street, London, EC4N 6EU)。
  • 従業員数: 約150名〜200名(2024年時点の推定)。

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2020年: エマド・モスタクにより設立。
  • 2022年8月: 「Stable Diffusion」をオープンソース公開し、生成AIブームを牽引。
  • 2023年11月: 「Stable Video Diffusion」を発表。
  • 2024年3月: 創業者エマド・モスタクがCEOを退任。
  • 2024年6月: 経営難が報じられる中、投資家グループから大規模な資金調達を実施し、経営体制を刷新。
  • 資本構成:
  • 非上場のスタートアップ。
  • 主な出資者: Coatue Management, Lightspeed Venture Partners, Greycroft, O'Shaughnessy Ventures 等。2024年6月の救済融資にはSean Parker(Napster創業者、元Facebook社長)らが関与。
  • 国籍: イギリス(英国)。
  • 役員情報:
  • プレム・アッカラジュ(Prem Akkaraju): CEO。元Weta Digital(視覚効果会社)のCEO。米国籍。
  • ショーン・パーカー(Sean Parker): 執行会長。投資家、元Facebook初代社長。米国籍。
  • クリスチャン・ラフォルテ(Christian Laforte): CTO。技術部門の統括。
  • エマド・モスタク(Emad Mostaque): 元CEO・創業者(現在は退任)。バングラデシュ系英国人。