Stable Video Diffusion
1. サービス概要
Stable Video Diffusion(SVD)は、画像生成AI「Stable Diffusion」の開発元であるStability AI社が提供する、静止画から短い動画を生成する高解像度の潜在ビデオ拡散モデル(Latent Video Diffusion Model)です。
- 主な機能:
- Image-to-Video: 1枚の入力画像から、その内容に基づいた一貫性のある動画(数秒間)を生成。
- Multi-view Synthesis: 単一の画像から、物体を別角度から見た動画を生成(物体を3D的に把握する能力)。
- カスタマイズ: カメラの動きや動きの強さ(Motion Bucket ID)を指定して生成結果を調整可能。
- ユーザー数: 非公開。ただし、GitHub上でのオープンソース公開および同社のプラットフォーム「Stability AI Cloud (formerly DreamStudio)」や「Leonardo.ai」等を通じ、世界中で数百万単位のユーザーに利用されています。
- 対応プラットフォーム:
- Web: Stability AI 公式プラットフォーム(Stability AI Cloud / Sky-Reels等)。
- API: 開発者向けAPI経由での統合。
- ローカル環境: Windows/Linux/macOS(GitHubで公開されているソースコードおよびモデルウェイトを使用)。
- サードパーティUI: ComfyUI, Automatic1111(拡張機能)など。
2. 使用している技術スタック
Stable Video Diffusionは、従来の画像生成モデルを動画用に拡張したアーキテクチャを採用しています。
- 基盤アーキテクチャ: 潜在拡散モデル(Latent Diffusion Models: LDM)。画像生成モデルである「Stable Diffusion XL (SDXL)」をベースに、時間軸方向の層を追加してトレーニングされています。
- モデル構造:
- U-Net: 空間的な特徴に加え、時間的な連続性を学習するためのTemporal Layer(時間層)を統合。
- VAE(Variational Autoencoder): 高解像度画像を低次元の潜在空間へ圧縮・復元。
- CLIP ViT-L/14: テキストや画像の特徴量を抽出するエンコーダー。
- トレーニング手法: 3段階のカリキュラム学習(画像予備学習、ビデオ事前学習、高品質ビデオ微調整)を実施。
- 開発言語・フレームワーク: Python, PyTorch.
- 提供形式: 重み(Weights)はHugging Faceにて公開、ソースコードはGitHub(Generative Modelsリポジトリ)で提供。
3. 会社概要
- 運営会社名: Stability AI Ltd.
- 設立年: 2020年(2019年とする説もあるが、公式活動および登記上は2020年が主流)。
- 本社所在地: 英国 ロンドン(108 Cannon Street, London, EC4N 6EU)。
- 従業員数: 約150名〜200名(2024年時点の推定)。
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2020年: エマド・モスタクにより設立。
- 2022年8月: 「Stable Diffusion」をオープンソース公開し、生成AIブームを牽引。
- 2023年11月: 「Stable Video Diffusion」を発表。
- 2024年3月: 創業者エマド・モスタクがCEOを退任。
- 2024年6月: 経営難が報じられる中、投資家グループから大規模な資金調達を実施し、経営体制を刷新。
- 資本構成:
- 非上場のスタートアップ。
- 主な出資者: Coatue Management, Lightspeed Venture Partners, Greycroft, O'Shaughnessy Ventures 等。2024年6月の救済融資にはSean Parker(Napster創業者、元Facebook社長)らが関与。
- 国籍: イギリス(英国)。
- 役員情報:
- プレム・アッカラジュ(Prem Akkaraju): CEO。元Weta Digital(視覚効果会社)のCEO。米国籍。
- ショーン・パーカー(Sean Parker): 執行会長。投資家、元Facebook初代社長。米国籍。
- クリスチャン・ラフォルテ(Christian Laforte): CTO。技術部門の統括。
- エマド・モスタク(Emad Mostaque): 元CEO・創業者(現在は退任)。バングラデシュ系英国人。
