DreamerV3
1. サービス概要
DreamerV3 は、Google DeepMind とトロント大学の研究チームによって開発された、世界モデル(World Models)に基づく汎用的な強化学習アルゴリズムです。特定のタスクに特化せず、単一のハイパーパラメータ設定で多様なドメインを攻略できる「汎用性」と「スケーラビリティ」を最大の特徴としています。
- 主な機能:
- 環境モデルの学習: 過去の経験から環境の動態(ルールや物理法則)をシミュレートする「世界モデル」を構築。
- 想像による学習(Latent Rollouts): 実際の環境で試行錯誤する代わりに、構築した世界モデル内の潜在空間で将来のシナリオを「想像」し、方策を訓練する。
- ロバスト性技術: 「Symlog変換」や「KLバランシング」などの技術により、報酬の規模や観測データの性質が異なる150以上のタスク(Atari、Minecraft、ロボット制御など)を同一設定で学習可能。
- Minecraftでの成果: 人間のデモンストレーションや特別なカリキュラムなしに、ゼロからダイヤモンドを採掘することに成功した初のアルゴリズム。
- ユーザー数: 研究用アルゴリズムとしてオープンソース公開(GitHub)されており、商用サービスの利用者数のような形式でのカウントは「不明」。ただし、AI研究・ロボティクス分野で広く参照・利用されている。
- 対応プラットフォーム: * ソフトウェア: Python(JAX / TensorFlow / PyTorchベースの実装が存在)。
- ハードウェア: NVIDIA GPU(V100、A100等)および Google TPU。
- OS: Linux(Docker推奨)。
2. 使用している技術スタック
DreamerV3 は、深層学習フレームワークを用いた高度なニューラルネットワークアーキテクチャで構成されています。
- プログラミング言語: Python
- 深層学習フレームワーク: JAX(公式実装。高速な自動微分とハードウェア加速のため)
- 主なアーキテクチャ要素:
- RSSM (Recurrent State-Space Model): 決定論的な状態(RNN/GRU)と確率的な状態を組み合わせた環境モデルの中核。
- CNN (Convolutional Neural Networks): 画像入力のエンコードおよびデコード。
- MLP (Multi-Layer Perceptrons): ベクトル入力の処理および報酬・価値予測。
- Actor-Critic: 方策(Actor)と価値関数(Critic)の学習。
- 最適化アルゴリズム: Adam オプティマイザ。
- インフラ・ツール: Docker(環境構築)、TensorBoard / WandB(ログ監視)。
3. 会社概要
DreamerV3 は単独の営利サービスではなく、Google DeepMind が主導する研究プロジェクトです。
- 運営会社名: Google DeepMind(旧 DeepMind Technologies Limited)
- 設立年: 2010年(2014年にGoogleが買収、2023年にGoogle Brainと統合)
- 本社所在地: 6 Pancras Square, London N1C 4AG, United Kingdom(イギリス・ロンドン)
- 従業員数: 約2,000人以上(2024年時点の推定)
4. 沿革、資本構成、国籍、役員情報
- 沿革: * 2019年:第1世代「Dreamer」発表。
- 2020年:離散潜在変数を用いた「DreamerV2」発表。
- 2023年1月:汎用性を高めた「DreamerV3」の論文およびコードを公開。
- 資本構成: * Alphabet Inc.(Googleの親会社)の完全子会社。 外部への個別株公開はなし。
- 国籍: * イギリス(本社所在地および創業地)。
- 役員情報(主要人物):
- Demis Hassabis(CEO / 共同創業者): イギリス国籍。元チェス神童、ゲーム開発者。AlphaGoやAlphaFoldを主導し、2024年にノーベル化学賞を受賞。
- Shane Legg(Chief Scientist / 共同創業者): ニュージーランド国籍。AIの安全性とAGI(汎用人工知能)の研究に従事。
- Danijar Hafner(主要開発者): ドイツ出身(現在はカナダ・トロント大学/Google研究員)。Dreamerシリーズの筆頭著者。
- Timothy Lillicrap(主要研究員): カナダ国籍。強化学習(DDPG等)の世界的権威。
