メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。

Open-VLA

Open-VLA インフォグラフィック

1. サービス概要

Open-VLA(Open Vision-Language-Action Model)は、ロボット制御のためのオープンソースのVision-Language-Action(VLA)モデルである。Stanford大学、UC Berkeley、Toyota Research Institute(TRI)の研究者らにより開発された。7Bパラメータの大規模モデルであり、Prismatic VLM(Vision-Language Model)をベースにファインチューニングされている。カメラ画像と自然言語の指示を入力として受け取り、ロボットの行動(アクション)を直接出力するエンドツーエンドのモデルアーキテクチャを採用している。Open X-Embodimentデータセットを用いた大規模な学習により、多様なロボットプラットフォームやタスクに対する汎化能力を実現している。Apache 2.0ライセンスで公開されており、研究・商用利用の両方が可能である。

2. 使用している技術スタック

  • モデルアーキテクチャ: Vision-Language-Action(VLA)モデル。7Bパラメータ
  • ベースモデル: Prismatic VLM(視覚言語モデル)をベースにロボット行動出力層を追加
  • 視覚エンコーダ: SigLIP + DinoV2のデュアルビジョンエンコーダ
  • 言語モデル: Llama 2 7Bベース
  • 学習データ: Open X-Embodimentデータセット(970K以上のロボットエピソード)
  • 学習手法: 教師あり学習(行動クローニング)。LoRAによる効率的なファインチューニングにも対応
  • フレームワーク: PyTorch、Hugging Face Transformers
  • ライセンス: Apache 2.0
  • リポジトリ: github.com/openvla/openvla

3. 会社概要

項目 内容
プロジェクト名 Open-VLA(Open Vision-Language-Action)
開発元 Stanford大学、UC Berkeley、Toyota Research Institute
主要研究者 Moo Jin Kim、Chelsea Finn、Sergey Levine、Dorsa Sadigh
ライセンス Apache 2.0
カテゴリ オープンソースロボット基盤モデル
モデルサイズ 7Bパラメータ

4. 沿革、資本構成、国籍、役員情報

沿革

  • 2023年: Open X-Embodimentプロジェクトが公開。Google DeepMind主導で世界中のロボティクス研究所からロボットデータを集約した大規模データセットが構築される。RT-2-Xモデルが発表される
  • 2024年: Open-VLAが発表・公開。Prismatic VLMベースのオープンソースVLAモデルとして、RT-2-Xに匹敵する性能をオープンに提供
  • 2024年: Hugging Face Hub上でモデルウェイトを公開。研究コミュニティでの利用が拡大
  • 2024年: LoRAベースの効率的なファインチューニング手法を提供し、個別タスクへの適応を容易化

研究機関の概要

  • Stanford大学: AI研究の世界的拠点。Stanford AI Lab(SAIL)、Stanford Vision & Learning Lab(SVL)を中心にロボット学習研究を推進
  • UC Berkeley: Berkeley AI Research Lab(BAIR)が世界有数のロボティクス・AI研究を展開
  • Toyota Research Institute(TRI): トヨタ自動車の米国AI研究所。2015年設立。ロボティクス・自動運転の研究開発に注力。年間約10億ドルの研究予算

主要研究者

  • Moo Jin Kim(筆頭著者): Stanford大学博士課程。ロボット基盤モデルの研究
  • Chelsea Finn(共著者): Stanford大学助教。メタラーニング・ロボット学習の第一人者。Physical Intelligenceの共同創業者でもある
  • Sergey Levine(共著者): UC Berkeley教授。強化学習・ロボット学習の世界的権威
  • Dorsa Sadigh(共著者): Stanford大学助教。人間-ロボットインタラクション・ロボット学習の研究者