Common Sense Machines

1. サービス概要

Common Sense Machines（以下、CSM）は、画像、ビデオ、テキストといった2Dの入力情報から、高品質な3D資産（メッシュ、テクスチャ、アニメーション等）を生成するAIプラットフォームです。「World Models（世界モデル）」の文脈では、AIが現実世界の物理的構造や幾何学を理解・シミュレーションすることを支援する役割を担っています。

主な機能:
Image-to-3D: 1枚または複数枚の画像から高精度の3Dモデルを生成。
Text-to-3D: 自然言語のプロンプトから3Dオブジェクトを生成。
Video-to-3D: 動画を基にした3Dスキャンおよび空間再構成。
自動リギング: 生成した3Dモデルに骨格（リグ）を自動付与し、即座にアニメーション可能な状態にする機能。
編集・エクスポート: ブラウザ上でのテクスチャ修正や、OBJ、GLB、USDZ形式での出力に対応。
ユーザー数: 具体的な累計ユーザー数は非公開。ただし、Discordコミュニティには数万人規模のクリエイターが参加しており、プロトタイピングを行うゲーム開発者やデジタルアーティストに広く利用されています。
対応プラットフォーム:
Webブラウザ（CSM.ai ダッシュボード）
Discord（ボット経由での生成）
API提供（開発者向け）
主要な3Dソフトウェア（Unity, Unreal Engine, Blender等）へのプラグイン/エクスポート対応

2. 使用している技術スタック

CSMは、マサチューセッツ工科大学（MIT）の脳・認知科学およびAI研究の知見をベースにした独自の「感性AI（Common Sense AI）」アプローチを採用しています。

コアアルゴリズム:
Inverse Graphics（逆グラフィックス）: 2D画像からその背後にある3D形状や照明条件を推定する計算モデル。
Probabilistic Programming: 不確実性を伴う視覚情報を確率的に処理し、最適な3D構造を導き出す手法。
Neural Radiance Fields (NeRF) / Gaussian Splatting: 効率的な空間レンダリングと3D再構成のための深層学習技術（推測含む）。
フロントエンド・プラットフォーム: React, Next.js（Web UI）、Discord API。
バックエンド・インフラ: Python, PyTorch, NVIDIA GPU（CUDA）による高速推論、AWS等のクラウドインフラ。
その他: 物理シミュレーションエンジンを組み合わせた世界モデルの構築技術。

3. 会社概要

運営会社名: Common Sense Machines, Inc.（Alphabet/Googleによる買収後はGoogle DeepMind部門の一部）
設立年: 2020年
本社所在地: 101 Main Street, 14th Floor, Cambridge, Massachusetts 02142, USA（ケンブリッジ、マサチューセッツ州）
従業員数: 約12〜15名（買収時点のコアメンバー数）

4. 沿革、資本構成、国籍、役員情報

沿革:
2020年：MIT CSAIL（コンピュータ科学・人工知能研究所）のスピンオフとして設立。
2023年：3D生成AIツール「Cube」を一般公開し、クリエイター間で話題となる。
2026年1月：Alphabet（Googleの親会社）が買収。チームはGoogle DeepMindに統合された。
資本構成: 買収前はベンチャーキャピタルから資金調達を実施。主な投資家には Andreessen Horowitz (a16z)、Toyota Ventures、Glasswing Ventures 等が含まれる。直近の評価額は約1,500万ドル（買収前）と報じられている。
国籍: アメリカ合衆国
役員情報（創業者）:
Tejas Kulkarni (CEO & Co-founder): インド出身/米国籍。MITにて博士号取得。元Google DeepMindのリサーチサイエンティストで、深層強化学習とコンピュータビジョンの専門家。
Max Kleiman-Weiner (Co-founder): 米国籍。MITにて計算認知科学の博士号取得。ハーバード大学博士研究員を経て設立。人間の社会的知能をモデル化する研究で知られる。
Josh Tenenbaum (Co-founder/Advisor): 米国籍。MIT教授であり、認知科学・AI界の世界的権威。人間がどのように世界を理解し「常識」を学ぶかを研究。

World Models に戻る