エモーショナル・キャプチャとは——感情をデータに変える技術
エモーショナル・キャプチャ(Emotional Capture)とは、動画・音声・生体信号などから人間の感情状態をリアルタイムに検知し、構造化されたメタデータとして出力する技術の総称だ。モーションキャプチャが身体の動きをデータ化するように、エモーショナル・キャプチャは感情の動きをデータ化する。
その基盤となるのがアフェクティブ・コンピューティング(Affective Computing、感情コンピューティング)だ。MIT Media LabのRosalind Picard教授が1995年に同名の論文を発表し、1997年にMIT Pressから書籍『Affective Computing』を出版して分野を確立した。Picardの主張は明快だ。
「コンピュータに本当の知能を持たせ、人間と自然に対話させたいなら、感情を認識・理解し、さらには持ち・表現する能力を与えなければならない。」
神経科学の研究は、意思決定・知覚・学習において感情が本質的な役割を果たすことを繰り返し実証してきた。感情を理解しないAIは、真の意味で人間を理解するAIにはなれない。
エモーショナル・キャプチャの出力は、従来の「ポジティブ/ネガティブ/中立」という単純な感情分析とは次元が異なる。Hume AIは53次元の言語感情空間、48次元の顔表情空間、48次元の音声韻律空間をマッピングし、「喜び」「怒り」といった6基本感情に限定しない、連続的で多次元的な感情メタデータを生成する。
研究の歴史——Ekmanの6基本感情からSemantic Space Theoryへ

エモーショナル・キャプチャの科学的基盤は、3つの主要な理論的潮流の上に築かれている。
Paul Ekmanの基本感情理論(1960年代〜)。心理学者Paul Ekmanは1968年、パプアニューギニアの孤立した部族で表情の普遍性を検証し、怒り・驚き・嫌悪・喜び・恐れ・悲しさの6つの基本感情が文化を超えて普遍的であると主張した。Ekmanが開発したFACS(Facial Action Coding System)は、顔の筋肉運動を28のAction Unit(AU)に分解し、それぞれの組み合わせから感情を推定する体系だ。今日のほとんどの顔認識ベースの感情AIは、FACSの影響を強く受けている。
Lisa Feldman Barrettの構成主義的感情理論(2006年〜)。ノースイースタン大学の心理学者Lisa Feldman Barrettは、Ekmanの普遍性に正面から異議を唱えた。BarrettのTheory of Constructed Emotion(構成された感情理論、TCE)によれば、感情は世界への反射的な反応ではなく、脳が予測的にその場で構成するものだ。同じ身体的感覚を、ある人は「怒り」と解釈し、別の人は「腹痛」と解釈する。感情の粒度(granularity)は個人差が大きく、普遍的カテゴリは幻想だ——Barrettは「圧倒的な証拠に基づき、古典的見解は敗北した」とまで述べた。
Alan Cowenの意味空間理論(2017年〜)。Hume AI創業者のAlan Cowenは、6カテゴリにも構成主義にも与しない第3の立場を提唱した。Semantic Space Theory(SST、意味空間理論)は、データ駆動で感情空間全体をマッピングするアプローチだ。膨大な音声・表情・言語刺激と多様な感情ラベルで大規模実験を実施し、感情が離散的カテゴリでも単純な次元でもなく、連続的で高次元の意味空間に分布することを示した。これがHume AIの53次元感情モデルの理論的根拠だ。
この3つの理論的対立——普遍主義(Ekman)、構成主義(Barrett)、意味空間主義(Cowen)——は決着していない。しかし、技術的にはSSTベースのアプローチが最も精度の高い感情メタデータを生成しており、産業応用では事実上の標準となりつつある。
技術的アプローチ——感情を捕捉する4つのモダリティ
エモーショナル・キャプチャは、複数のモダリティ(入力チャネル)から感情情報を抽出し、統合する。
顔表情認識(Visual Modality)
カメラで捉えた顔の動きを、FACSの28 Action Unitに分解してリアルタイム分析する。眉上げ(AU1+AU2)、鼻しわ(AU9)、唇カール(AU12)、顎開き(AU26)などの微細な筋肉運動を検出し、それらの組み合わせから感情を推定する。
マイクロ表情(微表情)の検出は、エモーショナル・キャプチャの最前線だ。わずかコンマ秒の微細な顔の動きは、本人が意識的に抑制しようとしても表出する「真の感情」の手がかりとなる。AIは人間の目では捉えられない速度の微表情を検出できる。
Affectiva(現Smart Eye)は、87カ国・1,000万以上の顔データで訓練された世界最大の感情データセットを持ち、リアルタイムで28のAction Unitを検出する。
音声感情認識(Audio Modality)
音声のプロソディ(韻律)——ピッチ(音高)、リズム、強度、持続時間——から感情を推定する。ピッチの変動は感情プロソディの最も顕著な特徴であり、高いピッチは興奮・喜び・驚きを、低いピッチは悲しみ・穏やかさを示唆する。発話速度の変化、ポーズの挿入、声の大きさの変動も重要なシグナルだ。
Cogito社のシステムは200以上の音響・音声シグナルをリアルタイム分析し、コールセンターのエージェントに感情的なガイダンスを提供する。Hume AIのEVIは48次元の音声感情空間でプロソディを分析する。
マルチモーダル融合(Multimodal Fusion)
顔表情、音声パターン、テキストデータ、さらには生理信号を統一モデルに統合するアプローチだ。単一モダリティよりも15〜20%高い精度を実現し、2022年以降の学術研究の40%以上がトリモーダル構成またはTransformerベースのクロスモーダル融合アーキテクチャを採用している。
2025年のNature掲載論文「MemoCMT」はクロスモーダルTransformerベースの特徴融合を提案し、「EA-FUSION」はEEGと顔表情データの統合、「HyFusER」はデュアルクロスモーダルアテンションによるハイブリッド融合を実現した。
ウェアラブル生体信号(Physiological Modality)
皮膚電気活動(EDA)、心拍変動(HRV)、血液量脈波(BVP)、皮膚温度、脳波(EEG)などの生理信号からも感情を推定できる。スマートウォッチの加速度計・ジャイロスコープデータやEEGヘッドバンドを活用し、LSTM-GRUアンサンブルアーキテクチャによる感情分類が研究されている。
主要サービスとプロダクト——市場をリードする企業たち

Hume AI——53次元の感情空間をマッピングする
2021年にAlan Cowen(心理学PhD)が設立したHume AIは、感情AI分野で最も注目される企業だ。シリーズBで5,000万ドルを調達し(EQT Ventures主導、Union Square Ventures、Comcast Ventures、LG Technology Ventures参加)、累計7,400万〜8,000万ドルを調達している。
主力製品のEmpathic Voice Interface(EVI)は、感情的知性を持つ音声対話AIだ。EVI 3(2025年5月)は10万以上のカスタムボイス、300ms未満のレスポンス、実用レイテンシ1.2秒を実現し、GPT-4oやGemini Live APIを上回る性能を示した。EVI4-mini(2026年1月)は日本語含む11言語に対応する。
Expression Measurement APIは、音声/動画を入力すると53次元(言語)、48次元(顔表情)、48次元(音声韻律)の感情メタデータを出力する。料金は音声/動画が1分あたり$0.08、テキストが1語あたり$0.00024と、商用利用が現実的な価格帯だ。
2026年1月、Google DeepMindがHume AIのCEO Alan Cowenとエンジニアチームを引き抜き、Geminiの音声機能強化に投入した。Hume AIはライセンス契約を締結し、Andrew EttingerをCEOに迎えて独立企業として継続する。この動きは、感情AIの戦略的価値をGoogleが認めた象徴的な事件だ。
Anthropicとの提携も深い。Claude modelsがEVI設定の36%を占め、100万以上の会話・200万分近くのインタラクション実績がある。
Smart Eye/Affectiva——自動車業界の感情AI標準
2009年にMIT Media Labからスピンアウトし、Rosalind Picard教授が共同創業したAffectivaは、2021年にスウェーデンのSmart Eyeに7,350万ドルで買収された。
87カ国・1,000万以上の顔データを持つ世界最大の感情データセットを保有し、84の量産契約を獲得。世界トップ20 OEMのうち12社と提携している。BMW、Honda、Volvoの2026年モデルにドライバー感情モニタリングが標準搭載される予定だ。疲労・ストレス・注意散漫を検知してアラートを発信し、感情に基づく車内環境(温度、音楽、照明)の自動調整も行う。
Realeyes——広告効果を感情で予測する
広告向けビデオベース感情分析のリーダーであるRealeyesは、月間800万以上のビデオビューを処理する。Mars社との協業は特に注目に値する。2年間で22,000人・149広告・35ブランド・6市場のデータベースを構築し、感情測定技術が広告の売上リフトを75%の精度で予測できることを実証した。Mars社はこの結果を受け、Tier 1ブランド全体でメディア支出の70%を高パフォーマンス広告に配分し、年間数千万ドルの売上リフトを5年以上継続している。
Coca-Cola、Unilever、Hershey'sも顧客に名を連ねる。
Entropik Technologies——マルチモーダル消費者インサイト
2016年にインド・バンガロールで設立されたEntropikは、Bessemer Venture PartnersとSIG Venture Capitalが主導するシリーズBで2,500万ドルを調達した。脳波マッピング、フェイシャルコーディング、アイトラッキングを統合したマルチモーダルプラットフォーム「Affect Lab」を提供し、150以上のグローバルブランドが利用している。
その他の注目企業
Cogitoはコールセンター向け感情AIで、200以上の音響・音声シグナルをリアルタイム分析し、顧客満足度を最大20%改善する。UniphoreはスペインのEmotion Research Labを買収し、音声感情分析をコンタクトセンターに統合した。Vocalis Health(旧Beyond Verbal)はイスラエル発の声紋感情分析企業で、声のバイオマーカーによる心疾患・睡眠障害・神経疾患の診断に取り組む。MorphCastはブラウザネイティブのサーバーレス感情AI SDKを提供する。新興のDubformerはAI感情トランスファー吹替に特化し、2025年初頭にAlmaz Capital主導で360万ドルのシード資金を調達した。
オープンソースで広がる感情認識の民主化

エモーショナル・キャプチャの技術は、商用サービスだけでなく、オープンソースのライブラリ群によっても急速に民主化が進んでいる。研究者やスタートアップが、ゼロから感情認識システムを構築できる環境が整いつつある。
顔表情認識のOSS
DeepFace(GitHub 22,469スター、MITライセンス)は、顔認識と表情分析のPythonライブラリとして最も広く利用されている。pip install deepfaceの一行で導入でき、VGG-Face、FaceNet、ArcFaceなど複数の顔認識モデルをラップし、怒り・嫌悪・恐れ・喜び・悲しさ・驚き・中立の7カテゴリで感情を分類する。リアルタイム動画分析にも対応する。
OpenFace 2.0(7,610スター、CMU MultiComp Lab)は、FACSベースの18 Action Unitをリアルタイム検出する学術標準だ。顔ランドマーク検出、頭部姿勢推定、視線推定も統合し、感情認識研究で最も引用されるツールの一つだ。2025年にはPythonベースのOpenFace 3.0もリリースされ、RetinaFaceによる顔検出とSTARによるランドマーク検出を統合し、AU・感情・視線のマルチタスク分析が可能になった。
EmotiEffLib(旧HSEmotion、Apache-2.0ライセンス)は、ABAW(Affective Behavior Analysis in-the-Wild)コンペティションで1位を獲得した軽量ライブラリだ。PyTorchとONNXの両バックエンドに対応し、写真・動画からの感情とエンゲージメント認識をリアルタイムで実行する。
Py-Feat(MITライセンス、Affective Science誌に掲載)は、顔表情データの検出・前処理・分析・可視化を包括的に行うツールボックスだ。7感情とAction Unitを画像・動画から検出し、t検定や回帰分析などの統計解析ツールも内蔵する。
GoogleのMediaPipe(34,482スター、Apache-2.0)は感情認識に特化したツールではないが、468の3D顔ランドマークと52のブレンドシェイプスコアをリアルタイムで出力し、感情分類器構築の基盤として広く使われている。モバイル・エッジデバイスでも動作する。
音声感情認識のOSS
SpeechBrain(11,410スター、Apache-2.0)は、PyTorchベースの包括的な音声ツールキットだ。wav2vec2をIEMOCAPデータセットでファインチューニングした感情認識モデルを提供し、Hugging Faceとのシームレスな統合が可能だ。音声認識・話者認識・音声強調に加え、感情認識のレシピが含まれている。
emotion2vec(1,089スター、ACL 2024掲載)は、自己教師あり事前学習による初の汎用音声感情表現モデルだ。9クラスの感情分類を行うemotion2vec+モデル(seed/base/large)を提供し、中国語・フランス語・ドイツ語・イタリア語など多言語で最高精度を達成した。Hugging Face上の他のオープンソースモデルを大幅に上回る。
AlibabaのSenseVoice(7,907スター)は、音声認識・言語識別・感情認識・音声イベント検出を統合した音声ファウンデーションモデルだ。中国語・広東語・英語・日本語・韓国語に対応し、ターゲットデータでのファインチューニングなしで既存の最良モデルを超える性能を示した。
openSMILE(794スター、TU Munich/audEERING開発)は、感情認識のための音声特徴抽出で業界標準の地位を持つ。MFCC、プロソディ特徴、スペクトル特徴を抽出し、eGeMAPSやComParEなどの標準特徴セットを提供する。Linux・Windows・macOS・Android・iOS・Raspberry Piで動作する。
OpenAIのWhisper(97,053スター、MITライセンス)は汎用音声認識モデルだが、ファインチューニングされた派生モデルが感情認識に活用されている。RAVDESS/SAVEE/TESSデータセットでファインチューニングされたWhisper-large-v3は、7感情で約92%の精度を達成した。
マルチモーダル感情認識のOSS
Emotion-LLaMA(550スター、BSD-3ライセンス)は、LLMベースのマルチモーダル感情認識・推論の先駆的モデルだ。HuBERT(音声)、VideoMAE(動画)、EVA/MAE(視覚)、テキストをLLaMAベースの統合モデルで処理し、感情の認識だけでなく推論(なぜその感情が生じたか)も行う。
EmoBox(314スター、INTERSPEECH 2024掲載)は、32データセット・14言語をカバーする多言語・多コーパスの音声感情認識ベンチマークツールキットだ。10の事前学習済み音声モデルをベンチマークし、最も網羅的なSER(Speech Emotion Recognition)ベンチマークを提供する。
主要データセット
感情認識OSSの背景には、公開データセットの充実がある。画像ベースのFER2013(約35,887枚、7感情)、大規模なAffectNet(約100万枚、8感情+バレンス/アラウザル)、音声+動画のRAVDESS(7,356ファイル、8感情)、音声+動画+テキストのIEMOCAP(約12時間、最大9感情)、テレビドラマ『フレンズ』由来のMELD(13,000以上の発話、7感情+3感情極性)、RedditコメントのGoEmotions(58,000件、28感情)など、多様なモダリティとスケールのデータセットが研究を支えている。
これらのOSSとデータセットの充実により、エモーショナル・キャプチャはもはや大企業の専売特許ではない。個人開発者やスタートアップが、DeepFace(画像)、SpeechBrain(音声)、Emotion-LLaMA(マルチモーダル)を組み合わせて、独自の感情メタデータ生成パイプラインを構築できる時代が来ている。
応用領域——感情メタデータが変える産業
カスタマーサービス
コールセンターは感情AIの最大の商用市場だ。Cogitoのシステムはエージェントの通話をリアルタイム分析し、顧客のフラストレーションを検知すると「速度を落として説明してください」「トーンを和らげてください」といったガイダンスを表示する。これにより顧客満足度が最大20%改善する。Uniphoreは音声感情分析で通話者の感情を検知し、エスカレーション前に介入を可能にする。
ヘルスケア・メンタルヘルス
感情AIのヘルスケア応用は、最も社会的インパクトの大きい領域だ。Woebotはテキスト・音声から不安・悲しみ・ストレスを検知しCBT(認知行動療法)ベースのトークセラピーを提供する。National Center for Biomedical Computingが開発したEllieは、顔表情・声のトーン・発話パターンで精神状態を評価する。病院では、言語障害患者、高齢者、子供の感情モニタリングに活用されている。
Vocalis Healthの声のバイオマーカー技術は、声の微細な変化から心不全、睡眠時無呼吸、神経疾患を非侵襲的に診断する可能性を持つ。
自動車(ドライバーモニタリング)
Smart Eye/Affectivaは世界トップ20 OEMのうち12社と84の量産契約を結んでいる。BMW、Honda、Volvoは2026年モデルに感情モニタリングを標準搭載する。ドライバーの疲労・ストレス・注意散漫をリアルタイム検知してアラートを発信し、休憩を提案する。さらに、感情に基づく車内環境の自動調整——ストレスが高ければリラックスできる音楽に切り替え、温度を下げ、照明を暖色に変える——も実装される。
広告・マーケティング
Mars社とRealeyesの協業は、感情メタデータの商業的価値を最も明確に実証した事例だ。感情測定で広告の売上リフトを75%の精度で予測し、メディア支出の70%を高パフォーマンス広告に配分することで、年間数千万ドルの売上リフトを5年以上継続している。
ゲーム・エンターテインメント
プレイヤーの感情に基づいてゲームの難易度・ストーリー展開・BGMを動的に調整するアダプティブゲーミングが研究されている。ストリーミングプラットフォームでは、視聴者の感情状態に基づくコンテンツレコメンドが次のフロンティアだ。Netflixの視聴の80%がAIレコメンドに起因しているが、感情メタデータの導入はレコメンド精度をさらに向上させる可能性がある。
コンテンツ制作
Dubformerは、AI吹替における感情トランスファー——原語の感情表現を吹替言語にも忠実に転写する——に特化している。また、動画のフレームレベルで感情メタデータを生成し、シーンベースのレコメンデーションを実現する技術も開発されている。
倫理・規制——EU AI Actの衝撃と責任あるイノベーション
EU AI Act(2025年2月施行)
EU AI Actは、感情推定AIに対して最も厳格な規制を課している。第5条(1)(f)は、職場・教育機関でのAI感情推定システムの設置・使用を明確に禁止した。違反には最大3,500万ユーロまたはグローバル年間売上高の7%(いずれか高い方)の罰金が課される。
具体的に禁止されるのは、コールセンターのWebカメラ+音声認識による従業員感情追跡、教育機関での生徒の興味・注意力推定、採用プロセスでの感情認識だ。ただし、医療目的・安全目的(ドライバーの疲労検知、パイロットの注意力モニタリング等)は例外として許可されている。
バイアスと公平性
感情AIのバイアス問題は深刻だ。暗い肌色の人、男性、異なる文化的背景の人で誤認識率が高いことが複数の研究で報告されている。訓練データの多様性不足、表情の普遍性の誤った前提、神経学的条件や障害による感情表現の違いが、差別的な結果につながるリスクがある。ACM FAccT 2025の研究では、障害者やマイノリティジェンダーの人々が感情AIのデータ収集を否定的に捉えることが示された。
Hume AIの倫理的フレームワーク
Hume AIはThe Hume Initiativeを設立し、6つの倫理原則を定めた。Beneficence(善行)、Emotional Primacy(感情の優位性)、Scientific Legitimacy(科学的正当性)、Inclusivity(包括性)、Transparency(透明性)、Consent(同意)だ。特に「人間の感情を手段として扱うことをAIに許してはならない」という原則は、感情AIの商業利用に一線を画す。出力を「複雑な表現行動の測定」として扱い、「感情の直接推定」としない——この区別は、科学的にも倫理的にも重要だ。
日本の動向——五感×脳データの基盤構築が始動
日本では、政府主導で感情AI基盤の構築が始まっている。
総務省は2026年度から約5年間、「感情を読む次世代AI」の開発を支援する。NICT(情報通信研究機構)と大阪大学の共同研究に予算を配分し、嗅覚・触覚・味覚など五感の脳活動データベースを構築する計画だ。2030年代の「脳情報通信」を重点分野に位置づけ、感情AIの基盤技術を国策として推進する。
NECは感情分析サイネージ「ターゲット広告サイネージ」を展開し、来店客の年齢・性別・表情を瞬時に判定して最適な商品動画をリアルタイム表示する。グローバル3,600億円市場でのトップシェアを目指す。
NTTのコミュニケーション科学基礎研究所は、表情・音声から心理状態変化をモデル化し、共感映像刺激データセット(EMPAC Dataset)を公開した。怒り・嫌悪・恐れ・喜び・悲しみ・驚きの6カテゴリの感情誘発映像と評定データを、研究コミュニティに無償提供している。
PKSHA Technologyの「PKSHA Speech Insight」はコンタクトセンター向けAI音声認識・分析プラットフォームで、通話中の感情分析によるクレーム早期発見を実現する。
市場規模と将来展望

市場予測
感情AI市場は、複数の調査機関が一致して高成長を予測している。2025年の市場規模は34〜47億ドル(約5,100億〜7,050億円)。2030年には95〜156億ドル(約1兆4,250億〜2兆3,400億円)に拡大し、2035年には385億ドル(約5兆7,750億円)に達する見通しだ。CAGRは15〜27%で、AI分野全体の中でも最も高い成長率の一つだ。
マルチモーダル・アフェクティブ・コンピューティング市場に限定すると、2025年の70億ドルから2030年に144億ドルに倍増する。北米が2025年最大市場だが、アジア太平洋が最速成長地域だ。
今後の見通し
2026〜2027年: 自動車のドライバーモニタリングが主要OEMで標準搭載化。EU AI Actの全面適用(2026年8月)により、職場・教育での感情AIは禁止される一方、医療・安全分野では合法的な展開が加速する。GoogleがHume AIの技術でGeminiの感情対話能力を大幅に強化し、感情AIがファウンデーションモデルの標準機能になる。
2028〜2030年: マルチモーダル融合の精度が90%以上に到達し、リアルタイム感情メタデータがコンテンツ配信の標準に。ストリーミングプラットフォーム、広告、ゲームで感情ベースのパーソナライゼーションが普及する。声のバイオマーカーによる非侵襲的健康診断がFDA承認を取得し始める。
2030年以降: 感情メタデータは動画・音声コンテンツの標準的な付随データとなり、字幕やタイムコードと同列に扱われる。人間の感情を理解するAIは、理解しないAIに対して圧倒的な競争優位を持つ。McKinseyの推計によるマルチモーダルAIの経済インパクト(年間数兆ドル)の中で、感情AIは主要な構成要素となる。
VentureBeatは、Hume AIへの5,000万ドルの投資を報じた記事で次のように述べた。
「AIの次の大きな飛躍は、感情の理解だ。」
この見方は、Google DeepMindのHume AIチーム引き抜き、Mars社の5年間の実証データ、BMW/Honda/Volvoの2026年モデル搭載決定、そして総務省の5年間支援によって、着実に裏付けられつつある。
業界への影響
第一に、エモーショナル・キャプチャは、AIと人間のインタラクションを根本的に変える可能性を持つ。感情を理解しないAIは「ツール」に留まるが、感情を理解するAIは「コンパニオン」になり得る。Hume AIのEVIが示したように、感情的知性を持つ音声対話は、従来のチャットボットとは質的に異なるユーザー体験を生む。
第二に、広告・マーケティング業界への影響は既に実証されている。Mars社とRealeyesの協業は、感情メタデータが広告の売上リフトを75%の精度で予測できることを示した。これはA/Bテストやクリック率に依存する従来のデジタルマーケティング指標を補完する、新しい効果測定の次元だ。
第三に、自動車産業では、ドライバーモニタリングが安全性と快適性の両面で標準機能となる。Smart Eye/Affectivaの84の量産契約と主要OEM12社との提携は、この技術が実験段階を超えて量産段階に入ったことを意味する。
第四に、ヘルスケア分野では、声のバイオマーカーによる非侵襲的診断が、メンタルヘルスの早期発見とケアに革命をもたらす可能性がある。Vocalis Healthが示すように、声の微細な変化から心疾患や神経疾患を検出する技術は、スマートフォン一台で健康スクリーニングを行える未来を示唆する。
第五に、日本では総務省の5年間支援と五感×脳データの基盤構築が、感情AIの国際競争力を左右する。NEC、NTT、PKSHA Technologyの商用展開は、日本市場での実装を加速させるだろう。
第六に、EU AI Actの規制は、イノベーションを阻害するのではなく、方向付ける効果を持つ。職場・教育での禁止は、感情AIを監視ツールではなく、医療・安全・エンターテインメントの価値創造ツールとして発展させる圧力を生む。Hume AIの倫理的フレームワークは、この方向性のモデルケースだ。
