Mengubah Emosi dari Video dan Audio Menjadi Metadata, Apa Itu Emotional Capture?

Emosi manusia selama ini merupakan data yang paling sulit dipahami oleh komputer. Namun, teknologi yang mendeteksi emosi secara real-time dari video dan audio lalu menghasilkannya sebagai metadata terstruktur——yang disebut Emotional Capture——kini sedang memasuki tahap implementasi praktis dengan sangat cepat. Sekitar 30 tahun setelah Rosalind Picard dari MIT Media Lab menerbitkan *Affective Computing* pada tahun 1997 dan meletakkan fondasi bidang ini, pasar Emotion AI diperkirakan mencapai 3,4–4,7 miliar dolar (sekitar 510–705 miliar yen) pada tahun 2025, dan diprediksi akan tumbuh pesat hingga 9,5–15,6 miliar dolar (sekitar 1,425–2,34 triliun yen) pada tahun 2030 (CAGR 15–27%). Hume AI telah mengembangkan Expressive Voice Interface (EVI) yang memetakan ruang emosi dalam 53 dimensi, mewujudkan dialog emosional real-time dengan respons di bawah 300 milidetik. Pada Januari 2026, Google merekrut CEO Hume AI Alan Cowen beserta tim insinyurnya untuk memperkuat fitur suara Gemini——sebuah peristiwa simbolis yang menunjukkan bahwa raksasa teknologi pun mengakui nilai strategis Emotion AI. Smart Eye/Affectiva (perusahaan spin-out MIT Media Lab) memiliki data wajah lebih dari 10 juta orang di 87 negara, dan pemantauan emosi pengemudi akan dipasang sebagai fitur standar pada model tahun 2026 dari BMW, Honda, dan Volvo. Realeyes, melalui kolaborasi dengan Mars, berhasil mewujudkan prediksi peningkatan penjualan berbasis pengukuran emosi dengan akurasi 75%, dan telah terus meningkatkan efektivitas iklan senilai puluhan juta dolar per tahun selama lebih dari 5 tahun. Di Jepang, Kementerian Dalam Negeri dan Komunikasi akan mendukung pengembangan "AI generasi berikutnya yang mampu membaca emosi" selama sekitar 5 tahun mulai tahun fiskal 2026, dengan penelitian bersama antara NICT dan Universitas Osaka yang memulai pembangunan basis data aktivitas otak untuk kelima indera. NEC menggelar papan iklan digital dengan analisis emosi yang menilai ekspresi wajah pengunjung toko secara real-time, sementara NTT telah mempublikasikan dataset stimulasi video empati (EMPAC Dataset). Di sisi lain, EU AI Act (berlaku Februari 2025) secara tegas melarang penggunaan AI pendeteksi emosi di tempat kerja dan lembaga pendidikan, dengan denda hingga 35 juta euro bagi pelanggar. Meskipun konversi emosi menjadi metadata telah terbukti bernilai di berbagai bidang seperti periklanan, layanan kesehatan, otomotif, dan hiburan, teknologi ini juga mengandung tantangan terkait privasi dan bias. Artikel ini secara komprehensif mengkaji konsep dan sejarah Emotional Capture, pendekatan teknisnya, layanan dan produk utama, bidang aplikasi, perdebatan ilmiah, etika dan regulasi, serta prospek masa depannya.

Emotional Capture adalah — Teknologi yang Mengubah Emosi Menjadi Data

Emotional Capture adalah istilah umum untuk teknologi yang mendeteksi kondisi emosional manusia secara real-time dari video, audio, sinyal biologis, dan sebagainya, lalu menghasilkannya sebagai metadata terstruktur. Seperti halnya motion capture yang mengubah gerakan tubuh menjadi data, emotional capture mengubah gerakan emosi menjadi data.

Fondasi dari teknologi ini adalah Affective Computing (Komputasi Afektif). Profesor Rosalind Picard dari MIT Media Lab menerbitkan makalah dengan nama yang sama pada tahun 1995, kemudian menerbitkan buku *Affective Computing* dari MIT Press pada tahun 1997 untuk membangun bidang ini. Argumen Picard sangat jelas.

"Jika kita ingin komputer benar-benar cerdas dan berinteraksi secara alami dengan manusia, kita harus memberinya kemampuan untuk mengenali, memahami, bahkan memiliki dan mengekspresikan emosi."

Penelitian ilmu saraf telah berulang kali membuktikan bahwa emosi memainkan peran esensial dalam pengambilan keputusan, persepsi, dan pembelajaran. AI yang tidak memahami emosi tidak dapat menjadi AI yang benar-benar memahami manusia.

Output dari emotional capture berada pada dimensi yang berbeda dari analisis sentimen sederhana berupa "positif/negatif/netral" yang selama ini dikenal. Hume AI memetakan ruang emosi linguistik 53 dimensi, ruang ekspresi wajah 48 dimensi, dan ruang prosodi suara 48 dimensi, menghasilkan metadata emosi yang kontinu dan multidimensi yang tidak terbatas pada 6 emosi dasar seperti "kegembiraan" dan "kemarahan".

Sejarah Penelitian——Dari 6 Emosi Dasar Ekman menuju Semantic Space Theory

Landasan ilmiah dari *Emotional Capture* dibangun di atas tiga arus teoritis utama.

Teori Emosi Dasar Paul Ekman (1960-an~). Psikolog Paul Ekman pada tahun 1968 menguji universalitas ekspresi wajah pada suku terisolasi di Papua Nugini, dan berargumen bahwa 6 emosi dasar—kemarahan, keterkejutan, jijik, kegembiraan, ketakutan, dan kesedihan—bersifat universal melampaui batas budaya. FACS (Facial Action Coding System) yang dikembangkan Ekman menguraikan gerakan otot wajah ke dalam 28 Action Unit (AU), dan merupakan sistem yang memperkirakan emosi dari setiap kombinasinya. Sebagian besar AI emosi berbasis pengenalan wajah saat ini sangat dipengaruhi oleh FACS.

Teori Emosi Konstruktivis Lisa Feldman Barrett (2006~). Psikolog Northeastern University, Lisa Feldman Barrett, secara langsung menentang universalitas Ekman. Menurut Theory of Constructed Emotion (Teori Emosi yang Dikonstruksi, TCE) milik Barrett, emosi bukanlah respons reflektif terhadap dunia, melainkan sesuatu yang secara prediktif dikonstruksi oleh otak di tempat kejadian. Sensasi fisik yang sama dapat ditafsirkan oleh seseorang sebagai "kemarahan" dan oleh orang lain sebagai "sakit perut". Granularitas emosi sangat bervariasi antar individu, dan kategori universal adalah ilusi——Barrett bahkan menyatakan bahwa "berdasarkan bukti yang sangat kuat, pandangan klasik telah dikalahkan."

Teori Ruang Semantik Alan Cowen (2017~). Alan Cowen, pendiri Hume AI, mengusulkan posisi ketiga yang tidak berpihak pada 6 kategori maupun konstruktivisme. Semantic Space Theory (SST, Teori Ruang Semantik) adalah pendekatan berbasis data yang memetakan seluruh ruang emosi. Dengan melakukan eksperimen berskala besar menggunakan stimuli suara, ekspresi wajah, dan bahasa yang sangat banyak beserta label emosi yang beragam, ia menunjukkan bahwa emosi tidak terdistribusi dalam kategori diskrit maupun dimensi sederhana, melainkan dalam ruang semantik kontinu berdimensi tinggi. Inilah dasar teoritis dari model emosi 53 dimensi milik Hume AI.

Tiga pertentangan teoritis ini——universalisme (Ekman), konstruktivisme (Barrett), dan semantisisme ruang (Cowen)——belum terselesaikan. Namun, secara teknis, pendekatan berbasis SST menghasilkan metadata emosi dengan akurasi tertinggi, dan dalam aplikasi industri, pendekatan ini sedang menjadi standar de facto.

Pendekatan Teknis——4 Modalitas untuk Menangkap Emosi

Emotional Capture mengekstrak dan mengintegrasikan informasi emosi dari berbagai modalitas (saluran input).

Pengenalan Ekspresi Wajah (Visual Modality)

Gerakan wajah yang ditangkap oleh kamera diuraikan menjadi 28 Action Unit FACS untuk dianalisis secara real-time. Gerakan otot halus seperti mengangkat alis (AU1+AU2), kerutan hidung (AU9), lengkungan bibir (AU12), dan pembukaan rahang (AU26) dideteksi, dan emosi diestimasi dari kombinasinya.

Deteksi micro-expression (ekspresi mikro) adalah garis terdepan Emotional Capture. Gerakan wajah halus dalam sepersekian detik menjadi petunjuk "emosi sejati" yang muncul meskipun seseorang secara sadar berusaha menekannya. AI dapat mendeteksi ekspresi mikro dengan kecepatan yang tidak dapat ditangkap oleh mata manusia.

Affectiva (kini Smart Eye) memiliki dataset emosi terbesar di dunia yang dilatih dengan data wajah dari 87 negara dan lebih dari 10 juta wajah, serta mendeteksi 28 Action Unit secara real-time.

Pengenalan Emosi Suara (Audio Modality)

Emosi diestimasi dari prosodi suara——pitch (tinggi nada), ritme, intensitas, dan durasi. Variasi pitch adalah fitur paling menonjol dari prosodi emosional; pitch tinggi mengindikasikan kegembiraan, kesenangan, dan kejutan, sementara pitch rendah mengindikasikan kesedihan dan ketenangan. Perubahan kecepatan bicara, penyisipan jeda, dan fluktuasi volume suara juga merupakan sinyal penting.

Sistem Cogito menganalisis lebih dari 200 sinyal akustik dan vokal secara real-time untuk memberikan panduan emosional kepada agen pusat panggilan. EVI dari Hume AI menganalisis prosodi dalam ruang emosi suara 48 dimensi.

Fusi Multimodal (Multimodal Fusion)

Ini adalah pendekatan yang mengintegrasikan ekspresi wajah, pola suara, data teks, dan bahkan sinyal fisiologis ke dalam model terpadu. Pendekatan ini mencapai akurasi 15–20% lebih tinggi dibandingkan modalitas tunggal, dan lebih dari 40% penelitian akademis sejak 2022 mengadopsi konfigurasi trimodal atau arsitektur fusi lintas-modal berbasis Transformer.

Makalah yang diterbitkan di Nature pada 2025, "MemoCMT", mengusulkan fusi fitur berbasis cross-modal Transformer; "EA-FUSION" mewujudkan integrasi data EEG dan ekspresi wajah; dan "HyFusER" merealisasikan fusi hibrida dengan dual cross-modal attention.

Sinyal Biologis Wearable (Physiological Modality)

Emosi juga dapat diestimasi dari sinyal fisiologis seperti Electrodermal Activity (EDA), Heart Rate Variability (HRV), Blood Volume Pulse (BVP), suhu kulit, dan Electroencephalogram (EEG). Penelitian sedang dilakukan mengenai klasifikasi emosi menggunakan data akselerometer dan giroskop smartwatch serta headband EEG, dengan arsitektur ensemble LSTM-GRU.

Layanan dan Produk Utama——Perusahaan-perusahaan yang Memimpin Pasar

Hume AI——Memetakan Ruang Emosi 53 Dimensi

Didirikan pada tahun 2021 oleh Alan Cowen (PhD Psikologi), Hume AI adalah perusahaan paling menonjol di bidang AI emosi. Perusahaan ini berhasil mengumpulkan $50 juta dalam Seri B (dipimpin oleh EQT Ventures, dengan partisipasi Union Square Ventures, Comcast Ventures, dan LG Technology Ventures), dengan total pendanaan kumulatif sebesar $74 juta hingga $80 juta.

Produk unggulannya, Empathic Voice Interface (EVI), adalah AI percakapan suara yang memiliki kecerdasan emosional. EVI 3 (Mei 2025) mencapai lebih dari 100.000 suara kustom, respons di bawah 300ms, dan latensi praktis 1,2 detik, mengungguli GPT-4o dan Gemini Live API. EVI4-mini (Januari 2026) mendukung 11 bahasa termasuk bahasa Jepang.

Expression Measurement API menerima input audio/video dan menghasilkan metadata emosi dalam 53 dimensi (bahasa), 48 dimensi (ekspresi wajah), dan 48 dimensi (prosodi suara). Harganya $0,08 per menit untuk audio/video dan $0,00024 per kata untuk teks, menjadikannya terjangkau untuk penggunaan komersial.

Pada Januari 2026, Google DeepMind merekrut CEO Hume AI Alan Cowen beserta tim insinyurnya untuk memperkuat fitur suara Gemini. Hume AI menandatangani perjanjian lisensi dan melanjutkan operasinya sebagai perusahaan independen dengan Andrew Ettinger sebagai CEO baru. Langkah ini merupakan peristiwa simbolis yang menunjukkan pengakuan Google terhadap nilai strategis AI emosi.

Kemitraan dengan Anthropic pun cukup dalam. Model Claude menempati 36% konfigurasi EVI, dengan rekam jejak lebih dari 1 juta percakapan dan hampir 2 juta menit interaksi.

Smart Eye/Affectiva——Standar AI Emosi di Industri Otomotif

Affectiva, yang lahir sebagai spin-off dari MIT Media Lab pada tahun 2009 dan didirikan bersama oleh Profesor Rosalind Picard, diakuisisi oleh Smart Eye asal Swedia pada tahun 2021 seharga $73,5 juta.

Perusahaan ini memiliki dataset emosi terbesar di dunia dengan data wajah dari lebih dari 10 juta orang di 87 negara, telah mengamankan 84 kontrak produksi massal, dan bermitra dengan 12 dari 20 OEM teratas dunia. Pemantauan emosi pengemudi dijadwalkan akan menjadi fitur standar pada model BMW, Honda, dan Volvo tahun 2026. Sistem ini mendeteksi kelelahan, stres, dan gangguan perhatian untuk memberikan peringatan, sekaligus secara otomatis menyesuaikan lingkungan kabin (suhu, musik, pencahayaan) berdasarkan emosi.

Realeyes——Memprediksi Efektivitas Iklan dengan Emosi

Realeyes, pemimpin dalam analisis emosi berbasis video untuk periklanan, memproses lebih dari 8 juta tampilan video per bulan. Kolaborasinya dengan Mars layak mendapat perhatian khusus. Selama dua tahun, mereka membangun database dari 22.000 orang, 149 iklan, 35 merek, dan 6 pasar, membuktikan bahwa teknologi pengukuran emosi dapat memprediksi peningkatan penjualan iklan dengan akurasi 75%. Berdasarkan hasil ini, Mars mengalokasikan 70% pengeluaran media di seluruh merek Tier 1-nya ke iklan berkinerja tinggi, mempertahankan peningkatan penjualan senilai puluhan juta dolar per tahun selama lebih dari 5 tahun.

Coca-Cola, Unilever, dan Hershey's juga termasuk dalam daftar pelanggannya.

Entropik Technologies——Wawasan Konsumen Multimodal

Didirikan di Bangalore, India pada tahun 2016, Entropik mengumpulkan $25 juta dalam Seri B yang dipimpin oleh Bessemer Venture Partners dan SIG Venture Capital. Perusahaan ini menawarkan platform multimodal "Affect Lab" yang mengintegrasikan pemetaan gelombang otak, pengkodean wajah, dan pelacakan mata, dan digunakan oleh lebih dari 150 merek global.

Perusahaan Lain yang Patut Diperhatikan

Cogito adalah AI emosi untuk pusat panggilan yang menganalisis lebih dari 200 sinyal akustik dan suara secara real-time, meningkatkan kepuasan pelanggan hingga 20%. Uniphore mengakuisisi Emotion Research Lab asal Spanyol dan mengintegrasikan analisis emosi suara ke dalam pusat kontak. Vocalis Health (sebelumnya Beyond Verbal) adalah perusahaan analisis emosi melalui cetakan suara asal Israel yang berfokus pada diagnosis penyakit jantung, gangguan tidur, dan gangguan neurologis menggunakan biomarker suara. MorphCast menyediakan SDK AI emosi serverless yang berjalan langsung di browser. Pendatang baru Dubformer mengkhususkan diri dalam dubbing transfer emosi AI, dan berhasil mengumpulkan $3,6 juta dalam pendanaan awal yang dipimpin Almaz Capital pada awal tahun 2025.

Demokratisasi Pengenalan Emosi yang Berkembang melalui Open Source

Teknologi emotional capture tidak hanya berkembang pesat melalui layanan komersial, tetapi juga melalui demokratisasi yang didorong oleh berbagai pustaka sumber terbuka (open-source). Lingkungan yang memungkinkan peneliti dan startup membangun sistem pengenalan emosi dari nol pun semakin matang.

OSS untuk Pengenalan Ekspresi Wajah

DeepFace (22.469 bintang di GitHub, lisensi MIT) adalah pustaka Python untuk pengenalan wajah dan analisis ekspresi yang paling banyak digunakan. Cukup dengan satu baris pip install deepface, pustaka ini dapat diinstal dan membungkus beberapa model pengenalan wajah seperti VGG-Face, FaceNet, dan ArcFace, lalu mengklasifikasikan emosi ke dalam 7 kategori: marah, jijik, takut, senang, sedih, terkejut, dan netral. Mendukung analisis video secara real-time.

OpenFace 2.0 (7.610 bintang, CMU MultiComp Lab) adalah standar akademik yang mendeteksi 18 Action Unit berbasis FACS secara real-time. Mengintegrasikan deteksi landmark wajah, estimasi pose kepala, dan estimasi tatapan mata, menjadikannya salah satu alat yang paling banyak dikutip dalam penelitian pengenalan emosi. Pada tahun 2025, OpenFace 3.0 berbasis Python pun dirilis, mengintegrasikan deteksi wajah dengan RetinaFace dan deteksi landmark dengan STAR, sehingga memungkinkan analisis multitask untuk AU, emosi, dan tatapan mata.

EmotiEffLib (sebelumnya HSEmotion, lisensi Apache-2.0) adalah pustaka ringan yang memenangkan posisi pertama dalam kompetisi ABAW (Affective Behavior Analysis in-the-Wild). Mendukung backend PyTorch dan ONNX, serta menjalankan pengenalan emosi dan keterlibatan dari foto maupun video secara real-time.

Py-Feat (lisensi MIT, diterbitkan di jurnal Affective Science) adalah toolbox komprehensif untuk deteksi, pra-pemrosesan, analisis, dan visualisasi data ekspresi wajah. Mendeteksi 7 emosi dan Action Unit dari gambar maupun video, serta memiliki alat analisis statistik bawaan seperti uji-t dan analisis regresi.

MediaPipe dari Google (34.482 bintang, Apache-2.0) bukan alat yang khusus untuk pengenalan emosi, namun secara real-time menghasilkan 468 landmark wajah 3D dan 52 skor blendshape, sehingga banyak digunakan sebagai fondasi untuk membangun pengklasifikasi emosi. Dapat berjalan di perangkat mobile dan edge.

OSS untuk Pengenalan Emosi Suara

SpeechBrain (11.410 bintang, Apache-2.0) adalah toolkit suara komprehensif berbasis PyTorch. Menyediakan model pengenalan emosi yang di-fine-tune dengan wav2vec2 pada dataset IEMOCAP, dan memungkinkan integrasi mulus dengan Hugging Face. Selain pengenalan suara, pengenalan pembicara, dan peningkatan suara, juga mencakup resep untuk pengenalan emosi.

emotion2vec (1.089 bintang, diterbitkan di ACL 2024) adalah model representasi emosi suara serbaguna pertama berbasis pra-pelatihan self-supervised. Menyediakan model emotion2vec+ (seed/base/large) untuk klasifikasi emosi 9 kelas, dan mencapai akurasi tertinggi dalam berbagai bahasa seperti Mandarin, Prancis, Jerman, dan Italia. Jauh melampaui model open-source lainnya di Hugging Face.

SenseVoice dari Alibaba (7.907 bintang) adalah model fondasi suara yang mengintegrasikan pengenalan suara, identifikasi bahasa, pengenalan emosi, dan deteksi peristiwa suara. Mendukung bahasa Mandarin, Kanton, Inggris, Jepang, dan Korea, serta menunjukkan performa yang melampaui model terbaik yang ada tanpa fine-tuning pada data target.

openSMILE (794 bintang, dikembangkan oleh TU Munich/audEERING) memiliki posisi sebagai standar industri dalam ekstraksi fitur audio untuk pengenalan emosi. Mengekstrak MFCC, fitur prosodi, dan fitur spektral, serta menyediakan set fitur standar seperti eGeMAPS dan ComParE. Berjalan di Linux, Windows, macOS, Android, iOS, dan Raspberry Pi.

Whisper dari OpenAI (97.053 bintang, lisensi MIT) adalah model pengenalan suara serbaguna, namun model turunannya yang telah di-fine-tune banyak dimanfaatkan untuk pengenalan emosi. Whisper-large-v3 yang di-fine-tune pada dataset RAVDESS/SAVEE/TESS mencapai akurasi sekitar 92% untuk 7 emosi.

OSS untuk Pengenalan Emosi Multimodal

Emotion-LLaMA (550 bintang, lisensi BSD-3) adalah model pelopor untuk pengenalan dan penalaran emosi multimodal berbasis LLM. Memproses HuBERT (audio), VideoMAE (video), EVA/MAE (visual), dan teks dengan model terintegrasi berbasis LLaMA, tidak hanya mengenali emosi tetapi juga melakukan penalaran (mengapa emosi tersebut muncul).

EmoBox (314 bintang, diterbitkan di INTERSPEECH 2024) adalah toolkit benchmark pengenalan emosi suara multibahasa dan multi-korpus yang mencakup 32 dataset dan 14 bahasa. Melakukan benchmark terhadap 10 model suara pra-latih dan menyediakan benchmark SER (Speech Emotion Recognition) yang paling komprehensif.

Dataset Utama

Di balik OSS pengenalan emosi terdapat kekayaan dataset publik yang mendukung penelitian. FER2013 berbasis gambar (sekitar 35.887 gambar, 7 emosi), AffectNet berskala besar (sekitar 1 juta gambar, 8 emosi + valence/arousal), RAVDESS berupa audio+video (7.356 file, 8 emosi), IEMOCAP berupa audio+video+teks (sekitar 12 jam, hingga 9 emosi), MELD yang berasal dari serial TV *Friends* (lebih dari 13.000 ucapan, 7 emosi + 3 polaritas emosi), serta GoEmotions dari komentar Reddit (58.000 entri, 28 emosi) — semua dataset dengan modalitas dan skala yang beragam ini menopang penelitian di bidang ini.

Berkat semakin kayanya OSS dan dataset ini, emotional capture bukan lagi monopoli perusahaan besar. Era di mana pengembang individu dan startup dapat membangun pipeline generasi metadata emosi mereka sendiri dengan mengombinasikan DeepFace (gambar), SpeechBrain (audio), dan Emotion-LLaMA (multimodal) kini telah tiba.

Bidang Aplikasi——Industri yang Diubah oleh Metadata Emosi

Layanan Pelanggan

Call center adalah pasar komersial terbesar untuk AI emosi. Sistem Cogito menganalisis panggilan agen secara real-time, dan ketika mendeteksi frustrasi pelanggan, sistem ini menampilkan panduan seperti "perlambat dan jelaskan" atau "lembutkan nada bicara Anda." Hal ini meningkatkan kepuasan pelanggan hingga 20%. Uniphore mendeteksi emosi penelepon melalui analisis emosi suara, memungkinkan intervensi sebelum eskalasi terjadi.

Kesehatan & Kesehatan Mental

Penerapan AI emosi di bidang kesehatan adalah area dengan dampak sosial terbesar. Woebot mendeteksi kecemasan, kesedihan, dan stres dari teks dan suara, lalu memberikan terapi bicara berbasis CBT (Cognitive Behavioral Therapy). Ellie, yang dikembangkan oleh National Center for Biomedical Computing, mengevaluasi kondisi mental melalui ekspresi wajah, nada suara, dan pola bicara. Di rumah sakit, teknologi ini dimanfaatkan untuk pemantauan emosi pasien dengan gangguan bicara, lansia, dan anak-anak.

Teknologi biomarker suara dari Vocalis Health memiliki potensi untuk mendiagnosis gagal jantung, sleep apnea, dan penyakit neurologis secara non-invasif melalui perubahan halus pada suara.

Otomotif (Pemantauan Pengemudi)

Smart Eye/Affectiva telah menandatangani 84 kontrak produksi massal dengan 12 dari 20 OEM teratas dunia. BMW, Honda, dan Volvo akan menyertakan pemantauan emosi sebagai fitur standar pada model 2026. Kelelahan, stres, dan gangguan perhatian pengemudi dideteksi secara real-time untuk mengirimkan peringatan dan menyarankan istirahat. Selain itu, penyesuaian otomatis lingkungan kabin berdasarkan emosi pun akan diimplementasikan — jika stres tinggi, musik berganti ke musik yang menenangkan, suhu diturunkan, dan pencahayaan diubah ke warna hangat.

Periklanan & Pemasaran

Kolaborasi antara Mars dan Realeyes adalah contoh paling jelas yang mendemonstrasikan nilai komersial metadata emosi. Dengan mengukur emosi untuk memprediksi peningkatan penjualan iklan dengan akurasi 75%, dan mengalokasikan 70% pengeluaran media ke iklan berkinerja tinggi, mereka telah mempertahankan peningkatan penjualan senilai puluhan juta dolar per tahun selama lebih dari 5 tahun.

Game & Hiburan

Adaptive gaming — yang secara dinamis menyesuaikan tingkat kesulitan, alur cerita, dan musik latar berdasarkan emosi pemain — sedang diteliti. Di platform streaming, rekomendasi konten berdasarkan kondisi emosi penonton adalah frontier berikutnya. Meskipun 80% tontonan Netflix berasal dari rekomendasi AI, penerapan metadata emosi berpotensi meningkatkan akurasi rekomendasi lebih jauh.

Produksi Konten

Dubformer berspesialisasi dalam transfer emosi pada dubbing AI — yaitu mentransfer secara setia ekspresi emosi bahasa asli ke dalam bahasa dubbing. Teknologi untuk menghasilkan metadata emosi pada level frame video guna mewujudkan rekomendasi berbasis adegan juga sedang dikembangkan.

Etika & Regulasi — Dampak EU AI Act dan Inovasi yang Bertanggung Jawab

EU AI Act (Berlaku Februari 2025)

EU AI Act memberlakukan regulasi paling ketat terhadap AI pendeteksi emosi. Pasal 5(1)(f) secara eksplisit melarang pemasangan dan penggunaan sistem AI pendeteksi emosi di tempat kerja dan lembaga pendidikan. Pelanggaran dikenai denda hingga 35 juta euro atau 7% dari omzet tahunan global (mana yang lebih tinggi).

Yang secara spesifik dilarang antara lain: pelacakan emosi karyawan melalui webcam dan pengenalan suara di pusat panggilan, estimasi minat dan perhatian siswa di lembaga pendidikan, serta pengenalan emosi dalam proses rekrutmen. Namun, penggunaan untuk tujuan medis dan keselamatan (seperti deteksi kelelahan pengemudi, pemantauan konsentrasi pilot, dan sejenisnya) diizinkan sebagai pengecualian.

Bias dan Keadilan

Masalah bias pada AI emosi sangat serius. Beberapa penelitian melaporkan tingkat kesalahan pengenalan yang tinggi pada orang berkulit gelap, laki-laki, dan orang dengan latar belakang budaya yang berbeda. Kurangnya keberagaman dalam data pelatihan, asumsi keliru tentang universalitas ekspresi wajah, serta perbedaan ekspresi emosi akibat kondisi neurologis atau disabilitas berisiko menghasilkan diskriminasi. Penelitian ACM FAccT 2025 menunjukkan bahwa penyandang disabilitas dan kelompok gender minoritas memandang pengumpulan data AI emosi secara negatif.

Kerangka Etika Hume AI

Hume AI mendirikan The Hume Initiative dan menetapkan enam prinsip etika: Beneficence (kebaikan), Emotional Primacy (prioritas emosi), Scientific Legitimacy (legitimasi ilmiah), Inclusivity (inklusivitas), Transparency (transparansi), dan Consent (persetujuan). Khususnya, prinsip "AI tidak boleh dibiarkan memperlakukan emosi manusia sebagai alat semata" menjadi garis batas yang tegas dalam pemanfaatan komersial AI emosi. Memperlakukan keluaran sebagai "pengukuran perilaku ekspresif yang kompleks", bukan "estimasi emosi secara langsung" — perbedaan ini penting, baik secara ilmiah maupun etis.

Tren Jepang——Pembangunan Fondasi Data Lima Indera×Otak Dimulai

Di Jepang, pembangunan infrastruktur AI emosional yang dipimpin pemerintah telah dimulai.

Kementerian Dalam Negeri dan Komunikasi (MIC) mendukung pengembangan "AI generasi berikutnya yang dapat membaca emosi" selama sekitar 5 tahun mulai tahun anggaran 2026. Anggaran dialokasikan untuk penelitian bersama antara NICT (National Institute of Information and Communications Technology) dan Universitas Osaka, dengan rencana membangun basis data aktivitas otak dari kelima indra seperti penciuman, peraba, dan pengecap. Pemerintah menempatkan "komunikasi informasi otak" pada era 2030-an sebagai bidang prioritas, dan mendorong teknologi dasar AI emosional sebagai kebijakan nasional.

NEC mengembangkan papan iklan analisis emosi "Target Advertisement Signage" yang secara instan mendeteksi usia, jenis kelamin, dan ekspresi wajah pelanggan yang datang, lalu menampilkan video produk yang paling sesuai secara real-time. Perusahaan ini menargetkan pangsa pasar teratas di pasar global senilai 360 miliar yen.

Laboratorium Penelitian Dasar Ilmu Komunikasi NTT telah memodelkan perubahan kondisi psikologis dari ekspresi wajah dan suara, serta mempublikasikan dataset stimulus video empati (EMPAC Dataset). Dataset ini menyediakan secara gratis kepada komunitas riset berupa video pemicu emosi dan data penilaian dalam 6 kategori: kemarahan, rasa jijik, ketakutan, kegembiraan, kesedihan, dan keterkejutan.

"PKSHA Speech Insight" dari PKSHA Technology adalah platform pengenalan dan analisis suara berbasis AI untuk pusat kontak, yang memungkinkan deteksi dini keluhan melalui analisis emosi selama panggilan berlangsung.

Ukuran Pasar dan Prospek Masa Depan

Proyeksi Pasar

Pasar AI emosional diprediksi mengalami pertumbuhan tinggi secara konsisten oleh berbagai lembaga riset. Ukuran pasar pada tahun 2025 diperkirakan mencapai 3,4–4,7 miliar dolar (sekitar 510–705 miliar yen). Pada tahun 2030, pasar ini diproyeksikan berkembang menjadi 9,5–15,6 miliar dolar (sekitar 1,425–2,34 triliun yen), dan pada tahun 2035 diperkirakan mencapai 38,5 miliar dolar (sekitar 5,775 triliun yen). CAGR berkisar antara 15–27%, menjadikannya salah satu tingkat pertumbuhan tertinggi di seluruh sektor AI.

Khusus untuk pasar komputasi afektif multimodal, nilai pasar diproyeksikan berlipat ganda dari 7 miliar dolar pada tahun 2025 menjadi 14,4 miliar dolar pada tahun 2030. Amerika Utara merupakan pasar terbesar pada tahun 2025, namun Asia-Pasifik adalah kawasan dengan pertumbuhan tercepat.

Proyeksi ke Depan

2026–2027: Sistem pemantauan pengemudi pada kendaraan akan menjadi fitur standar di pabrikan OEM utama. Dengan berlakunya penuh EU AI Act (Agustus 2026), AI emosional di lingkungan kerja dan pendidikan akan dilarang, sementara penerapan di bidang kesehatan dan keselamatan justru semakin dipercepat secara legal. Google secara signifikan meningkatkan kemampuan dialog emosional Gemini menggunakan teknologi Hume AI, menjadikan AI emosional sebagai fitur standar dalam model fondasi.

2028–2030: Akurasi fusi multimodal mencapai lebih dari 90%, dan metadata emosi real-time menjadi standar dalam distribusi konten. Personalisasi berbasis emosi meluas di platform streaming, periklanan, dan game. Diagnosis kesehatan non-invasif menggunakan biomarker suara mulai mendapatkan persetujuan FDA.

Setelah 2030: Metadata emosi menjadi data pendamping standar untuk konten video dan audio, setara dengan subtitle dan timecode. AI yang mampu memahami emosi manusia akan memiliki keunggulan kompetitif yang luar biasa dibandingkan AI yang tidak mampu. Dalam dampak ekonomi AI multimodal yang diperkirakan McKinsey (senilai triliunan dolar per tahun), AI emosional akan menjadi komponen utamanya.

VentureBeat, dalam artikel yang melaporkan investasi senilai 50 juta dolar ke Hume AI, menyatakan:

"Lompatan besar berikutnya dalam AI adalah pemahaman emosi."

Pandangan ini semakin dikukuhkan oleh perekrutan tim Hume AI dari Google DeepMind, data hasil uji coba Mars selama 5 tahun, keputusan BMW/Honda/Volvo untuk memasang teknologi ini pada model tahun 2026, serta dukungan Kementerian Dalam Negeri Jepang selama 5 tahun.

Dampak pada Industri

Pertama, *emotional capture* memiliki potensi untuk mengubah interaksi antara AI dan manusia secara mendasar. AI yang tidak memahami emosi hanya akan tetap menjadi "alat", namun AI yang memahami emosi dapat menjadi "pendamping". Seperti yang ditunjukkan oleh EVI dari Hume AI, interaksi suara dengan kecerdasan emosional menghasilkan pengalaman pengguna yang secara kualitatif berbeda dari chatbot konvensional.

Kedua, dampak terhadap industri periklanan dan pemasaran telah terbukti secara nyata. Kolaborasi antara Mars dan Realeyes menunjukkan bahwa metadata emosi dapat memprediksi peningkatan penjualan iklan dengan akurasi 75%. Ini merupakan dimensi pengukuran efektivitas baru yang melengkapi metrik pemasaran digital konvensional yang bergantung pada uji A/B dan rasio klik.

Ketiga, di industri otomotif, pemantauan pengemudi akan menjadi fitur standar dari segi keselamatan maupun kenyamanan. Kontrak produksi massal Smart Eye/Affectiva sebanyak 84 dan kemitraan dengan 12 produsen OEM utama menandakan bahwa teknologi ini telah melampaui tahap eksperimental dan memasuki tahap produksi massal.

Keempat, di bidang layanan kesehatan, diagnosis non-invasif menggunakan biomarker suara berpotensi merevolusi deteksi dini dan perawatan kesehatan mental. Seperti yang ditunjukkan oleh Vocalis Health, teknologi yang mendeteksi penyakit jantung dan penyakit neurologis dari perubahan halus pada suara mengisyaratkan masa depan di mana skrining kesehatan dapat dilakukan hanya dengan satu smartphone.

Kelima, di Jepang, dukungan selama 5 tahun dari Kementerian Urusan Internal dan Komunikasi serta pembangunan fondasi data panca indera × data otak akan menentukan daya saing internasional AI emosional. Komersialisasi oleh NEC, NTT, dan PKSHA Technology akan mempercepat implementasi di pasar Jepang.

Keenam, regulasi EU AI Act tidak menghambat inovasi, melainkan memberi arah. Larangan di tempat kerja dan pendidikan menciptakan tekanan untuk mengembangkan AI emosional bukan sebagai alat pengawasan, melainkan sebagai alat penciptaan nilai dalam bidang medis, keselamatan, dan hiburan. Kerangka etika Hume AI merupakan model percontohan untuk arah ini.

Referensi: Rosalind Picard "Affective Computing" (MIT Press, 1997), Paul Ekman, Facial Action Coding System (FACS), Lisa Feldman Barrett "Theory of Constructed Emotion" (PMC, 2017), Alan Cowen, Semantic Space Theory (SST), Hume AI Series B $50M (EQT Ventures, Union Square Ventures, Comcast Ventures, LG Technology Ventures), Hume AI EVI 3 (2025/5), Hume AI EVI4-mini (2026/1, mendukung 11 bahasa), Google DeepMind merekrut CEO Hume AI Alan Cowen (TechCrunch, PYMNTS, 2026/1), Kemitraan Hume AI + Anthropic Claude, Akuisisi Affectiva oleh Smart Eye $73,5M (TechCrunch, 2021/5), Affectiva 84 kontrak produksi massal / kemitraan dengan 12 dari Top 20 OEM dunia, Realeyes + Mars prediksi peningkatan penjualan iklan akurasi 75%, Entropik Series B $25M (Bessemer Venture Partners, SIG), Cogito peningkatan kepuasan pelanggan 20%, Akuisisi Emotion Research Lab oleh Uniphore (2021/1), Vocalis Health (Beyond Verbal + Healthymize) $9M (aMoon), Akuisisi Emotient oleh Apple (Fortune, 2016/1), Amazon Halo dihentikan (GeekWire, 2023/4), MorphCast AI emosi native browser, Dubformer $3,6M seed (Almaz Capital, 2025), Nature "MemoCMT Cross-Modal Transformer" (2025), Wiley "Advancements in Emotion Classification", Nature "EmoWear Dataset", PMC "Comprehensive Review of Multimodal Emotion Recognition", EU AI Act Article 5(1)(f) larangan estimasi emosi di tempat kerja dan pendidikan (berlaku 2025/2), Illinois BIPA Undang-Undang Privasi Data Biometrik, ACM FAccT 2025 "Distinguishing Emotion AI", Hume Initiative 6 prinsip etika, Kementerian Urusan Internal dan Komunikasi "AI Generasi Berikutnya yang Membaca Emosi" dukungan pengembangan 5 tahun (Nikkei Shimbun, 2025), NICT + Universitas Osaka Database Aktivitas Otak Panca Indera, NEC Signage Analisis Emosi, NTT EMPAC Dataset, PKSHA Speech Insight, Research and Markets Emotion AI Market $4,71M (2025), Fortune Business Insights $3,4M (2025), Mordor Intelligence $4,52M/$9,47M (2025/2030), EIN Presswire $15,57M (2030), Roots Analysis $38,50M (2035), VentureBeat "Is AI's Next Big Leap Understanding Emotion?", Contrary Research Hume AI, GM Insights Emotion AI Market 2025-2034, GitHub: DeepFace (serengil/deepface, 22,4K bintang, MIT), GitHub: OpenFace 2.0 (TadasBaltrusaitis/OpenFace, 7,6K bintang), GitHub: OpenFace 3.0 (CMU-MultiComp-Lab/OpenFace-3.0), GitHub: EmotiEffLib (sb-ai-lab/EmotiEffLib, Apache-2.0, Juara 1 ABAW), GitHub: Py-Feat (cosanlab/py-feat, MIT, dipublikasikan di Affective Science), GitHub: MediaPipe (google-ai-edge/mediapipe, 34,5K bintang, Apache-2.0), GitHub: SpeechBrain (speechbrain/speechbrain, 11,4K bintang, Apache-2.0), GitHub: emotion2vec (ddlBoJack/emotion2vec, ACL 2024), GitHub: SenseVoice (FunAudioLLM/SenseVoice, 7,9K bintang, Alibaba), GitHub: openSMILE (audeering/opensmile, TU Munich/audEERING), GitHub: librosa (librosa/librosa, 8,3K bintang, ISC), GitHub: Whisper (openai/whisper, 97K bintang, MIT), GitHub: FunASR (modelscope/FunASR, 15,5K bintang, MIT), GitHub: Emotion-LLaMA (ZebangCheng/Emotion-LLaMA, BSD-3, multimodal), GitHub: EmoBox (emo-box/EmoBox, INTERSPEECH 2024, 32 dataset/14 bahasa), GitHub: conv-emotion (declare-lab/conv-emotion, MIT, pengenalan emosi percakapan), Hugging Face: SamLowe/roberta-base-go_emotions (28 emosi, GoEmotions), Hugging Face: speechbrain/emotion-recognition-wav2vec2-IEMOCAP, Dataset: FER2013, AffectNet, RAVDESS, IEMOCAP, MELD, GoEmotions