Menukar emosi daripada video dan audio kepada metadata, apakah itu Emotional Capture

Emosi manusia selama ini merupakan data yang paling sukar difahami oleh komputer. Namun, teknologi yang mengesan emosi secara masa nyata daripada video dan audio, lalu mengeluarkannya sebagai metadata berstruktur — yang dikenali sebagai *Emotional Capture* — kini sedang memasuki fasa penggunaan praktikal dengan pantas. Lebih kurang 30 tahun selepas Rosalind Picard dari MIT Media Lab menerbitkan *Affective Computing* pada tahun 1997 dan mempelopori bidang ini, pasaran AI Emosi (*Emotion AI*) dijangka mencapai 3.4 hingga 4.7 bilion dolar AS (kira-kira 510 hingga 705 bilion yen) pada tahun 2025, dan dijangka berkembang pesat kepada 9.5 hingga 15.6 bilion dolar AS (kira-kira 1.425 trilion hingga 2.34 trilion yen) menjelang tahun 2030 (CAGR 15~27%). Hume AI telah membangunkan *Expressive Voice Interface* (EVI) yang memetakan ruang emosi dalam 53 dimensi, membolehkan dialog emosi masa nyata dengan masa tindak balas di bawah 300ms. Pada Januari 2026, Google telah merekrut CEO Hume AI, Alan Cowen, bersama pasukan kejuruteraannya untuk memperkukuh keupayaan suara Gemini — satu peristiwa ikonik yang menandakan pengiktirafan nilai strategik AI Emosi oleh gergasi teknologi. Smart Eye/Affectiva (syarikat cawangan MIT Media Lab) memiliki data wajah lebih 10 juta orang dari 87 negara, dan pemantauan emosi pemandu akan disertakan secara piawai dalam model 2026 BMW, Honda, dan Volvo. Realeyes, melalui kerjasama dengan syarikat Mars, berjaya mencapai ketepatan 75% dalam meramalkan peningkatan jualan berdasarkan pengukuran emosi, dan telah meneruskan peningkatan keberkesanan pengiklanan bernilai puluhan juta dolar setiap tahun selama lebih 5 tahun. Di Jepun, Kementerian Dalam Negeri dan Komunikasi akan menyokong pembangunan "AI generasi seterusnya yang membaca emosi" selama kira-kira 5 tahun bermula tahun fiskal 2026, dengan NICT dan Universiti Osaka memulakan pembinaan pangkalan data aktiviti otak untuk kelima-lima deria secara bersama. NEC telah melancarkan papan tanda analisis emosi yang menilai ekspresi wajah pelanggan secara masa nyata, manakala NTT telah menerbitkan set data rangsangan video empati (*EMPAC Dataset*). Sebaliknya, EU AI Act (berkuat kuasa Februari 2025) secara jelas melarang penggunaan AI penganggaran emosi di tempat kerja dan institusi pendidikan, dengan denda sehingga 35 juta euro bagi pelanggar. Penukaran emosi kepada metadata mempunyai nilai yang telah terbukti dalam bidang pengiklanan, penjagaan kesihatan, automotif, dan hiburan, namun turut mengandungi cabaran privasi dan berat sebelah. Makalah ini akan mengkaji secara menyeluruh konsep dan sejarah *Emotional Capture*, pendekatan teknikal, perkhidmatan dan produk utama, bidang aplikasi, perdebatan saintifik, etika dan regulasi, serta prospek masa hadapan.

Emotional Capture — Teknologi yang Menukar Emosi kepada Data

Emotional Capture (Penangkapan Emosi) ialah istilah kolektif untuk teknologi yang mengesan keadaan emosi manusia secara masa nyata daripada video, audio, isyarat biometrik, dan lain-lain, kemudian mengeluarkannya sebagai metadata berstruktur. Seperti motion capture yang menukar pergerakan fizikal kepada data, Emotional Capture menukar pergerakan emosi kepada data.

Asasnya ialah Affective Computing (Pengkomputeran Afektif). Profesor Rosalind Picard dari MIT Media Lab menerbitkan kertas kerja dengan nama yang sama pada tahun 1995, kemudian menerbitkan buku *Affective Computing* oleh MIT Press pada tahun 1997, sekali gus menetapkan bidang ini. Hujah Picard adalah jelas:

"Jika kita ingin komputer memiliki kecerdasan sejati dan berinteraksi secara semula jadi dengan manusia, kita mesti memberinya keupayaan untuk mengenali dan memahami emosi, malah memiliki dan mengungkapkannya."

Penyelidikan neurosains telah berulang kali membuktikan bahawa emosi memainkan peranan penting dalam membuat keputusan, persepsi, dan pembelajaran. AI yang tidak memahami emosi tidak akan dapat memahami manusia dalam erti kata yang sebenar.

Output Emotional Capture berada pada dimensi yang berbeza daripada analisis sentimen mudah tradisional seperti "positif / negatif / neutral". Hume AI memetakan ruang emosi linguistik 53 dimensi, ruang ekspresi wajah 48 dimensi, dan ruang prosodi suara 48 dimensi, menghasilkan metadata emosi yang berterusan dan pelbagai dimensi yang tidak terhad kepada 6 emosi asas seperti "gembira" dan "marah".

Sejarah Penyelidikan——Dari 6 Emosi Asas Ekman kepada Teori Ruang Semantik

Asas saintifik Emotional Capture dibina di atas tiga aliran teori utama.

Teori Emosi Asas Paul Ekman (sejak tahun 1960-an). Ahli psikologi Paul Ekman pada tahun 1968 menguji kesejagatan ekspresi muka pada suku kaum terpencil di Papua New Guinea, dan menghujahkan bahawa 6 emosi asas iaitu marah, terkejut, jijik, gembira, takut, dan sedih adalah bersifat sejagat merentasi budaya. FACS (Facial Action Coding System) yang dibangunkan oleh Ekman mengurai pergerakan otot muka kepada 28 Unit Tindakan (AU), dan merupakan sistem yang menganggar emosi daripada setiap kombinasinya. Kebanyakan AI emosi berasaskan pengecaman muka hari ini dipengaruhi secara kuat oleh FACS.

Teori Emosi Konstruktivis Lisa Feldman Barrett (sejak 2006). Ahli psikologi dari Northeastern University, Lisa Feldman Barrett, secara terang-terangan mencabar kesejagatan Ekman. Menurut Theory of Constructed Emotion (Teori Emosi Terbina, TCE) Barrett, emosi bukanlah tindak balas refleks terhadap dunia, tetapi sesuatu yang dibina secara prediktif oleh otak pada masa itu. Sensasi fizikal yang sama ditafsirkan oleh seseorang sebagai "marah", manakala orang lain menafsirkannya sebagai "sakit perut". Kegradinan (granularity) emosi sangat berbeza antara individu, dan kategori sejagat adalah ilusi——Barrett bahkan menyatakan bahawa "berdasarkan bukti yang luar biasa, pandangan klasik telah kalah."

Teori Ruang Semantik Alan Cowen (sejak 2017). Alan Cowen, pengasas Hume AI, mengemukakan pendirian ketiga yang tidak menyebelahi mana-mana daripada 6 kategori mahupun konstruktivisme. Semantic Space Theory (SST, Teori Ruang Semantik) adalah pendekatan berasaskan data untuk memetakan keseluruhan ruang emosi. Dengan menjalankan eksperimen berskala besar menggunakan rangsangan suara, ekspresi muka, dan bahasa yang luas berserta pelbagai label emosi, beliau menunjukkan bahawa emosi tidak tertabur dalam kategori diskret mahupun dimensi mudah, tetapi dalam ruang semantik berdimensi tinggi yang berterusan. Inilah asas teori bagi model emosi 53 dimensi Hume AI.

Pertentangan tiga teori ini——sejagatan (Ekman), konstruktivisme (Barrett), dan semantik-ruangan (Cowen)——masih belum selesai. Namun, dari segi teknikal, pendekatan berasaskan SST menghasilkan metadata emosi yang paling tepat, dan dalam aplikasi industri, ia semakin menjadi piawaian de facto.

Pendekatan Teknikal——4 Modaliti untuk Menangkap Emosi

Tangkapan Emosi mengekstrak dan mengintegrasikan maklumat emosi daripada pelbagai modaliti (saluran input).

Pengecaman Ekspresi Wajah (Modaliti Visual)

Pergerakan wajah yang ditangkap oleh kamera diurai kepada 28 Unit Tindakan FACS untuk analisis masa nyata. Pergerakan otot halus seperti angkat kening (AU1+AU2), kedutan hidung (AU9), lengkungan bibir (AU12), dan bukaan rahang (AU26) dikesan, dan emosi dianggarkan daripada gabungan tersebut.

Pengesanan mikro-ekspresi (ekspresi mikro) merupakan garis hadapan Tangkapan Emosi. Pergerakan wajah halus yang hanya berlangsung sepersekian saat menjadi petanda "emosi sebenar" yang terjelma walaupun individu berkenaan cuba menyekatnya secara sedar. AI mampu mengesan mikro-ekspresi pada kelajuan yang tidak dapat ditangkap oleh mata manusia.

Affectiva (kini Smart Eye) memiliki set data emosi terbesar di dunia yang dilatih dengan data lebih 10 juta wajah dari 87 negara, dan mengesan 28 Unit Tindakan secara masa nyata.

Pengecaman Emosi Suara (Modaliti Audio)

Emosi dianggarkan daripada prosodi suara——pic (ketinggian nada), irama, intensiti, dan tempoh. Variasi pic merupakan ciri prosodi emosi yang paling ketara; pic tinggi menandakan kegembiraan, keseronokan, dan kejutan, manakala pic rendah menandakan kesedihan dan ketenangan. Perubahan kelajuan pertuturan, selitan jeda, dan variasi kelantangan suara juga merupakan isyarat penting.

Sistem syarikat Cogito menganalisis lebih 200 isyarat akustik dan vokal secara masa nyata bagi memberikan panduan emosional kepada ejen pusat panggilan. EVI daripada Hume AI menganalisis prosodi dalam ruang emosi suara 48 dimensi.

Gabungan Multimodal (Multimodal Fusion)

Ini merupakan pendekatan yang mengintegrasikan ekspresi wajah, corak suara, data teks, malah isyarat fisiologi ke dalam model bersatu. Pendekatan ini mencapai ketepatan 15–20% lebih tinggi berbanding modaliti tunggal, dan lebih 40% penyelidikan akademik sejak 2022 menggunakan konfigurasi trimodal atau seni bina gabungan lintas-modal berasaskan Transformer.

Makalah "MemoCMT" yang diterbitkan dalam Nature pada 2025 mencadangkan gabungan ciri berasaskan Transformer lintas-modal, "EA-FUSION" merealisasikan integrasi data EEG dan ekspresi wajah, manakala "HyFusER" mencapai gabungan hibrid melalui perhatian dwi-lintas-modal.

Isyarat Biologi Boleh Pakai (Modaliti Fisiologi)

Emosi juga boleh dianggarkan daripada isyarat fisiologi seperti aktiviti elektrodermal (EDA), variabiliti kadar jantung (HRV), denyutan isipadu darah (BVP), suhu kulit, dan gelombang otak (EEG). Pengelasan emosi menggunakan seni bina ensembel LSTM-GRU dengan memanfaatkan data pemecut dan giroskop jam tangan pintar serta bebat kepala EEG sedang dikaji dalam penyelidikan.

Perkhidmatan dan Produk Utama——Syarikat-syarikat Peneraju Pasaran

Hume AI — Memetakan Ruang Emosi 53 Dimensi

Diasaskan pada 2021 oleh Alan Cowen (PhD Psikologi), Hume AI merupakan syarikat paling menonjol dalam bidang AI emosi. Syarikat ini berjaya mengumpul $50 juta dalam pusingan Siri B (diketuai oleh EQT Ventures, dengan penyertaan Union Square Ventures, Comcast Ventures, dan LG Technology Ventures), dengan jumlah pengumpulan keseluruhan antara $74 juta hingga $80 juta.

Produk utamanya, Empathic Voice Interface (EVI), ialah AI perbualan suara yang memiliki kecerdasan emosi. EVI 3 (Mei 2025) mampu menyokong lebih daripada 100,000 suara tersuai, tindak balas di bawah 300ms, dan kependaman praktikal 1.2 saat, mengatasi prestasi GPT-4o dan Gemini Live API. EVI4-mini (Januari 2026) pula menyokong 11 bahasa termasuk bahasa Jepun.

Expression Measurement API menerima input audio/video dan menghasilkan metadata emosi dalam 53 dimensi (bahasa), 48 dimensi (ekspresi wajah), dan 48 dimensi (prosodi suara). Harganya ialah $0.08 per minit untuk audio/video dan $0.00024 per patah perkataan untuk teks — julat harga yang realistik untuk kegunaan komersial.

Pada Januari 2026, Google DeepMind merekrut CEO Hume AI Alan Cowen beserta pasukan kejuruteraan untuk diintegrasikan ke dalam peningkatan ciri suara Gemini. Hume AI telah menandatangani perjanjian lesen dan meneruskan operasi sebagai syarikat bebas dengan Andrew Ettinger sebagai CEO baharu. Peristiwa ini melambangkan pengiktirafan Google terhadap nilai strategik AI emosi.

Perkongsian dengan Anthropic turut mendalam. Model-model Claude menyumbang 36% daripada konfigurasi EVI, dengan rekod lebih daripada satu juta perbualan dan hampir dua juta minit interaksi.

Smart Eye/Affectiva — Standard AI Emosi dalam Industri Automotif

Affectiva, yang diasaskan bersama oleh Profesor Rosalind Picard dan dipisahkan dari MIT Media Lab pada 2009, telah diambil alih oleh Smart Eye dari Sweden pada 2021 dengan harga $73.5 juta.

Syarikat ini memiliki set data emosi terbesar di dunia dengan data wajah lebih daripada 10 juta orang dari 87 negara, dan telah memperoleh 84 kontrak pengeluaran besar-besaran. Syarikat ini bermitra dengan 12 daripada 20 OEM terkemuka di dunia. Model 2026 BMW, Honda, dan Volvo dijangka dilengkapi pemantauan emosi pemandu secara piawai. Sistem ini mengesan keletihan, tekanan, dan gangguan perhatian untuk menghantar amaran, serta melakukan pelarasan automatik persekitaran dalam kenderaan (suhu, muzik, pencahayaan) berdasarkan emosi.

Realeyes — Meramal Keberkesanan Iklan Melalui Emosi

Realeyes, pemimpin dalam analisis emosi berasaskan video untuk pengiklanan, memproses lebih daripada 8 juta paparan video sebulan. Kerjasama dengan syarikat Mars amat ketara. Dalam tempoh dua tahun, pangkalan data yang merangkumi 22,000 responden, 149 iklan, 35 jenama, dan 6 pasaran telah dibina, membuktikan bahawa teknologi pengukuran emosi mampu meramal lonjakan jualan iklan dengan ketepatan 75%. Berikutan hasil tersebut, syarikat Mars mengagihkan 70% perbelanjaan media kepada iklan berprestasi tinggi merentasi semua jenama Tier 1, dengan lonjakan jualan puluhan juta dolar setahun yang berterusan selama lebih daripada lima tahun.

Coca-Cola, Unilever, dan Hershey's turut tersenarai sebagai pelanggan.

Entropik Technologies — Cerapan Pengguna Berbilang Modal

Entropik, yang diasaskan di Bangalore, India pada 2016, telah mengumpul $25 juta dalam pusingan Siri B yang diketuai oleh Bessemer Venture Partners dan SIG Venture Capital. Syarikat ini menawarkan platform berbilang modal "Affect Lab" yang mengintegrasikan pemetaan gelombang otak, pengekodan wajah, dan penjejakan mata, dengan lebih daripada 150 jenama global menggunakannya.

Syarikat-Syarikat Lain yang Patut Diperhatikan

Cogito menyediakan AI emosi untuk pusat panggilan, menganalisis lebih daripada 200 isyarat akustik dan suara secara masa nyata untuk meningkatkan kepuasan pelanggan sehingga 20%. Uniphore mengambil alih Emotion Research Lab dari Sepanyol dan mengintegrasikan analisis emosi suara ke dalam pusat hubungan. Vocalis Health (dahulunya Beyond Verbal), sebuah syarikat analisis emosi cap jari suara dari Israel, menumpukan pada diagnosis penyakit jantung, gangguan tidur, dan penyakit neurologi melalui biopenanda suara. MorphCast menyediakan SDK AI emosi tanpa pelayan yang bersifat asli penyemak imbas. Syarikat baharu Dubformer mengkhusus dalam penyegerakan dubbing pindahan emosi AI, dan berjaya mengumpul $3.6 juta dalam pembiayaan benih yang diketuai oleh Almaz Capital pada awal 2025.

Demokratisasi Pengecaman Emosi yang Berkembang Melalui Sumber Terbuka

Teknologi penangkapan emosi kini semakin demokratik bukan sahaja melalui perkhidmatan komersial, malah juga melalui koleksi pustaka sumber terbuka yang berkembang pesat. Persekitaran di mana penyelidik dan syarikat pemula boleh membina sistem pengecaman emosi dari awal sudah semakin matang.

OSS Pengecaman Ekspresi Wajah

DeepFace (22,469 bintang GitHub, lesen MIT) adalah pustaka Python untuk pengecaman wajah dan analisis ekspresi yang paling meluas digunakan. Ia boleh dipasang dengan satu baris pip install deepface, membungkus pelbagai model pengecaman wajah seperti VGG-Face, FaceNet, dan ArcFace, serta mengklasifikasikan emosi dalam 7 kategori: marah, jijik, takut, gembira, sedih, terkejut, dan neutral. Ia turut menyokong analisis video masa nyata.

OpenFace 2.0 (7,610 bintang, CMU MultiComp Lab) adalah standard akademik yang mengesan 18 Unit Aksi berasaskan FACS secara masa nyata. Ia mengintegrasikan pengesanan penanda muka, anggaran postur kepala, dan anggaran pandangan mata, menjadikannya salah satu alat yang paling banyak dirujuk dalam penyelidikan pengecaman emosi. Pada tahun 2025, OpenFace 3.0 berasaskan Python turut dilancarkan, mengintegrasikan pengesanan wajah melalui RetinaFace dan pengesanan penanda melalui STAR, membolehkan analisis berbilang tugas merangkumi AU, emosi, dan pandangan mata.

EmotiEffLib (dahulunya HSEmotion, lesen Apache-2.0) adalah pustaka ringan yang memenangi tempat pertama dalam pertandingan ABAW (Affective Behavior Analysis in-the-Wild). Ia menyokong kedua-dua backend PyTorch dan ONNX, serta melaksanakan pengecaman emosi dan penglibatan daripada foto dan video secara masa nyata.

Py-Feat (lesen MIT, diterbitkan dalam jurnal Affective Science) adalah kotak alat komprehensif untuk pengesanan, prapemprosesan, analisis, dan visualisasi data ekspresi wajah. Ia mengesan 7 emosi dan Unit Aksi daripada imej dan video, serta mempunyai alat analisis statistik terbina dalam seperti ujian-t dan analisis regresi.

MediaPipe Google (34,482 bintang, Apache-2.0) bukan alat khusus untuk pengecaman emosi, namun ia mengeluarkan 468 penanda muka 3D dan 52 skor blendshape secara masa nyata, dan digunakan secara meluas sebagai asas pembinaan pengklasifikasi emosi. Ia juga berfungsi pada peranti mudah alih dan peranti tepi.

OSS Pengecaman Emosi Suara

SpeechBrain (11,410 bintang, Apache-2.0) adalah kit alat suara komprehensif berasaskan PyTorch. Ia menyediakan model pengecaman emosi yang ditala halus menggunakan wav2vec2 pada set data IEMOCAP, dengan integrasi lancar bersama Hugging Face. Selain pengecaman suara, pengecaman penutur, dan peningkatan suara, ia turut menyertakan resipi untuk pengecaman emosi.

emotion2vec (1,089 bintang, diterbitkan dalam ACL 2024) adalah model representasi emosi suara tujuan umum pertama melalui prapelajaran kendiri (self-supervised). Ia menyediakan model emotion2vec+ (seed/base/large) untuk klasifikasi emosi 9 kelas, dan mencapai ketepatan tertinggi dalam pelbagai bahasa termasuk Cina, Perancis, Jerman, dan Itali. Ia mengatasi dengan ketara model sumber terbuka lain di Hugging Face.

SenseVoice (7,907 bintang) dari Alibaba adalah model asas suara yang mengintegrasikan pengecaman suara, pengenalan bahasa, pengecaman emosi, dan pengesanan peristiwa suara. Ia menyokong bahasa Cina, Kantonis, Inggeris, Jepun, dan Korea, menunjukkan prestasi yang melampaui model terbaik sedia ada tanpa penalaan halus pada data sasaran.

openSMILE (794 bintang, dibangunkan oleh TU Munich/audEERING) memegang status standard industri dalam pengekstrakan ciri suara untuk pengecaman emosi. Ia mengekstrak MFCC, ciri prosodi, dan ciri spektral, serta menyediakan set ciri standard seperti eGeMAPS dan ComParE. Ia berfungsi pada Linux, Windows, macOS, Android, iOS, dan Raspberry Pi.

Whisper OpenAI (97,053 bintang, lesen MIT) adalah model pengecaman suara tujuan umum, namun model terbitan yang ditala halus telah dimanfaatkan untuk pengecaman emosi. Whisper-large-v3 yang ditala halus pada set data RAVDESS/SAVEE/TESS mencapai ketepatan sekitar 92% untuk 7 emosi.

OSS Pengecaman Emosi Multimodal

Emotion-LLaMA (550 bintang, lesen BSD-3) adalah model perintis untuk pengecaman dan penaakulan emosi multimodal berasaskan LLM. Ia memproses HuBERT (suara), VideoMAE (video), EVA/MAE (visual), dan teks menggunakan model bersepadu berasaskan LLaMA, bukan sahaja mengenal emosi malah turut melakukan penaakulan (mengapa emosi tersebut timbul).

EmoBox (314 bintang, diterbitkan dalam INTERSPEECH 2024) adalah kit alat penanda aras pengecaman emosi suara berbilang bahasa dan berbilang korpus yang merangkumi 32 set data dan 14 bahasa. Ia menanda aras 10 model suara prapelajaran dan menyediakan penanda aras SER (Speech Emotion Recognition) yang paling komprehensif.

Set Data Utama

Di sebalik OSS pengecaman emosi terdapat pengayaan set data awam. Pelbagai set data dengan modaliti dan skala yang beragam menyokong penyelidikan ini, termasuk FER2013 berasaskan imej (sekitar 35,887 imej, 7 emosi), AffectNet berskala besar (sekitar 1 juta imej, 8 emosi + valens/rangsangan), RAVDESS suara+video (7,356 fail, 8 emosi), IEMOCAP suara+video+teks (sekitar 12 jam, sehingga 9 emosi), MELD berasal daripada drama televisyen *Friends* (lebih 13,000 ucapan, 7 emosi + 3 polariti emosi), dan GoEmotions daripada komen Reddit (58,000 entri, 28 emosi).

Dengan pengayaan OSS dan set data ini, penangkapan emosi bukan lagi monopoli syarikat besar. Era di mana pembangun individu dan syarikat pemula boleh membina saluran paip penjanaan metadata emosi mereka sendiri dengan menggabungkan DeepFace (imej), SpeechBrain (suara), dan Emotion-LLaMA (multimodal) telah tiba.

Bidang Aplikasi——Industri yang Diubah oleh Metadata Emosi

Perkhidmatan Pelanggan

Pusat panggilan merupakan pasaran komersial terbesar untuk AI emosi. Sistem Cogito menganalisis panggilan ejen secara masa nyata, dan apabila mengesan kekecewaan pelanggan, ia memaparkan panduan seperti "Perlahan dan terangkan" atau "Lembutkan nada anda." Ini meningkatkan kepuasan pelanggan sehingga 20%. Uniphore mengesan emosi pemanggil melalui analisis emosi suara, membolehkan intervensi dilakukan sebelum eskalasi berlaku.

Penjagaan Kesihatan & Kesihatan Mental

Aplikasi AI emosi dalam penjagaan kesihatan merupakan bidang yang memberi impak sosial paling besar. Woebot mengesan kebimbangan, kesedihan, dan tekanan daripada teks dan suara, lalu menyediakan terapi perbualan berasaskan CBT (Terapi Kognitif-Tingkah Laku). Ellie, yang dibangunkan oleh National Center for Biomedical Computing, menilai keadaan mental melalui ekspresi wajah, nada suara, dan corak pertuturan. Di hospital, teknologi ini digunakan untuk pemantauan emosi pesakit yang mengalami gangguan pertuturan, warga emas, dan kanak-kanak.

Teknologi biopenanda suara Vocalis Health berpotensi untuk mendiagnosis kegagalan jantung, apnea tidur, dan penyakit neurologi secara bukan invasif melalui perubahan halus dalam suara.

Automotif (Pemantauan Pemandu)

Smart Eye/Affectiva telah memeterai 84 kontrak pengeluaran bersama 12 daripada 20 OEM teratas dunia. BMW, Honda, dan Volvo akan memasang pemantauan emosi sebagai kelengkapan standard pada model 2026. Sistem ini mengesan keletihan, tekanan, dan gangguan perhatian pemandu secara masa nyata untuk menghantar amaran dan mencadangkan rehat. Selain itu, penyesuaian automatik persekitaran dalam kenderaan berdasarkan emosi turut dilaksanakan — jika tekanan tinggi, muzik ditukar kepada yang lebih santai, suhu diturunkan, dan pencahayaan ditukar kepada warna hangat.

Pengiklanan & Pemasaran

Kerjasama antara syarikat Mars dan Realeyes merupakan contoh paling jelas yang membuktikan nilai komersial metadata emosi. Dengan menggunakan pengukuran emosi untuk meramalkan peningkatan jualan iklan pada ketepatan 75%, dan mengagihkan 70% perbelanjaan media kepada iklan berprestasi tinggi, mereka telah mencapai peningkatan jualan bernilai puluhan juta dolar setahun selama lebih daripada lima tahun berturut-turut.

Permainan & Hiburan

Permainan adaptif yang menyesuaikan tahap kesukaran, perkembangan cerita, dan muzik latar secara dinamik berdasarkan emosi pemain sedang dikaji. Pada platform penstriman, cadangan kandungan berdasarkan keadaan emosi penonton merupakan sempadan seterusnya. Walaupun 80% tontonan Netflix berpunca daripada cadangan AI, pengenalan metadata emosi berpotensi meningkatkan lagi ketepatan cadangan tersebut.

Penghasilan Kandungan

Dubformer pakar dalam pemindahan emosi dalam penyuaraan semula AI — iaitu memindahkan ekspresi emosi bahasa asal kepada bahasa suaraan semula secara setia. Selain itu, teknologi yang menjana metadata emosi pada peringkat bingkai video untuk merealisasikan cadangan berasaskan adegan turut sedang dibangunkan.

Etika & Regulasi——Impak EU AI Act dan Inovasi yang Bertanggungjawab

EU AI Act (Berkuat kuasa Februari 2025)

EU AI Act mengenakan peraturan yang paling ketat terhadap AI pengesanan emosi. Perkara 5(1)(f) secara jelas melarang pemasangan dan penggunaan sistem AI pengesanan emosi di tempat kerja dan institusi pendidikan. Pelanggaran boleh dikenakan denda sehingga 35 juta euro atau 7% daripada hasil jualan tahunan global (yang mana lebih tinggi).

Yang dilarang secara khusus ialah: penjejakan emosi pekerja melalui kamera web dan pengecaman suara di pusat panggilan, pengesanan minat dan tahap perhatian pelajar di institusi pendidikan, serta pengecaman emosi dalam proses pengambilan pekerja. Walau bagaimanapun, penggunaan bagi tujuan perubatan dan keselamatan (seperti pengesanan keletihan pemandu, pemantauan perhatian juruterbang, dan sebagainya) dibenarkan sebagai pengecualian.

Berat Sebelah dan Keadilan

Masalah berat sebelah dalam AI emosi adalah serius. Pelbagai kajian telah melaporkan kadar salah pengecaman yang lebih tinggi bagi individu berkulit gelap, lelaki, dan mereka daripada latar belakang budaya yang berbeza. Kekurangan kepelbagaian dalam data latihan, andaian yang salah tentang keuniversalan ekspresi wajah, serta perbezaan dalam ekspresi emosi akibat keadaan neurologi dan kecacatan, menimbulkan risiko keputusan yang bersifat diskriminasi. Kajian ACM FAccT 2025 menunjukkan bahawa orang kurang upaya dan golongan gender minoriti melihat pengumpulan data AI emosi secara negatif.

Rangka Kerja Etika Hume AI

Hume AI telah menubuhkan The Hume Initiative dan menetapkan enam prinsip etika: Beneficence (Kebaikan), Emotional Primacy (Keutamaan Emosi), Scientific Legitimacy (Kesahihan Saintifik), Inclusivity (Inklusiviti), Transparency (Ketelusan), dan Consent (Persetujuan). Khususnya, prinsip "AI tidak boleh dibenarkan memperlakukan emosi manusia sebagai alat semata-mata" menetapkan had yang jelas dalam penggunaan komersial AI emosi. Memperlakukan output sebagai "pengukuran tingkah laku ekspresi yang kompleks" dan bukan "pengesanan emosi secara langsung" — perbezaan ini penting dari segi saintifik mahupun etika.

Trend di Jepun — Pembinaan Asas Data Lima Deria × Otak Mula Dilancarkan

Di Jepun, pembinaan infrastruktur AI emosi yang diterajui kerajaan telah bermula.

Kementerian Hal Ehwal Dalaman dan Komunikasi (MIC) akan menyokong pembangunan "AI generasi baharu yang membaca emosi" selama lebih kurang 5 tahun bermula dari tahun fiskal 2026. Pihaknya merancang untuk memperuntukkan belanjawan kepada penyelidikan bersama antara NICT (Institut Penyelidikan Teknologi Maklumat dan Komunikasi) dan Universiti Osaka bagi membina pangkalan data aktiviti otak untuk lima deria termasuk deria bau, sentuhan, dan rasa. Komunikasi maklumat otak pada dekad 2030-an ditetapkan sebagai bidang tumpuan, dan teknologi asas AI emosi akan dipromosikan sebagai dasar negara.

NEC sedang melancarkan papan tanda analisis emosi "Target Advertisement Signage" yang serta-merta menentukan usia, jantina, dan ekspresi muka pelanggan yang masuk, lalu memaparkan video produk yang paling sesuai secara masa nyata. Syarikat ini menyasarkan bahagian teratas pasaran global bernilai 360 bilion yen.

Makmal Penyelidikan Asas Sains Komunikasi NTT telah memodelkan perubahan keadaan psikologi daripada ekspresi muka dan suara, serta menerbitkan dataset rangsangan video empati (EMPAC Dataset). Video pencetus emosi dan data penilaian dalam 6 kategori — kemarahan, jijik, takut, gembira, sedih, dan terkejut — disediakan secara percuma kepada komuniti penyelidikan.

"PKSHA Speech Insight" oleh PKSHA Technology merupakan platform pengecaman dan analisis suara AI untuk pusat hubungan pelanggan, yang membolehkan pengesanan awal aduan melalui analisis emosi semasa panggilan telefon.

Saiz Pasaran dan Prospek Masa Depan

Ramalan Pasaran

Pasaran AI Emosi dijangka berkembang pesat, seperti yang diramalkan secara konsisten oleh pelbagai firma penyelidikan. Saiz pasaran pada 2025 dianggarkan antara USD 3.4 bilion hingga USD 4.7 bilion. Pada 2030, ia dijangka berkembang kepada USD 9.5 bilion hingga USD 15.6 bilion, dan menjelang 2035, dijangka mencecah USD 38.5 bilion. CAGR berada di antara 15% hingga 27%, menjadikannya salah satu kadar pertumbuhan tertinggi dalam bidang AI secara keseluruhan.

Jika difokuskan kepada pasaran Affective Computing Multimodal, ia dijangka meningkat dua kali ganda daripada USD 7 bilion pada 2025 kepada USD 14.4 bilion pada 2030. Amerika Utara merupakan pasaran terbesar pada 2025, namun Asia Pasifik adalah rantau yang paling pesat berkembang.

Prospek Masa Hadapan

2026–2027: Sistem pemantauan pemandu dalam kenderaan menjadi kelengkapan standard pada OEM utama. Dengan pelaksanaan penuh EU AI Act (Ogos 2026), penggunaan AI Emosi di tempat kerja dan bidang pendidikan akan diharamkan, manakala penyebaran dalam bidang perubatan dan keselamatan akan dipercepatkan secara sah. Google dijangka meningkatkan keupayaan dialog emosi Gemini secara ketara melalui teknologi Hume AI, menjadikan AI Emosi sebagai fungsi standard model asas.

2028–2030: Ketepatan gabungan multimodal mencapai lebih daripada 90%, dan metadata emosi masa nyata menjadi standard dalam pengagihan kandungan. Pemperibadian berasaskan emosi merebak dalam platform penstriman, pengiklanan, dan permainan. Diagnostik kesihatan bukan invasif melalui biomarker suara mula mendapat kelulusan FDA.

Selepas 2030: Metadata emosi menjadi data pelengkap standard untuk kandungan video dan audio, setara dengan sari kata dan timecode. AI yang mampu memahami emosi manusia akan memiliki kelebihan daya saing yang luar biasa berbanding AI yang tidak mampu berbuat demikian. Dalam impak ekonomi AI multimodal yang dianggarkan oleh McKinsey (bernilai trilion dolar setahun), AI Emosi akan menjadi komponen utama.

VentureBeat, dalam artikel yang melaporkan pelaburan USD 50 juta ke dalam Hume AI, menyatakan:

"Lompatan besar seterusnya dalam AI adalah pemahaman emosi."

Pandangan ini semakin kukuh disokong oleh pengambilan pasukan Hume AI oleh Google DeepMind, data pembuktian lima tahun daripada syarikat Mars, keputusan BMW/Honda/Volvo untuk menyertakannya dalam model 2026, serta sokongan lima tahun daripada Kementerian Hal Ehwal Dalaman Jepun.

Impak Kepada Industri

Pertama, tangkapan emosional berpotensi mengubah interaksi antara AI dan manusia secara mendasar. AI yang tidak memahami emosi kekal sebagai "alat", namun AI yang memahami emosi boleh menjadi "teman". Seperti yang ditunjukkan oleh EVI dari Hume AI, interaksi suara yang memiliki kecerdasan emosional menghasilkan pengalaman pengguna yang berbeza secara kualitatif berbanding chatbot konvensional.

Kedua, kesan terhadap industri pengiklanan dan pemasaran telah pun terbukti. Kolaborasi antara syarikat Mars dan Realeyes menunjukkan bahawa metadata emosi mampu meramalkan peningkatan jualan iklan dengan ketepatan 75%. Ini merupakan dimensi pengukuran keberkesanan baharu yang melengkapi metrik pemasaran digital konvensional yang bergantung pada ujian A/B dan kadar klik.

Ketiga, dalam industri automotif, pemantauan pemandu akan menjadi ciri standard dari segi keselamatan dan keselesaan. Kontrak pengeluaran berjisim 84 daripada Smart Eye/Affectiva dan perkongsian dengan 12 OEM utama menandakan bahawa teknologi ini telah melepasi peringkat percubaan dan memasuki peringkat pengeluaran berjisim.

Keempat, dalam bidang penjagaan kesihatan, diagnosis tidak invasif melalui biomarker suara berpotensi merevolusikan pengesanan awal dan penjagaan kesihatan mental. Seperti yang ditunjukkan oleh Vocalis Health, teknologi untuk mengesan penyakit jantung dan penyakit neurologi melalui perubahan halus dalam suara mencadangkan masa depan di mana saringan kesihatan boleh dilakukan hanya dengan sebuah telefon pintar.

Kelima, di Jepun, sokongan lima tahun daripada Kementerian Dalam Negeri dan Komunikasi serta pembinaan asas data deria lima × otak akan menentukan daya saing antarabangsa AI emosi. Pengkomersilan oleh NEC, NTT, dan PKSHA Technology akan mempercepatkan pelaksanaan di pasaran Jepun.

Keenam, regulasi EU AI Act bukan menghalang inovasi, malah berfungsi memberi hala tuju. Larangan di tempat kerja dan pendidikan mencipta tekanan untuk membangunkan AI emosi bukan sebagai alat pengawasan, tetapi sebagai alat penciptaan nilai dalam perubatan, keselamatan, dan hiburan. Kerangka etika Hume AI merupakan contoh model untuk hala tuju ini.

Maklumat Rujukan: Rosalind Picard "Affective Computing" (MIT Press, 1997), Paul Ekman, Facial Action Coding System (FACS), Lisa Feldman Barrett "Theory of Constructed Emotion" (PMC, 2017), Alan Cowen, Semantic Space Theory (SST), Hume AI Series B $50J (EQT Ventures, Union Square Ventures, Comcast Ventures, LG Technology Ventures), Hume AI EVI 3 (2025/5), Hume AI EVI4-mini (2026/1, sokongan 11 bahasa), Google DeepMind merekrut CEO Hume AI Alan Cowen (TechCrunch, PYMNTS, 2026/1), Perkongsian Hume AI + Anthropic Claude, Pengambilalihan Smart Eye Affectiva $73.5J (TechCrunch, 2021/5), Affectiva 84 kontrak pengeluaran berjisim / perkongsian dengan 12 daripada 20 OEM teratas dunia, Realeyes + Mars ketepatan ramalan peningkatan jualan iklan 75%, Entropik Series B $25J (Bessemer Venture Partners, SIG), Cogito peningkatan kepuasan pelanggan 20%, Pengambilalihan Uniphore Emotion Research Lab (2021/1), Vocalis Health (Beyond Verbal + Healthymize) $9J (aMoon), Pengambilalihan Apple Emotient (Fortune, 2016/1), Penamatan Amazon Halo (GeekWire, 2023/4), MorphCast AI emosi asli penyemak imbas, Dubformer $3.6J benih (Almaz Capital, 2025), Nature "MemoCMT Cross-Modal Transformer" (2025), Wiley "Advancements in Emotion Classification", Nature "EmoWear Dataset", PMC "Comprehensive Review of Multimodal Emotion Recognition", EU AI Act Article 5(1)(f) larangan anggaran emosi di tempat kerja & pendidikan (berkuat kuasa 2025/2), Illinois BIPA Undang-undang Privasi Data Biometrik, ACM FAccT 2025 "Distinguishing Emotion AI", Hume Initiative 6 prinsip etika, Kementerian Dalam Negeri dan Komunikasi Jepun "AI Generasi Baharu yang Membaca Emosi" sokongan pembangunan 5 tahun (Nikkei Shimbun, 2025), NICT + Universiti Osaka pangkalan data aktiviti otak deria lima, NEC papan tanda analisis emosi, NTT EMPAC Dataset, PKSHA Speech Insight, Research and Markets Pasaran Emotion AI $4.71B (2025), Fortune Business Insights $3.4B (2025), Mordor Intelligence $4.52B/$9.47B (2025/2030), EIN Presswire $15.57B (2030), Roots Analysis $38.50B (2035), VentureBeat "Is AI's Next Big Leap Understanding Emotion?", Contrary Research Hume AI, GM Insights Pasaran Emotion AI 2025-2034, GitHub: DeepFace (serengil/deepface, 22.4K bintang, MIT), GitHub: OpenFace 2.0 (TadasBaltrusaitis/OpenFace, 7.6K bintang), GitHub: OpenFace 3.0 (CMU-MultiComp-Lab/OpenFace-3.0), GitHub: EmotiEffLib (sb-ai-lab/EmotiEffLib, Apache-2.0, No. 1 ABAW), GitHub: Py-Feat (cosanlab/py-feat, MIT, diterbitkan dalam Affective Science), GitHub: MediaPipe (google-ai-edge/mediapipe, 34.5K bintang, Apache-2.0), GitHub: SpeechBrain (speechbrain/speechbrain, 11.4K bintang, Apache-2.0), GitHub: emotion2vec (ddlBoJack/emotion2vec, ACL 2024), GitHub: SenseVoice (FunAudioLLM/SenseVoice, 7.9K bintang, Alibaba), GitHub: openSMILE (audeering/opensmile, TU Munich/audEERING), GitHub: librosa (librosa/librosa, 8.3K bintang, ISC), GitHub: Whisper (openai/whisper, 97K bintang, MIT), GitHub: FunASR (modelscope/FunASR, 15.5K bintang, MIT), GitHub: Emotion-LLaMA (ZebangCheng/Emotion-LLaMA, BSD-3, multimodal), GitHub: EmoBox (emo-box/EmoBox, INTERSPEECH 2024, 32 dataset/14 bahasa), GitHub: conv-emotion (declare-lab/conv-emotion, MIT, pengecaman emosi perbualan), Hugging Face: SamLowe/roberta-base-go_emotions (28 emosi, GoEmotions), Hugging Face: speechbrain/emotion-recognition-wav2vec2-IEMOCAP, Dataset: FER2013, AffectNet, RAVDESS, IEMOCAP, MELD, GoEmotions