Chuyển đổi cảm xúc từ video và âm thanh thành siêu dữ liệu, Emotional Capture là gì

Cảm xúc con người từng là loại dữ liệu khó nắm bắt nhất đối với máy tính. Tuy nhiên, công nghệ phát hiện cảm xúc theo thời gian thực từ video và âm thanh, rồi xuất ra dưới dạng siêu dữ liệu có cấu trúc — được gọi là **Emotional Capture (Thu nhận Cảm xúc)** — đang nhanh chóng bước vào giai đoạn ứng dụng thực tiễn. Khoảng 30 năm kể từ khi Rosalind Picard thuộc MIT Media Lab xuất bản cuốn *Affective Computing* năm 1997 và khai sinh ra lĩnh vực này, thị trường AI Cảm xúc (Emotion AI) dự kiến đạt 3,4–4,7 tỷ USD (khoảng 510–705 tỷ yên) vào năm 2025, và sẽ tăng trưởng mạnh lên 9,5–15,6 tỷ USD (khoảng 1,425–2,340 nghìn tỷ yên) vào năm 2030 (CAGR 15–27%). Hume AI đã phát triển **Expressive Voice Interface (EVI)** — giao diện giọng nói biểu cảm ánh xạ không gian cảm xúc 53 chiều, hiện thực hóa hội thoại cảm xúc thời gian thực với thời gian phản hồi dưới 300ms. Tháng 1 năm 2026, Google đã chiêu mộ CEO của Hume AI là Alan Cowen cùng đội ngũ kỹ sư để tăng cường tính năng giọng nói cho Gemini — một sự kiện biểu tượng cho thấy các gã khổng lồ công nghệ đã thừa nhận giá trị chiến lược của AI Cảm xúc. **Smart Eye/Affectiva** (công ty spin-out từ MIT Media Lab) sở hữu dữ liệu khuôn mặt của hơn 10 triệu người tại 87 quốc gia, và sẽ tích hợp hệ thống giám sát cảm xúc lái xe như trang bị tiêu chuẩn trên các mẫu xe 2026 của BMW, Honda và Volvo. **Realeyes** đã hợp tác với Mars để hiện thực hóa dự đoán mức tăng doanh thu kết hợp đo lường cảm xúc với độ chính xác 75%, liên tục cải thiện hiệu quả quảng cáo hàng chục triệu USD mỗi năm trong hơn 5 năm. Tại Nhật Bản, Bộ Nội vụ và Truyền thông sẽ hỗ trợ phát triển "AI thế hệ tiếp theo có khả năng đọc cảm xúc" trong khoảng 5 năm kể từ năm tài chính 2026, với nghiên cứu chung giữa NICT và Đại học Osaka đang khởi động xây dựng cơ sở dữ liệu hoạt động não bộ về năm giác quan. **NEC** đang triển khai biển hiệu phân tích cảm xúc nhận diện biểu cảm khách hàng đến cửa hàng theo thời gian thực, còn **NTT** đã công bố bộ dữ liệu kích thích video đồng cảm (EMPAC Dataset). Mặt khác, **EU AI Act** (có hiệu lực tháng 2 năm 2025) đã cấm rõ ràng việc sử dụng AI suy luận cảm xúc tại nơi làm việc và các cơ sở giáo dục, với mức phạt lên đến 35 triệu euro cho các vi phạm. Việc chuyển hóa cảm xúc thành siêu dữ liệu đã chứng minh được giá trị thực tiễn trong các lĩnh vực quảng cáo, chăm sóc sức khỏe, ô tô và giải trí, nhưng đồng thời cũng chứa đựng những thách thức về quyền riêng tư và sai lệch. Bài viết này sẽ xem xét một cách toàn diện khái niệm và lịch sử của Emotional Capture, các phương pháp tiếp cận kỹ thuật, các dịch vụ và sản phẩm chính, lĩnh vực ứng dụng, những tranh luận khoa học, đạo đức và quy định, cũng như triển vọng trong tương lai.

Emotional Capture là gì — Công nghệ biến cảm xúc thành dữ liệu

Emotional Capture (Chụp bắt Cảm xúc) là thuật ngữ chung chỉ công nghệ phát hiện trạng thái cảm xúc của con người theo thời gian thực từ video, âm thanh, tín hiệu sinh học, v.v., rồi xuất ra dưới dạng metadata có cấu trúc. Giống như motion capture số hóa chuyển động của cơ thể, emotional capture số hóa chuyển động của cảm xúc.

Nền tảng của công nghệ này là Affective Computing (Điện toán Cảm xúc). Giáo sư Rosalind Picard tại MIT Media Lab đã công bố bài báo cùng tên vào năm 1995, rồi xuất bản cuốn sách *Affective Computing* tại MIT Press năm 1997, qua đó thiết lập nên lĩnh vực này. Luận điểm của Picard rất rõ ràng:

"Nếu chúng ta muốn máy tính có trí thông minh thực sự và tương tác tự nhiên với con người, chúng ta phải trao cho chúng khả năng nhận biết, hiểu, và thậm chí có và biểu đạt cảm xúc."

Nghiên cứu thần kinh học đã nhiều lần chứng minh rằng cảm xúc đóng vai trò thiết yếu trong việc ra quyết định, tri giác và học tập. AI không hiểu được cảm xúc thì không thể trở thành AI thực sự hiểu con người.

Đầu ra của emotional capture khác hoàn toàn về mặt chiều sâu so với phân tích cảm xúc đơn giản kiểu "tích cực / tiêu cực / trung tính" truyền thống. Hume AI ánh xạ không gian cảm xúc ngôn ngữ 53 chiều, không gian biểu cảm khuôn mặt 48 chiều và không gian ngữ điệu giọng nói 48 chiều, tạo ra metadata cảm xúc liên tục, đa chiều — không bị giới hạn trong 6 cảm xúc cơ bản như "vui" hay "tức giận".

Lịch sử nghiên cứu — Từ 6 cảm xúc cơ bản của Ekman đến Lý thuyết Không gian Ngữ nghĩa

Nền tảng khoa học của Emotional Capture được xây dựng trên ba dòng lý thuyết chính.

Lý thuyết cảm xúc cơ bản của Paul Ekman (từ những năm 1960). Nhà tâm lý học Paul Ekman vào năm 1968 đã kiểm chứng tính phổ quát của biểu cảm khuôn mặt tại một bộ tộc cô lập ở Papua New Guinea, và khẳng định rằng 6 cảm xúc cơ bản — tức giận, ngạc nhiên, ghê tởm, vui mừng, sợ hãi và buồn bã — là phổ quát vượt qua mọi nền văn hóa. FACS (Facial Action Coding System) do Ekman phát triển là một hệ thống phân tách chuyển động cơ mặt thành 28 Action Unit (AU), từ đó suy luận cảm xúc dựa trên các tổ hợp của chúng. Hầu hết các AI cảm xúc dựa trên nhận dạng khuôn mặt ngày nay đều chịu ảnh hưởng mạnh mẽ từ FACS.

Lý thuyết cảm xúc kiến tạo của Lisa Feldman Barrett (từ 2006). Nhà tâm lý học Lisa Feldman Barrett của Đại học Northeastern đã trực tiếp phản bác tính phổ quát của Ekman. Theo Theory of Constructed Emotion (Lý thuyết cảm xúc được kiến tạo, TCE) của Barrett, cảm xúc không phải là phản ứng phản xạ với thế giới, mà là thứ não bộ chủ động kiến tạo một cách dự đoán tại chỗ. Cùng một cảm giác thể chất, người này diễn giải là "tức giận", người khác lại diễn giải là "đau bụng". Mức độ chi tiết (granularity) của cảm xúc có sự khác biệt lớn giữa các cá nhân, và các danh mục phổ quát chỉ là ảo tưởng — Barrett thậm chí đã tuyên bố rằng "dựa trên bằng chứng áp đảo, quan điểm cổ điển đã thất bại."

Lý thuyết không gian ngữ nghĩa của Alan Cowen (từ 2017). Alan Cowen, người sáng lập Hume AI, đề xuất lập trường thứ ba — không đứng về phía 6 danh mục cảm xúc cũng không đứng về phía chủ nghĩa kiến tạo. Semantic Space Theory (SST, Lý thuyết không gian ngữ nghĩa) là cách tiếp cận lập bản đồ toàn bộ không gian cảm xúc theo hướng dữ liệu. Bằng cách tiến hành các thí nghiệm quy mô lớn với lượng lớn kích thích âm thanh, biểu cảm, ngôn ngữ cùng các nhãn cảm xúc đa dạng, lý thuyết này chỉ ra rằng cảm xúc không phân bố theo các danh mục rời rạc hay các chiều đơn giản, mà phân bố trong một không gian ngữ nghĩa liên tục và đa chiều. Đây chính là cơ sở lý luận cho mô hình cảm xúc 53 chiều của Hume AI.

Ba cuộc đối lập lý thuyết này — chủ nghĩa phổ quát (Ekman), chủ nghĩa kiến tạo (Barrett) và chủ nghĩa không gian ngữ nghĩa (Cowen) — vẫn chưa có hồi kết. Tuy nhiên, về mặt kỹ thuật, các cách tiếp cận dựa trên SST đang tạo ra metadata cảm xúc có độ chính xác cao nhất và đang dần trở thành tiêu chuẩn thực tế trong các ứng dụng công nghiệp.

Phương pháp kỹ thuật — 4 phương thức nắm bắt cảm xúc

Emotional Capture trích xuất và tích hợp thông tin cảm xúc từ nhiều phương thức (kênh đầu vào) khác nhau.

Nhận dạng biểu cảm khuôn mặt (Visual Modality)

Phân tích chuyển động khuôn mặt được ghi lại qua camera theo thời gian thực bằng cách phân tách thành 28 Action Unit của FACS. Hệ thống phát hiện các chuyển động cơ mặt tinh tế như nâng lông mày (AU1+AU2), nhăn mũi (AU9), cong môi (AU12), há miệng (AU26), và từ sự kết hợp của chúng để suy luận cảm xúc.

Việc phát hiện biểu cảm vi mô (micro-expression) là tiền tuyến của Emotional Capture. Những chuyển động khuôn mặt cực nhỏ trong chưa đầy một giây, dù người đó cố tình kiềm chế, vẫn là manh mối của "cảm xúc thật". AI có thể phát hiện biểu cảm vi mô ở tốc độ mà mắt người không thể nắm bắt.

Affectiva (nay là Smart Eye) sở hữu bộ dữ liệu cảm xúc lớn nhất thế giới, được huấn luyện trên hơn 10 triệu khuôn mặt từ 87 quốc gia, và phát hiện 28 Action Unit theo thời gian thực.

Nhận dạng cảm xúc qua giọng nói (Audio Modality)

Cảm xúc được suy luận từ prosody (vần điệu) của giọng nói — bao gồm pitch (cao độ), nhịp điệu, cường độ và thời lượng. Sự biến thiên pitch là đặc trưng nổi bật nhất của prosody cảm xúc: pitch cao gợi ý hứng khởi, vui mừng, ngạc nhiên; pitch thấp gợi ý buồn bã, bình thản. Thay đổi tốc độ nói, chèn khoảng dừng, và dao động âm lượng cũng là những tín hiệu quan trọng.

Hệ thống của Cogito phân tích hơn 200 tín hiệu âm thanh và giọng nói theo thời gian thực, cung cấp hướng dẫn cảm xúc cho các tổng đài viên. EVI của Hume AI phân tích prosody trong không gian cảm xúc giọng nói 48 chiều.

Hợp nhất đa phương thức (Multimodal Fusion)

Đây là phương pháp tích hợp biểu cảm khuôn mặt, mẫu giọng nói, dữ liệu văn bản, và cả tín hiệu sinh lý vào một mô hình thống nhất. Phương pháp này đạt độ chính xác cao hơn 15~20% so với đơn phương thức, và hơn 40% nghiên cứu học thuật từ năm 2022 trở đi áp dụng cấu hình trimodal hoặc kiến trúc hợp nhất chéo phương thức dựa trên Transformer.

Bài báo "MemoCMT" đăng trên Nature năm 2025 đề xuất hợp nhất đặc trưng dựa trên cross-modal Transformer; "EA-FUSION" thực hiện tích hợp dữ liệu EEG và biểu cảm khuôn mặt; "HyFusER" hiện thực hóa hợp nhất lai ghép thông qua dual cross-modal attention.

Tín hiệu sinh lý từ thiết bị đeo (Physiological Modality)

Cảm xúc cũng có thể được suy luận từ các tín hiệu sinh lý như hoạt động điện da (EDA), biến thiên nhịp tim (HRV), sóng mạch thể tích máu (BVP), nhiệt độ da, và sóng não (EEG). Các nghiên cứu đang khảo sát phân loại cảm xúc bằng kiến trúc ensemble LSTM-GRU, tận dụng dữ liệu gia tốc kế, con quay hồi chuyển từ đồng hồ thông minh và băng đầu EEG.

Các dịch vụ và sản phẩm chủ chốt——Những công ty dẫn đầu thị trường

Hume AI——Lập bản đồ không gian cảm xúc 53 chiều

Được thành lập năm 2021 bởi Alan Cowen (Tiến sĩ Tâm lý học), Hume AI là công ty nổi bật nhất trong lĩnh vực AI cảm xúc. Công ty đã huy động được 50 triệu đô la trong vòng Series B (do EQT Ventures dẫn đầu, với sự tham gia của Union Square Ventures, Comcast Ventures, LG Technology Ventures), nâng tổng số vốn huy động lên 74–80 triệu đô la.

Sản phẩm chủ lực Empathic Voice Interface (EVI) là AI hội thoại bằng giọng nói có trí tuệ cảm xúc. EVI 3 (tháng 5/2025) đạt hơn 100.000 giọng nói tùy chỉnh, độ trễ phản hồi dưới 300ms, độ trễ thực tế 1,2 giây, vượt trội so với GPT-4o và Gemini Live API. EVI4-mini (tháng 1/2026) hỗ trợ 11 ngôn ngữ, bao gồm cả tiếng Nhật.

Expression Measurement API nhận đầu vào là âm thanh/video và xuất ra metadata cảm xúc 53 chiều (ngôn ngữ), 48 chiều (biểu cảm khuôn mặt), 48 chiều (vần điệu giọng nói). Mức giá $0,08/phút cho âm thanh/video và $0,00024/từ cho văn bản, đưa việc sử dụng thương mại vào tầm tay.

Vào tháng 1/2026, Google DeepMind đã thu hút CEO Alan Cowen cùng đội ngũ kỹ sư từ Hume AI để tăng cường tính năng giọng nói của Gemini. Hume AI ký kết thỏa thuận cấp phép và tiếp tục hoạt động độc lập với Andrew Ettinger đảm nhận vị trí CEO. Động thái này là minh chứng mang tính biểu tượng cho việc Google thừa nhận giá trị chiến lược của AI cảm xúc.

Quan hệ đối tác với Anthropic cũng rất sâu sắc. Các mô hình Claude chiếm 36% cấu hình EVI, với thành tích hơn 1 triệu cuộc hội thoại và gần 2 triệu phút tương tác.

Smart Eye/Affectiva——Tiêu chuẩn AI cảm xúc cho ngành ô tô

Affectiva, được tách ra từ MIT Media Lab vào năm 2009 với sự đồng sáng lập của Giáo sư Rosalind Picard, đã được Smart Eye của Thụy Điển mua lại với giá 73,5 triệu đô la vào năm 2021.

Công ty sở hữu bộ dữ liệu cảm xúc lớn nhất thế giới với hơn 10 triệu khuôn mặt từ 87 quốc gia, đã giành được 84 hợp đồng sản xuất hàng loạt và hợp tác với 12 trong số 20 OEM hàng đầu thế giới. Các mẫu xe BMW, Honda và Volvo năm 2026 dự kiến sẽ được trang bị tiêu chuẩn hệ thống giám sát cảm xúc lái xe. Hệ thống phát hiện mệt mỏi, căng thẳng và mất tập trung để cảnh báo, đồng thời tự động điều chỉnh môi trường trong xe (nhiệt độ, âm nhạc, ánh sáng) dựa trên cảm xúc.

Realeyes——Dự đoán hiệu quả quảng cáo bằng cảm xúc

Realeyes, công ty dẫn đầu trong phân tích cảm xúc dựa trên video cho quảng cáo, xử lý hơn 8 triệu lượt xem video mỗi tháng. Sự hợp tác với Mars đặc biệt đáng chú ý: trong 2 năm, họ đã xây dựng cơ sở dữ liệu gồm 22.000 người, 149 quảng cáo, 35 thương hiệu và 6 thị trường, chứng minh rằng công nghệ đo lường cảm xúc có thể dự đoán mức tăng doanh thu của quảng cáo với độ chính xác 75%. Dựa trên kết quả này, Mars đã phân bổ 70% chi tiêu truyền thông cho các quảng cáo hiệu suất cao trên tất cả các thương hiệu Tier 1, duy trì mức tăng doanh thu hàng chục triệu đô la mỗi năm trong hơn 5 năm.

Coca-Cola, Unilever và Hershey's cũng nằm trong danh sách khách hàng.

Entropik Technologies——Thông tin chi tiết về người tiêu dùng đa phương thức

Được thành lập tại Bangalore, Ấn Độ vào năm 2016, Entropik đã huy động 25 triệu đô la trong vòng Series B do Bessemer Venture Partners và SIG Venture Capital dẫn đầu. Công ty cung cấp nền tảng đa phương thức "Affect Lab" tích hợp lập bản đồ sóng não, mã hóa khuôn mặt và theo dõi mắt, được hơn 150 thương hiệu toàn cầu sử dụng.

Các công ty đáng chú ý khác

Cogito là AI cảm xúc dành cho trung tâm cuộc gọi, phân tích theo thời gian thực hơn 200 tín hiệu âm thanh và giọng nói, cải thiện mức độ hài lòng của khách hàng lên đến 20%. Uniphore đã mua lại Emotion Research Lab của Tây Ban Nha và tích hợp phân tích cảm xúc giọng nói vào trung tâm liên lạc. Vocalis Health (trước đây là Beyond Verbal), một công ty phân tích cảm xúc qua giọng nói từ Israel, đang nghiên cứu chẩn đoán bệnh tim, rối loạn giấc ngủ và bệnh thần kinh thông qua các biomarker giọng nói. MorphCast cung cấp SDK AI cảm xúc serverless chạy trực tiếp trên trình duyệt. Dubformer, một công ty mới nổi chuyên về lồng tiếng chuyển đổi cảm xúc bằng AI, đã huy động được 3,6 triệu đô la vốn hạt giống do Almaz Capital dẫn đầu vào đầu năm 2025.

Dân chủ hóa nhận diện cảm xúc qua mã nguồn mở

Công nghệ Emotional Capture đang được dân chủ hóa nhanh chóng không chỉ bởi các dịch vụ thương mại, mà còn nhờ hệ sinh thái các thư viện mã nguồn mở. Môi trường để các nhà nghiên cứu và startup xây dựng hệ thống nhận diện cảm xúc từ đầu đang dần hoàn thiện.

OSS nhận diện biểu cảm khuôn mặt

DeepFace (GitHub 22.469 sao, giấy phép MIT) là thư viện Python được sử dụng rộng rãi nhất cho nhận diện khuôn mặt và phân tích biểu cảm. Chỉ cần một lệnh pip install deepface để cài đặt, thư viện này bao gồm nhiều mô hình nhận diện khuôn mặt như VGG-Face, FaceNet, ArcFace, và phân loại cảm xúc theo 7 danh mục: tức giận, ghê tởm, sợ hãi, vui vẻ, buồn bã, ngạc nhiên và trung tính. Hỗ trợ phân tích video thời gian thực.

OpenFace 2.0 (7.610 sao, CMU MultiComp Lab) là tiêu chuẩn học thuật để phát hiện 18 Action Unit dựa trên FACS theo thời gian thực. Tích hợp phát hiện landmark khuôn mặt, ước tính tư thế đầu và ước tính hướng nhìn, đây là một trong những công cụ được trích dẫn nhiều nhất trong nghiên cứu nhận diện cảm xúc. Năm 2025, OpenFace 3.0 dựa trên Python cũng được phát hành, tích hợp phát hiện khuôn mặt bằng RetinaFace và phát hiện landmark bằng STAR, cho phép phân tích đa nhiệm về AU, cảm xúc và hướng nhìn.

EmotiEffLib (trước đây là HSEmotion, giấy phép Apache-2.0) là thư viện nhẹ đã giành vị trí thứ nhất tại cuộc thi ABAW (Affective Behavior Analysis in-the-Wild). Hỗ trợ cả hai backend PyTorch và ONNX, thực hiện nhận diện cảm xúc và mức độ tương tác từ ảnh và video theo thời gian thực.

Py-Feat (giấy phép MIT, được đăng trên tạp chí Affective Science) là bộ công cụ toàn diện cho phát hiện, tiền xử lý, phân tích và trực quan hóa dữ liệu biểu cảm khuôn mặt. Phát hiện 7 cảm xúc và Action Unit từ ảnh và video, tích hợp sẵn các công cụ phân tích thống kê như kiểm định t và phân tích hồi quy.

MediaPipe của Google (34.482 sao, Apache-2.0) không phải công cụ chuyên biệt cho nhận diện cảm xúc, nhưng xuất 468 landmark khuôn mặt 3D và 52 điểm blendshape theo thời gian thực, được sử dụng rộng rãi làm nền tảng xây dựng bộ phân loại cảm xúc. Hoạt động được trên thiết bị di động và edge device.

OSS nhận diện cảm xúc qua giọng nói

SpeechBrain (11.410 sao, Apache-2.0) là bộ công cụ âm thanh toàn diện dựa trên PyTorch. Cung cấp mô hình nhận diện cảm xúc được fine-tune từ wav2vec2 trên tập dữ liệu IEMOCAP, với khả năng tích hợp liền mạch với Hugging Face. Bao gồm các recipe cho nhận diện cảm xúc bên cạnh nhận diện giọng nói, nhận diện người nói và tăng cường giọng nói.

emotion2vec (1.089 sao, đăng trên ACL 2024) là mô hình biểu diễn cảm xúc giọng nói đa năng đầu tiên sử dụng self-supervised pre-training. Cung cấp các mô hình emotion2vec+ (seed/base/large) phân loại 9 lớp cảm xúc, đạt độ chính xác cao nhất trên nhiều ngôn ngữ như tiếng Trung, Pháp, Đức và Ý. Vượt trội đáng kể so với các mô hình mã nguồn mở khác trên Hugging Face.

SenseVoice của Alibaba (7.907 sao) là mô hình nền tảng âm thanh tích hợp nhận diện giọng nói, nhận dạng ngôn ngữ, nhận diện cảm xúc và phát hiện sự kiện âm thanh. Hỗ trợ tiếng Trung, Quảng Đông, Anh, Nhật và Hàn, vượt trội so với các mô hình tốt nhất hiện có mà không cần fine-tune trên dữ liệu mục tiêu.

openSMILE (794 sao, phát triển bởi TU Munich/audEERING) có vị thế là tiêu chuẩn ngành trong trích xuất đặc trưng âm thanh cho nhận diện cảm xúc. Trích xuất MFCC, đặc trưng prosody, đặc trưng phổ và cung cấp các bộ đặc trưng chuẩn như eGeMaPS và ComParE. Hoạt động trên Linux, Windows, macOS, Android, iOS và Raspberry Pi.

Whisper của OpenAI (97.053 sao, giấy phép MIT) là mô hình nhận diện giọng nói đa năng, nhưng các mô hình phái sinh đã được fine-tune đang được ứng dụng cho nhận diện cảm xúc. Whisper-large-v3 được fine-tune trên các tập dữ liệu RAVDESS/SAVEE/TESS đạt độ chính xác khoảng 92% trên 7 cảm xúc.

OSS nhận diện cảm xúc đa phương thức

Emotion-LLaMA (550 sao, giấy phép BSD-3) là mô hình tiên phong trong nhận diện và suy luận cảm xúc đa phương thức dựa trên LLM. Xử lý HuBERT (âm thanh), VideoMAE (video), EVA/MAE (thị giác) và văn bản trong một mô hình tích hợp dựa trên LLaMA, không chỉ nhận diện cảm xúc mà còn thực hiện suy luận (tại sao cảm xúc đó xuất hiện).

EmoBox (314 sao, đăng tại INTERSPEECH 2024) là bộ công cụ benchmark nhận diện cảm xúc giọng nói đa ngôn ngữ, đa corpus bao gồm 32 tập dữ liệu và 14 ngôn ngữ. Benchmark 10 mô hình âm thanh đã được pre-train và cung cấp benchmark SER (Speech Emotion Recognition) toàn diện nhất.

Các tập dữ liệu chính

Đằng sau OSS nhận diện cảm xúc là sự phong phú của các tập dữ liệu công khai. Các tập dữ liệu đa dạng về phương thức và quy mô đang hỗ trợ nghiên cứu, bao gồm: FER2013 dựa trên ảnh (khoảng 35.887 ảnh, 7 cảm xúc), AffectNet quy mô lớn (khoảng 1 triệu ảnh, 8 cảm xúc + valence/arousal), RAVDESS âm thanh+video (7.356 file, 8 cảm xúc), IEMOCAP âm thanh+video+văn bản (khoảng 12 giờ, tối đa 9 cảm xúc), MELD có nguồn gốc từ series truyền hình "Friends" (hơn 13.000 phát ngôn, 7 cảm xúc + 3 cực tính cảm xúc), và GoEmotions từ các bình luận Reddit (58.000 mục, 28 cảm xúc).

Nhờ sự phong phú của các OSS và tập dữ liệu này, Emotional Capture không còn là đặc quyền của các tập đoàn lớn. Thời đại mà các nhà phát triển cá nhân và startup có thể kết hợp DeepFace (hình ảnh), SpeechBrain (âm thanh) và Emotion-LLaMA (đa phương thức) để xây dựng pipeline tạo metadata cảm xúc riêng đã đến.

Lĩnh vực ứng dụng — Các ngành công nghiệp được thay đổi bởi siêu dữ liệu cảm xúc

Dịch vụ khách hàng

Trung tâm cuộc gọi là thị trường thương mại lớn nhất của AI cảm xúc. Hệ thống của Cogito phân tích cuộc gọi của nhân viên theo thời gian thực, khi phát hiện sự thất vọng của khách hàng sẽ hiển thị hướng dẫn như "Hãy giải thích chậm hơn" hay "Hãy làm dịu giọng điệu". Điều này giúp cải thiện mức độ hài lòng của khách hàng lên đến 20%. Uniphore phân tích cảm xúc qua giọng nói để phát hiện cảm xúc của người gọi, cho phép can thiệp trước khi leo thang.

Chăm sóc sức khỏe & Sức khỏe tâm thần

Ứng dụng AI cảm xúc trong chăm sóc sức khỏe là lĩnh vực có tác động xã hội lớn nhất. Woebot phát hiện lo lắng, buồn bã và căng thẳng qua văn bản và giọng nói, cung cấp liệu pháp trò chuyện dựa trên CBT (liệu pháp nhận thức hành vi). Ellie, được phát triển bởi National Center for Biomedical Computing, đánh giá trạng thái tâm thần thông qua biểu cảm khuôn mặt, giọng điệu và mẫu ngôn ngữ. Trong bệnh viện, công nghệ này được ứng dụng để theo dõi cảm xúc của bệnh nhân rối loạn ngôn ngữ, người cao tuổi và trẻ em.

Công nghệ biomarker giọng nói của Vocalis Health có tiềm năng chẩn đoán suy tim, ngưng thở khi ngủ và bệnh thần kinh một cách không xâm lấn từ những thay đổi tinh tế trong giọng nói.

Ô tô (Giám sát lái xe)

Smart Eye/Affectiva đã ký kết 84 hợp đồng sản xuất hàng loạt với 12 trong số 20 OEM hàng đầu thế giới. BMW, Honda và Volvo sẽ tích hợp giám sát cảm xúc như trang bị tiêu chuẩn trên các mẫu xe năm 2026. Hệ thống phát hiện mệt mỏi, căng thẳng và mất tập trung của lái xe theo thời gian thực để phát cảnh báo và đề xuất nghỉ ngơi. Ngoài ra, việc tự động điều chỉnh môi trường trong xe dựa trên cảm xúc cũng được triển khai — khi căng thẳng cao, hệ thống chuyển sang nhạc thư giãn, hạ nhiệt độ và điều chỉnh ánh sáng sang tông ấm.

Quảng cáo & Marketing

Sự hợp tác giữa Mars và Realeyes là ví dụ minh họa rõ ràng nhất về giá trị thương mại của metadata cảm xúc. Bằng cách dự đoán mức tăng doanh số từ quảng cáo với độ chính xác 75% thông qua đo lường cảm xúc và phân bổ 70% chi tiêu truyền thông cho các quảng cáo hiệu suất cao, họ đã duy trì mức tăng doanh thu hàng chục triệu đô la mỗi năm trong hơn 5 năm.

Game & Giải trí

Gaming thích ứng — điều chỉnh động độ khó của game, diễn biến câu chuyện và nhạc nền dựa trên cảm xúc của người chơi — đang được nghiên cứu. Trên các nền tảng streaming, đề xuất nội dung dựa trên trạng thái cảm xúc của người xem là biên giới tiếp theo. Mặc dù 80% lượt xem của Netflix đến từ đề xuất AI, việc tích hợp metadata cảm xúc có thể cải thiện hơn nữa độ chính xác của hệ thống đề xuất.

Sản xuất nội dung

Dubformer chuyên về chuyển giao cảm xúc trong lồng tiếng AI — sao chép trung thực biểu đạt cảm xúc của ngôn ngữ gốc sang ngôn ngữ lồng tiếng. Ngoài ra, công nghệ tạo metadata cảm xúc ở cấp độ từng khung hình của video để thực hiện đề xuất theo cảnh cũng đang được phát triển.

Đạo đức & Quy định — Tác động của EU AI Act và Đổi mới có Trách nhiệm

EU AI Act (có hiệu lực từ tháng 2 năm 2025)

EU AI Act áp đặt các quy định nghiêm ngặt nhất đối với AI nhận diện cảm xúc. Điều 5(1)(f) đã minh thị cấm việc triển khai và sử dụng hệ thống AI nhận diện cảm xúc tại nơi làm việc và cơ sở giáo dục. Vi phạm có thể bị phạt tối đa 35 triệu euro hoặc 7% doanh thu hàng năm toàn cầu (tùy theo mức nào cao hơn).

Các hành vi bị cấm cụ thể bao gồm: theo dõi cảm xúc nhân viên tại trung tâm cuộc gọi thông qua webcam và nhận dạng giọng nói, ước tính mức độ hứng thú và chú ý của học sinh tại các cơ sở giáo dục, cũng như nhận diện cảm xúc trong quy trình tuyển dụng. Tuy nhiên, các ứng dụng phục vụ mục đích y tế và an toàn (như phát hiện mệt mỏi của tài xế, giám sát sự tập trung của phi công, v.v.) được phép như các trường hợp ngoại lệ.

Thiên kiến và công bằng

Vấn đề thiên kiến trong AI cảm xúc là nghiêm trọng. Nhiều nghiên cứu đã ghi nhận tỷ lệ nhận diện sai cao hơn đối với người có tông da tối, nam giới, và người có nền văn hóa khác biệt. Sự thiếu đa dạng trong dữ liệu huấn luyện, các giả định sai lầm về tính phổ quát của biểu cảm khuôn mặt, và sự khác biệt trong biểu đạt cảm xúc do các tình trạng thần kinh hoặc khuyết tật đều tiềm ẩn nguy cơ dẫn đến kết quả mang tính phân biệt đối xử. Nghiên cứu tại ACM FAccT 2025 cho thấy người khuyết tật và người thuộc nhóm giới tính thiểu số có xu hướng nhìn nhận việc thu thập dữ liệu bởi AI cảm xúc theo chiều hướng tiêu cực.

Khung đạo đức của Hume AI

Hume AI đã thành lập The Hume Initiative và đề ra 6 nguyên tắc đạo đức: Beneficence (Hành thiện), Emotional Primacy (Ưu tiên cảm xúc), Scientific Legitimacy (Tính hợp lệ khoa học), Inclusivity (Tính bao trùm), Transparency (Minh bạch) và Consent (Đồng thuận). Đặc biệt, nguyên tắc "không được để AI coi cảm xúc con người như một phương tiện" đã vạch ra ranh giới rõ ràng đối với việc thương mại hóa AI cảm xúc. Việc xử lý đầu ra như "đo lường hành vi biểu đạt phức tạp" thay vì "ước tính cảm xúc trực tiếp" — sự phân biệt này có ý nghĩa quan trọng cả về mặt khoa học lẫn đạo đức.

Xu hướng tại Nhật Bản — Xây dựng nền tảng dữ liệu não bộ × năm giác quan bắt đầu khởi động

Tại Nhật Bản, việc xây dựng nền tảng AI cảm xúc do chính phủ dẫn dắt đang bắt đầu được triển khai.

Bộ Nội vụ và Truyền thông sẽ hỗ trợ phát triển "AI thế hệ tiếp theo có khả năng đọc cảm xúc" trong khoảng 5 năm kể từ năm tài chính 2026. Kế hoạch bao gồm việc phân bổ ngân sách cho nghiên cứu phối hợp giữa NICT (Viện Nghiên cứu Truyền thông Thông tin Quốc gia) và Đại học Osaka, nhằm xây dựng cơ sở dữ liệu hoạt động não bộ liên quan đến năm giác quan như khứu giác, xúc giác và vị giác. "Truyền thông thông tin não bộ" trong thập niên 2030 được xác định là lĩnh vực trọng điểm, và công nghệ nền tảng cho AI cảm xúc được thúc đẩy như một chính sách quốc gia.

NEC đang triển khai biển quảng cáo phân tích cảm xúc "Target Advertising Signage", có khả năng nhận diện ngay lập tức độ tuổi, giới tính và biểu cảm khuôn mặt của khách hàng để hiển thị video sản phẩm phù hợp nhất theo thời gian thực. Công ty hướng tới vị trí dẫn đầu thị phần trong thị trường toàn cầu trị giá 360 tỷ yên.

Phòng nghiên cứu cơ bản khoa học truyền thông của NTT đã mô hình hóa sự thay đổi trạng thái tâm lý từ biểu cảm khuôn mặt và giọng nói, đồng thời công bố bộ dữ liệu kích thích video đồng cảm (EMPAC Dataset). Bộ dữ liệu này cung cấp miễn phí cho cộng đồng nghiên cứu các video kích thích cảm xúc và dữ liệu đánh giá thuộc 6 danh mục: tức giận, ghê tởm, sợ hãi, vui mừng, buồn bã và ngạc nhiên.

"PKSHA Speech Insight" của PKSHA Technology là nền tảng nhận diện và phân tích giọng nói AI dành cho trung tâm liên lạc, giúp phát hiện sớm các khiếu nại thông qua phân tích cảm xúc trong cuộc gọi.

Quy mô thị trường và triển vọng tương lai

Dự báo thị trường

Thị trường AI cảm xúc được nhiều tổ chức nghiên cứu đồng thuận dự báo tăng trưởng mạnh. Quy mô thị trường năm 2025 đạt 3,4–4,7 tỷ USD. Đến năm 2030, con số này sẽ mở rộng lên 9,5–15,6 tỷ USD, và đến năm 2035 dự kiến đạt 38,5 tỷ USD. Với CAGR từ 15–27%, đây là một trong những lĩnh vực có tốc độ tăng trưởng cao nhất trong toàn ngành AI.

Riêng thị trường điện toán cảm xúc đa phương thức (multimodal affective computing), quy mô sẽ tăng gấp đôi từ 7 tỷ USD năm 2025 lên 14,4 tỷ USD vào năm 2030. Bắc Mỹ là thị trường lớn nhất năm 2025, nhưng châu Á–Thái Bình Dương là khu vực tăng trưởng nhanh nhất.

Triển vọng tương lai

2026–2027: Hệ thống giám sát lái xe sẽ được trang bị tiêu chuẩn trên các mẫu xe của các nhà sản xuất OEM lớn. Việc EU AI Act được áp dụng toàn diện (tháng 8/2026) sẽ cấm AI cảm xúc trong môi trường làm việc và giáo dục, trong khi thúc đẩy triển khai hợp pháp trong lĩnh vực y tế và an toàn. Google sẽ nâng cấp đáng kể khả năng đối thoại cảm xúc của Gemini thông qua công nghệ Hume AI, biến AI cảm xúc thành tính năng tiêu chuẩn của các mô hình nền tảng.

2028–2030: Độ chính xác của tích hợp đa phương thức đạt trên 90%, siêu dữ liệu cảm xúc thời gian thực trở thành tiêu chuẩn phân phối nội dung. Cá nhân hóa dựa trên cảm xúc sẽ phổ biến trên các nền tảng streaming, quảng cáo và game. Chẩn đoán sức khỏe không xâm lấn thông qua chỉ dấu sinh học giọng nói bắt đầu nhận được phê duyệt FDA.

Sau năm 2030: Siêu dữ liệu cảm xúc sẽ trở thành dữ liệu đi kèm tiêu chuẩn của nội dung video và âm thanh, ngang hàng với phụ đề và timecode. AI có khả năng hiểu cảm xúc con người sẽ có lợi thế cạnh tranh áp đảo so với AI không có khả năng này. Trong tổng tác động kinh tế của AI đa phương thức mà McKinsey ước tính (hàng nghìn tỷ USD mỗi năm), AI cảm xúc sẽ là một cấu phần chủ chốt.

VentureBeat, trong bài viết đưa tin về khoản đầu tư 50 triệu USD vào Hume AI, đã nhận định:

"Bước đột phá lớn tiếp theo của AI chính là hiểu được cảm xúc."

Quan điểm này đang ngày càng được củng cố vững chắc bởi việc Google DeepMind thu hút nhân tài từ đội ngũ Hume AI, dữ liệu thực chứng 5 năm của Mars, quyết định trang bị trên các mẫu xe 2026 của BMW/Honda/Volvo, và sự hỗ trợ 5 năm từ Bộ Nội vụ và Truyền thông Nhật Bản.

Tác động đến ngành

Thứ nhất, Emotional Capture có tiềm năng thay đổi căn bản sự tương tác giữa AI và con người. Một AI không hiểu cảm xúc sẽ chỉ là "công cụ", nhưng một AI hiểu cảm xúc có thể trở thành "người bạn đồng hành". Như EVI của Hume AI đã chứng minh, đối thoại bằng giọng nói với trí tuệ cảm xúc tạo ra trải nghiệm người dùng khác biệt về chất so với các chatbot truyền thống.

Thứ hai, tác động lên ngành quảng cáo và marketing đã được chứng minh thực tế. Sự hợp tác giữa Mars và Realeyes cho thấy metadata cảm xúc có thể dự đoán mức tăng doanh thu quảng cáo với độ chính xác 75%. Đây là một chiều đo lường hiệu quả mới, bổ sung cho các chỉ số digital marketing truyền thống vốn phụ thuộc vào A/B testing và tỷ lệ nhấp chuột.

Thứ ba, trong ngành ô tô, hệ thống giám sát lái xe sẽ trở thành tính năng tiêu chuẩn trên cả hai phương diện an toàn và tiện nghi. 84 hợp đồng sản xuất hàng loạt của Smart Eye/Affectiva và quan hệ đối tác với 12 OEM lớn cho thấy công nghệ này đã vượt qua giai đoạn thử nghiệm và bước vào giai đoạn sản xuất đại trà.

Thứ tư, trong lĩnh vực chăm sóc sức khỏe, chẩn đoán không xâm lấn thông qua biomarker giọng nói có tiềm năng cách mạng hóa việc phát hiện sớm và chăm sóc sức khỏe tâm thần. Như Vocalis Health cho thấy, công nghệ phát hiện bệnh tim và bệnh thần kinh từ những thay đổi tinh tế trong giọng nói gợi mở tương lai có thể thực hiện sàng lọc sức khỏe chỉ bằng một chiếc điện thoại thông minh.

Thứ năm, tại Nhật Bản, sự hỗ trợ 5 năm của Bộ Tổng vụ và việc xây dựng nền tảng dữ liệu ngũ giác × não bộ sẽ quyết định sức cạnh tranh quốc tế của AI cảm xúc. Việc thương mại hóa của NEC, NTT và PKSHA Technology sẽ đẩy nhanh quá trình triển khai trên thị trường Nhật Bản.

Thứ sáu, các quy định của EU AI Act không cản trở mà có tác dụng định hướng đổi mới. Lệnh cấm tại nơi làm việc và trong giáo dục tạo ra áp lực phát triển AI cảm xúc không phải như công cụ giám sát mà như công cụ tạo ra giá trị trong y tế, an toàn và giải trí. Khung đạo đức của Hume AI là mô hình tiêu biểu cho định hướng này.

Tài liệu tham khảo: Rosalind Picard "Affective Computing" (MIT Press, 1997), Paul Ekman, Facial Action Coding System (FACS), Lisa Feldman Barrett "Theory of Constructed Emotion" (PMC, 2017), Alan Cowen, Semantic Space Theory (SST), Hume AI Series B $50M (EQT Ventures, Union Square Ventures, Comcast Ventures, LG Technology Ventures), Hume AI EVI 3 (2025/5), Hume AI EVI4-mini (2026/1, hỗ trợ 11 ngôn ngữ), Google DeepMind tuyển dụng CEO Hume AI Alan Cowen (TechCrunch, PYMNTS, 2026/1), Hợp tác Hume AI + Anthropic Claude, Smart Eye mua lại Affectiva $73.5M (TechCrunch, 2021/5), Affectiva 84 hợp đồng sản xuất hàng loạt / hợp tác với 12 trong số Top 20 OEM thế giới, Realeyes + Mars dự đoán mức tăng doanh thu quảng cáo độ chính xác 75%, Entropik Series B $25M (Bessemer Venture Partners, SIG), Cogito cải thiện mức độ hài lòng khách hàng 20%, Uniphore mua lại Emotion Research Lab (2021/1), Vocalis Health (Beyond Verbal + Healthymize) $9M (aMoon), Apple mua lại Emotient (Fortune, 2016/1), Amazon Halo ngừng hoạt động (GeekWire, 2023/4), MorphCast AI cảm xúc native trên trình duyệt, Dubformer $3.6M seed (Almaz Capital, 2025), Nature "MemoCMT Cross-Modal Transformer" (2025), Wiley "Advancements in Emotion Classification", Nature "EmoWear Dataset", PMC "Comprehensive Review of Multimodal Emotion Recognition", EU AI Act Điều 5(1)(f) cấm suy luận cảm xúc tại nơi làm việc và trong giáo dục (có hiệu lực 2025/2), Illinois BIPA Luật bảo mật dữ liệu sinh trắc học, ACM FAccT 2025 "Distinguishing Emotion AI", Hume Initiative 6 nguyên tắc đạo đức, Bộ Tổng vụ Nhật Bản hỗ trợ phát triển "AI thế hệ mới đọc cảm xúc" 5 năm (Nikkei Shimbun, 2025), NICT + Đại học Osaka Cơ sở dữ liệu hoạt động não ngũ giác, NEC biển quảng cáo phân tích cảm xúc, NTT EMPAC Dataset, PKSHA Speech Insight, Research and Markets Emotion AI Market $4.71B (2025), Fortune Business Insights $3.4B (2025), Mordor Intelligence $4.52B/$9.47B (2025/2030), EIN Presswire $15.57B (2030), Roots Analysis $38.50B (2035), VentureBeat "Is AI's Next Big Leap Understanding Emotion?", Contrary Research Hume AI, GM Insights Emotion AI Market 2025-2034, GitHub: DeepFace (serengil/deepface, 22.4K stars, MIT), GitHub: OpenFace 2.0 (TadasBaltrusaitis/OpenFace, 7.6K stars), GitHub: OpenFace 3.0 (CMU-MultiComp-Lab/OpenFace-3.0), GitHub: EmotiEffLib (sb-ai-lab/EmotiEffLib, Apache-2.0, hạng 1 ABAW), GitHub: Py-Feat (cosanlab/py-feat, MIT, đăng trên Affective Science), GitHub: MediaPipe (google-ai-edge/mediapipe, 34.5K stars, Apache-2.0), GitHub: SpeechBrain (speechbrain/speechbrain, 11.4K stars, Apache-2.0), GitHub: emotion2vec (ddlBoJack/emotion2vec, ACL 2024), GitHub: SenseVoice (FunAudioLLM/SenseVoice, 7.9K stars, Alibaba), GitHub: openSMILE (audeering/opensmile, TU Munich/audEERING), GitHub: librosa (librosa/librosa, 8.3K stars, ISC), GitHub: Whisper (openai/whisper, 97K stars, MIT), GitHub: FunASR (modelscope/FunASR, 15.5K stars, MIT), GitHub: Emotion-LLaMA (ZebangCheng/Emotion-LLaMA, BSD-3, đa phương thức), GitHub: EmoBox (emo-box/EmoBox, INTERSPEECH 2024, 32 bộ dữ liệu/14 ngôn ngữ), GitHub: conv-emotion (declare-lab/conv-emotion, MIT, nhận dạng cảm xúc trong hội thoại), Hugging Face: SamLowe/roberta-base-go_emotions (28 cảm xúc, GoEmotions), Hugging Face: speechbrain/emotion-recognition-wav2vec2-IEMOCAP, Dataset: FER2013, AffectNet, RAVDESS, IEMOCAP, MELD, GoEmotions