情感捕捉——将情绪转化为数据的技术

情感捕捉(Emotional Capture)是指从视频、音频、生物信号等来源实时检测人类情感状态,并将其作为结构化元数据输出的技术总称。正如动作捕捉将身体动作数据化一样,情感捕捉将情感动作数据化。

其基础是情感计算(Affective Computing)。MIT媒体实验室的Rosalind Picard教授于1995年发表了同名论文,并于1997年由MIT出版社出版了著作《Affective Computing》,从而确立了这一领域。Picard的主张简明扼要:

"如果我们真的想让计算机拥有智能,并与人类进行自然交互,就必须赋予它们识别、理解情感,乃至拥有和表达情感的能力。"

神经科学研究反复证实,情感在决策、感知和学习中发挥着至关重要的作用。不理解情感的AI,无法成为真正意义上理解人类的AI。

情感捕捉的输出与传统"积极/消极/中性"这种简单的情感分析完全不同。Hume AI对53维语言情感空间、48维面部表情空间、48维语音韵律空间进行映射,生成不局限于"喜悦""愤怒"等6种基本情感的、连续且多维度的情感元数据。

研究历史——从Ekman的6种基本情绪到语义空间理论

情感捕捉的科学基础建立在三大主要理论流派之上。

Paul Ekman的基本情绪理论(1960年代~)。心理学家Paul Ekman于1968年在巴布亚新几内亚与世隔绝的部落中验证了面部表情的普遍性,主张愤怒、惊讶、厌恶、喜悦、恐惧、悲伤这6种基本情绪跨越文化而具有普遍性。Ekman开发的FACS(面部动作编码系统)将面部肌肉运动分解为28个动作单元(AU),通过各种组合来推断情绪,构成了一套完整的体系。如今,绝大多数基于人脸识别的情感AI都深受FACS的影响。

Lisa Feldman Barrett的建构主义情绪理论(2006年~)。东北大学心理学家Lisa Feldman Barrett正面挑战了Ekman的普遍性主张。Barrett的建构情绪理论(Theory of Constructed Emotion,TCE)认为,情绪并非对外部世界的反射性反应,而是大脑以预测性方式即时建构的产物。同样的身体感觉,有人解读为"愤怒",另一人则解读为"胃痛"。情绪的粒度(granularity)因人而异,差异显著,普遍性类别不过是一种幻觉——Barrett甚至断言:"基于压倒性证据,经典观点已经败北。"

Alan Cowen的语义空间理论(2017年~)。Hume AI创始人Alan Cowen提出了既不同于6类别框架、也有别于建构主义的第三种立场。语义空间理论(Semantic Space Theory,SST)采用数据驱动的方式,对整个情绪空间进行全面映射。研究者以海量音声、表情和语言刺激为素材,结合多样化的情绪标签开展大规模实验,结果表明情绪既非离散类别,也非简单维度,而是分布于一个连续的高维语义空间之中。这正是Hume AI 53维情绪模型的理论依据。

这三种理论立场——普遍主义(Ekman)、建构主义(Barrett)、语义空间主义(Cowen)——至今尚无定论。然而,从技术层面看,基于SST的方法能够生成精度最高的情感元数据,在产业应用中事实上正逐渐成为行业标准。

技术方法——捕捉情感的4种模态

情感捕捉从多种模态(输入通道)中提取并整合情感信息。

面部表情识别(视觉模态)

通过摄像头捕捉面部动作,将其分解为FACS的28个动作单元(Action Unit)进行实时分析。检测眉毛上抬(AU1+AU2)、鼻皱(AU9)、嘴角上扬(AU12)、下颌张开(AU26)等细微肌肉运动,并从这些组合中推断情感。

微表情的检测是情感捕捉的最前沿。仅持续零点几秒的细微面部动作,即便当事人有意识地加以抑制,也会流露出"真实情感"的线索。AI能够检测到人眼无法捕捉的高速微表情。

Affectiva(现为Smart Eye)拥有来自87个国家、超过1,000万张人脸数据训练而成的全球最大情感数据集,可实时检测28个动作单元。

语音情感识别(音频模态)

从语音的韵律——音高、节奏、强度、时长——中推断情感。音高变化是情感韵律最显著的特征,高音高暗示兴奋、喜悦、惊讶,低音高则暗示悲伤与平静。语速变化、停顿插入、音量波动也是重要信号。

Cogito公司的系统对200余种声学与语音信号进行实时分析,为呼叫中心坐席提供情感引导。Hume AI的EVI在48维语音情感空间中对韵律进行分析。

多模态融合(Multimodal Fusion)

这一方法将面部表情、语音模式、文本数据乃至生理信号整合到统一模型中。与单一模态相比,精度提升15~20%,2022年以来超过40%的学术研究采用了三模态结构或基于Transformer的跨模态融合架构。

2025年发表于《自然》的论文"MemoCMT"提出了基于跨模态Transformer的特征融合方法,"EA-FUSION"实现了EEG与面部表情数据的整合,"HyFusER"则通过双重跨模态注意力机制实现了混合融合。

可穿戴生物信号(生理模态)

皮肤电活动(EDA)、心率变异性(HRV)、血容量脉搏(BVP)、皮肤温度、脑电图(EEG)等生理信号同样可用于情感推断。研究人员正探索利用智能手表的加速度计与陀螺仪数据及EEG头带,结合LSTM-GRU集成架构进行情感分类。

主要服务与产品——引领市场的企业们

Hume AI——映射53维情感空间

2021年由Alan Cowen(心理学博士)创立的Hume AI,是情感AI领域最受瞩目的企业。公司完成了由EQT Ventures主导,Union Square VenturesComcast VenturesLG Technology Ventures参与的B轮5000万美元融资,累计融资7400万至8000万美元。

主力产品Empathic Voice Interface(EVI)是具备情感智能的语音对话AI。EVI 3(2025年5月)实现了10万以上自定义语音、300ms以内的响应及1.2秒的实用延迟,性能超越GPT-4o和Gemini Live API。EVI4-mini(2026年1月)支持包括日语在内的11种语言。

Expression Measurement API以音频/视频为输入,输出53维(语言)、48维(面部表情)、48维(语音韵律)的情感元数据。定价为音频/视频每分钟$0.08,文本每词$0.00024,具备商业落地的现实价格区间。

2026年1月,Google DeepMind挖走了Hume AI的CEO Alan Cowen及工程师团队,将其投入Gemini语音功能的强化工作。Hume AI随后签署许可协议,迎来Andrew Ettinger担任CEO,以独立企业身份继续运营。此举是谷歌认可情感AI战略价值的标志性事件。

与Anthropic的合作也颇为深入。Claude模型占EVI配置的36%,拥有超过100万次对话、近200万分钟的交互记录。

Smart Eye/Affectiva——汽车行业情感AI标准

2009年从MIT媒体实验室分拆,由Rosalind Picard教授共同创立的Affectiva,于2021年被瑞典Smart Eye以7350万美元收购。

公司拥有涵盖87个国家、超过1000万张人脸数据的全球最大情感数据集,已获得84项量产合同,并与全球前20大OEM中的12家达成合作。宝马、本田、沃尔沃的2026年款车型将标配驾驶员情感监测功能。系统可检测疲劳、压力与注意力分散并发出警报,同时根据情感状态自动调节车内环境(温度、音乐、照明)。

Realeyes——以情感预测广告效果

广告视频情感分析领域的领导者Realeyes每月处理800万以上的视频播放量。其与Mars公司的合作尤为值得关注。双方历时两年,构建了涵盖22000人、149支广告、35个品牌、6个市场的数据库,验证了情感测量技术能以75%的精度预测广告销售提升效果。Mars公司基于此结果,将旗下全线Tier 1品牌70%的媒体支出集中配置于高绩效广告,并连续5年以上实现每年数千万美元的销售提升。

可口可乐、联合利华、好时也在其客户名单之列。

Entropik Technologies——多模态消费者洞察

2016年在印度班加罗尔成立的Entropik,完成了由Bessemer Venture Partners和SIG风险投资主导的B轮2500万美元融资。公司提供整合脑波映射、面部编码与眼动追踪的多模态平台"Affect Lab",目前已有150余个全球品牌在使用。

其他值得关注的企业

Cogito专注于呼叫中心情感AI,实时分析200余种声学与语音信号,可将客户满意度提升最高20%Uniphore收购了西班牙的Emotion Research Lab,将语音情感分析整合至联络中心。Vocalis Health(原Beyond Verbal)是以色列的声纹情感分析企业,致力于通过声音生物标志物诊断心脏病、睡眠障碍与神经系统疾病。MorphCast提供浏览器原生的无服务器情感AI SDK。新兴企业Dubformer专注于AI情感迁移配音,于2025年初完成了由Almaz Capital主导的360万美元种子轮融资。

开源推动情感识别的民主化

情感捕捉技术不仅在商业服务领域,也通过开源库群得到了迅速普及。研究人员和初创企业正逐渐具备从零开始构建情感识别系统的条件。

面部表情识别领域的开源软件

DeepFace(GitHub 22,469 星,MIT 许可证)是目前使用最广泛的面部识别与表情分析 Python 库。只需一行 pip install deepface 即可安装,它封装了 VGG-Face、FaceNet、ArcFace 等多种面部识别模型,能够将情感分为愤怒、厌恶、恐惧、喜悦、悲伤、惊讶、中性 7 个类别。同时支持实时视频分析。

OpenFace 2.0(7,610 星,CMU MultiComp Lab)是基于 FACS 的学术标准工具,可实时检测 18 个动作单元(Action Unit)。它整合了面部关键点检测、头部姿态估计和视线估计,是情感识别研究中被引用最多的工具之一。2025 年,基于 Python 的 OpenFace 3.0 也已发布,整合了 RetinaFace 面部检测与 STAR 关键点检测,支持 AU、情感与视线的多任务分析。

EmotiEffLib(原名 HSEmotion,Apache-2.0 许可证)是在 ABAW(野外情感行为分析)竞赛中荣获第一名的轻量级库。它同时支持 PyTorch 和 ONNX 两种后端,可对图片和视频进行实时情感与参与度识别。

Py-Feat(MIT 许可证,发表于 Affective Science 期刊)是一个面部表情数据检测、预处理、分析与可视化的综合工具箱。可从图像和视频中检测 7 种情感及动作单元,并内置 t 检验、回归分析等统计分析工具。

谷歌的 MediaPipe(34,482 星,Apache-2.0)虽非专为情感识别设计,但可实时输出 468 个 3D 面部关键点和 52 个混合形状分数,被广泛用作构建情感分类器的基础。同时支持在移动端和边缘设备上运行。

语音情感识别领域的开源软件

SpeechBrain(11,410 星,Apache-2.0)是基于 PyTorch 的综合语音工具包。它提供了在 IEMOCAP 数据集上微调的 wav2vec2 情感识别模型,并可与 Hugging Face 无缝集成。除语音识别、说话人识别、语音增强外,还包含情感识别的训练方案。

emotion2vec(1,089 星,发表于 ACL 2024)是首个通过自监督预训练获得的通用语音情感表示模型。提供 9 类情感分类的 emotion2vec+ 模型(seed/base/large),在中文、法语、德语、意大利语等多种语言上达到了最高精度,大幅超越 Hugging Face 上的其他开源模型。

阿里巴巴的 SenseVoice(7,907 星)是一个整合了语音识别、语言识别、情感识别与音频事件检测的语音基础模型。支持中文、粤语、英语、日语和韩语,无需在目标数据上微调即可超越现有最优模型的性能。

openSMILE(794 星,慕尼黑工业大学 / audEERING 开发)在情感识别语音特征提取领域拥有行业标准地位。可提取 MFCC、韵律特征、频谱特征,并提供 eGeMAPS、ComParE 等标准特征集。支持 Linux、Windows、macOS、Android、iOS 和 Raspberry Pi。

OpenAI 的 Whisper(97,053 星,MIT 许可证)是通用语音识别模型,但其经过微调的衍生模型已被应用于情感识别。在 RAVDESS/SAVEE/TESS 数据集上微调的 Whisper-large-v3,在 7 类情感识别上达到了约 92% 的精度。

多模态情感识别领域的开源软件

Emotion-LLaMA(550 星,BSD-3 许可证)是基于 LLM 的多模态情感识别与推理的先驱模型。它通过基于 LLaMA 的统合模型处理 HuBERT(音频)、VideoMAE(视频)、EVA/MAE(视觉)和文本,不仅能识别情感,还能进行推理(分析为何产生该情感)。

EmoBox(314 星,发表于 INTERSPEECH 2024)是覆盖 32 个数据集、14 种语言的多语言、多语料库语音情感识别基准工具包。对 10 个预训练语音模型进行了基准测试,提供了最全面的 SER(语音情感识别)基准评测。

主要数据集

开源情感识别软件的背后,有着丰富公开数据集的支撑。基于图像的 FER2013(约 35,887 张,7 种情感)、大规模的 AffectNet(约 100 万张,8 种情感 + 效价/唤醒度)、音频+视频的 RAVDESS(7,356 个文件,8 种情感)、音频+视频+文本的 IEMOCAP(约 12 小时,最多 9 种情感)、源自电视剧《老友记》的 MELD(13,000 余条话语,7 种情感 + 3 种情感极性)、Reddit 评论的 GoEmotions(58,000 条,28 种情感)等,涵盖多种模态与规模的数据集支撑着这一领域的研究。

随着这些开源软件和数据集的不断完善,情感捕捉技术已不再是大型企业的专属领域。个人开发者和初创企业可以将 DeepFace(图像)、SpeechBrain(音频)、Emotion-LLaMA(多模态)组合使用,自主构建情感元数据生成流水线的时代已经到来。

应用领域——情感元数据改变的产业

客户服务

呼叫中心是情感AI最大的商业市场。Cogito的系统对客服人员的通话进行实时分析,检测到客户的挫败感时,会显示"请放慢语速说明"、"请柔和语调"等引导提示。这可使客户满意度最高提升20%。Uniphore通过语音情感分析检测通话者的情绪,能够在升级处理前进行介入。

医疗健康与心理健康

情感AI在医疗健康领域的应用,是社会影响力最大的领域。Woebot通过文字和语音检测焦虑、悲伤和压力,提供基于CBT(认知行为疗法)的谈话治疗。由国家生物医学计算中心开发的Ellie,通过面部表情、声音音调和言语模式评估心理状态。在医院中,该技术被用于语言障碍患者、老年人和儿童的情感监测。

Vocalis Health的声音生物标志物技术,具备通过声音的细微变化,以非侵入性方式诊断心力衰竭、睡眠呼吸暂停和神经系统疾病的潜力。

汽车(驾驶员监测)

Smart Eye/Affectiva已与全球前20大OEM中的12家签订了84项量产合同。宝马、本田、沃尔沃将在2026年款车型中标配情感监测功能。系统实时检测驾驶员的疲劳、压力和注意力分散状态,发出警报并建议休息。此外,还将实现基于情感的车内环境自动调节——当压力较高时,自动切换至舒缓音乐、降低温度、将照明调整为暖色调。

广告与营销

Mars公司与Realeyes的合作,是最清晰地证明情感元数据商业价值的案例。通过情感测量以75%的准确率预测广告的销售提升效果,将70%的媒体支出分配给高绩效广告,由此实现了连续5年以上、每年数千万美元的销售提升。

游戏与娱乐

基于玩家情感动态调整游戏难度、故事走向和背景音乐的自适应游戏正在被研究。在流媒体平台上,基于观众情感状态的内容推荐是下一个前沿方向。Netflix 80%的观看行为源于AI推荐,而引入情感元数据有望进一步提升推荐精准度。

内容制作

Dubformer专注于AI配音中的情感迁移——将原语言的情感表达忠实地转写至配音语言。此外,在视频帧级别生成情感元数据、实现基于场景推荐的技术也正在开发之中。

伦理与监管——欧盟AI法案的冲击与负责任的创新

EU AI法(2025年2月生效)

EU AI法对情感推断AI施加了最严格的监管。第5条第1款第(f)项明确禁止在职场和教育机构设置及使用AI情感推断系统。违规者将面临最高3,500万欧元或全球年营业额7%(以较高者为准)的罚款。

具体禁止的行为包括:呼叫中心通过网络摄像头和语音识别对员工情绪进行追踪、教育机构对学生兴趣和注意力的推断,以及招聘流程中的情感识别。但医疗目的和安全目的(如驾驶员疲劳检测、飞行员注意力监控等)作为例外被允许。

偏见与公平性

情感AI的偏见问题十分严峻。多项研究报告指出,深肤色人群、男性以及不同文化背景的人存在较高的误识别率。训练数据多样性不足、对面部表情普遍性的错误假设,以及神经系统状况或残障导致的情感表达差异,都存在引发歧视性结果的风险。ACM FAccT 2025的研究表明,残障人士和性别少数群体对情感AI的数据收集持负面态度。

Hume AI的伦理框架

Hume AI成立了The Hume Initiative,制定了六项伦理原则:Beneficence(善行)、Emotional Primacy(情感优先性)、Scientific Legitimacy(科学合法性)、Inclusivity(包容性)、Transparency(透明性)、Consent(知情同意)。其中"不得允许AI将人类情感作为工具对待"这一原则,为情感AI的商业应用划定了明确界限。将输出结果视为"对复杂表达行为的测量"而非"对情感的直接推断"——这一区分在科学上和伦理上都具有重要意义。

日本动态——五感×脑数据基础架构建设启动

在日本,政府主导的情感AI基础设施建设已经起步。

总务省将从2026年度起,历时约5年,支持"能够读取情感的下一代AI"的研发。计划向NICT(情报通信研究机构)与大阪大学的联合研究项目拨付预算,构建嗅觉、触觉、味觉等五感脑活动数据库。政府将2030年代的"脑信息通信"列为重点领域,以国家战略推进情感AI基础技术的发展。

NEC推出情感分析数字标牌"精准广告标牌",可即时判断来店顾客的年龄、性别与表情,并实时展示最匹配的商品视频。公司目标是在全球3600亿日元规模的市场中占据领先份额。

NTT通信科学基础研究所通过对面部表情和语音的分析,建立了心理状态变化模型,并公开发布了共情影像刺激数据集(EMPAC Dataset)。该数据集涵盖愤怒、厌恶、恐惧、喜悦、悲伤、惊讶六大情感类别的情绪诱发影像及评分数据,向研究社区免费提供。

PKSHA Technology旗下的"PKSHA Speech Insight"是面向联络中心的AI语音识别与分析平台,通过对通话中情感的实时分析,实现客户投诉的早期预警。

市场规模与未来展望

市场预测

情感AI市场已获得多家研究机构一致看好的高增长预测。2025年市场规模为34亿至47亿美元(约5100亿至7050亿日元)。预计到2030年将扩大至95亿至156亿美元(约1.425万亿至2.34万亿日元),2035年有望达到385亿美元(约5.775万亿日元)。复合年增长率(CAGR)为15%至27%,是整个AI领域增速最高的细分市场之一。

仅就多模态情感计算市场而言,将从2025年的70亿美元增至2030年的144亿美元,实现翻番。北美是2025年最大市场,但亚太地区是增速最快的地区。

未来展望

2026~2027年:驾驶员监测系统将成为主要OEM车型的标配。随着《欧盟AI法案》全面实施(2026年8月),职场与教育领域的情感AI将被禁止,而医疗与安全领域的合规部署将加速推进。谷歌借助Hume AI的技术大幅提升Gemini的情感对话能力,情感AI将成为基础模型的标准功能。

2028~2030年:多模态融合精度将突破90%,实时情感元数据成为内容分发的标配。基于情感的个性化推荐将在流媒体平台、广告及游戏领域广泛普及。基于声音生物标志物的无创健康诊断开始获得FDA批准。

2030年以后:情感元数据将成为视频和音频内容的标准附属数据,与字幕和时间码同等对待。能够理解人类情感的AI将对不具备该能力的AI形成压倒性的竞争优势。在麦肯锡预估的多模态AI经济影响(每年数万亿美元)中,情感AI将成为核心组成部分。

VentureBeat在报道Hume AI获得5000万美元投资的文章中写道:

"AI的下一次重大飞跃,在于情感理解。"

这一判断正通过以下事实得到稳步印证:Google DeepMind挖角Hume AI团队、玛氏公司五年实证数据、宝马/本田/沃尔沃确定搭载于2026年款车型,以及日本总务省五年期资金支持。

对行业的影响

第一,情感捕捉具有从根本上改变AI与人类交互方式的潜力。无法理解情感的AI只能停留在"工具"层面,而能够理解情感的AI则有望成为"伴侣"。正如Hume AI的EVI所展示的那样,具备情感智能的语音交互能够带来与传统聊天机器人截然不同的用户体验。

第二,其对广告与营销行业的影响已经得到实证。Mars公司与Realeyes的合作表明,情感元数据能够以75%的精度预测广告的销售提升效果。这是一个全新的效果衡量维度,可以补充依赖A/B测试和点击率的传统数字营销指标。

第三,在汽车行业,驾驶员监控将在安全性与舒适性两方面成为标准配置功能。Smart Eye/Affectiva的84份量产合同以及与12家主要OEM厂商的合作,意味着这项技术已经超越实验阶段,正式进入量产阶段。

第四,在医疗健康领域,基于声音生物标志物的非侵入式诊断有望为心理健康的早期发现与护理带来革命性变化。正如Vocalis Health所展示的,通过声音的细微变化检测心脏疾病和神经系统疾病的技术,预示着一个仅凭一部智能手机即可进行健康筛查的未来。

第五,在日本,总务省的5年期支持以及五感×脑数据基础设施的构建,将左右情感AI的国际竞争力。NEC、NTT、PKSHA Technology的商业化部署将加速日本市场的落地实施。

第六,欧盟AI法案的监管并非阻碍创新,而是具有引导创新方向的效果。对职场和教育场景的禁止规定,将推动情感AI从监控工具转型为医疗、安全与娱乐领域的价值创造工具。Hume AI的伦理框架正是这一方向的典范案例。


参考信息: Rosalind Picard《Affective Computing》(MIT Press, 1997), Paul Ekman, Facial Action Coding System (FACS), Lisa Feldman Barrett《Theory of Constructed Emotion》(PMC, 2017), Alan Cowen, Semantic Space Theory (SST), Hume AI B轮融资$50M (EQT Ventures, Union Square Ventures, Comcast Ventures, LG Technology Ventures), Hume AI EVI 3 (2025/5), Hume AI EVI4-mini (2026/1, 支持11种语言), Google DeepMind挖角Hume AI CEO Alan Cowen (TechCrunch, PYMNTS, 2026/1), Hume AI + Anthropic Claude合作, Smart Eye收购Affectiva $73.5M (TechCrunch, 2021/5), Affectiva 84份量产合同 / 与全球Top20 OEM中12家合作, Realeyes + Mars公司 广告销售提升预测75%精度, Entropik B轮融资$25M (Bessemer Venture Partners, SIG), Cogito 客户满意度提升20%, Uniphore收购Emotion Research Lab (2021/1), Vocalis Health (Beyond Verbal + Healthymize) $9M (aMoon), Apple收购Emotient (Fortune, 2016/1), Amazon Halo终止 (GeekWire, 2023/4), MorphCast 浏览器原生情感AI, Dubformer $3.6M种子轮 (Almaz Capital, 2025), Nature《MemoCMT Cross-Modal Transformer》(2025), Wiley《Advancements in Emotion Classification》, Nature《EmoWear Dataset》, PMC《Comprehensive Review of Multimodal Emotion Recognition》, 欧盟AI法案第5(1)(f)条 禁止职场及教育场所的情感推断 (2025/2施行), 伊利诺伊州BIPA 生物特征数据隐私法, ACM FAccT 2025《Distinguishing Emotion AI》, Hume Initiative 6项伦理原则, 总务省"读取情感的下一代AI"5年开发支持 (日经新闻, 2025), NICT + 大阪大学 五感脑活动数据库, NEC 情感分析标牌, NTT EMPAC Dataset, PKSHA Speech Insight, Research and Markets情感AI市场规模$47.1亿 (2025), Fortune Business Insights $34亿 (2025), Mordor Intelligence $45.2亿/$94.7亿 (2025/2030), EIN Presswire $155.7亿 (2030), Roots Analysis $385亿 (2035), VentureBeat《AI的下一个重大飞跃是理解情感吗?》, Contrary Research Hume AI, GM Insights情感AI市场2025-2034, GitHub: DeepFace (serengil/deepface, 22.4K stars, MIT), GitHub: OpenFace 2.0 (TadasBaltrusaitis/OpenFace, 7.6K stars), GitHub: OpenFace 3.0 (CMU-MultiComp-Lab/OpenFace-3.0), GitHub: EmotiEffLib (sb-ai-lab/EmotiEffLib, Apache-2.0, ABAW第1名), GitHub: Py-Feat (cosanlab/py-feat, MIT, 发表于Affective Science), GitHub: MediaPipe (google-ai-edge/mediapipe, 34.5K stars, Apache-2.0), GitHub: SpeechBrain (speechbrain/speechbrain, 11.4K stars, Apache-2.0), GitHub: emotion2vec (ddlBoJack/emotion2vec, ACL 2024), GitHub: SenseVoice (FunAudioLLM/SenseVoice, 7.9K stars, Alibaba), GitHub: openSMILE (audeering/opensmile, TU Munich/audEERING), GitHub: librosa (librosa/librosa, 8.3K stars, ISC), GitHub: Whisper (openai/whisper, 97K stars, MIT), GitHub: FunASR (modelscope/FunASR, 15.5K stars, MIT), GitHub: Emotion-LLaMA (ZebangCheng/Emotion-LLaMA, BSD-3, 多模态), GitHub: EmoBox (emo-box/EmoBox, INTERSPEECH 2024, 32个数据集/14种语言), GitHub: conv-emotion (declare-lab/conv-emotion, MIT, 对话情感识别), Hugging Face: SamLowe/roberta-base-go_emotions (28种情感, GoEmotions), Hugging Face: speechbrain/emotion-recognition-wav2vec2-IEMOCAP, Dataset: FER2013, AffectNet, RAVDESS, IEMOCAP, MELD, GoEmotions