情感计算

✍ dations ◷ 2025-07-04 15:58:23 #情感计算

情感计算（英语：Affective computing，亦作人工情感智能，英语：artificial emotional intelligence，或情感AI，英语：emotion AI）是一个跨学科领域，涉及计算机科学、心理学和认知科学，旨在研发能够识别、解释、处理、模拟人类情感的系统。虽然该学科最早可追溯至早期的哲学研究，即人们对情绪的剖析，但真正使其成为现代计算机科学分支的，则是1995年罗莎琳·皮卡德发表的关于情感计算的论文。人们研究情感计算很大程度上是为了能够模拟共情——机器应该能够解释人类的情绪状态，做出相适应的行为，对情绪给予恰当的回应。

文本情感分析（英语：sentiment analysis）和情感分析的区别在于，前者仅辨识词语的情感极性，后者辨识人类的不同情绪。

在认知科学和神经科学中，描述人类感知，并对人类情感进行分类的模型主要有两种：连续模型（英语：continuous model）和分类模型（英语：categorical model）。若将可能的面部表情视作一个空间，那么连续模型将每个情绪的面部表情定义为该空间的特征向量（比如，该模型能够将不同的情绪解释为不同的表达强度）。相反，分类模型由数个不同的分类器组成，每个分类器各自侦测不同的情感。这个模型解释了许多现象。例如，如果在快乐与惊奇的表情图片之间插入变形序列的话，在这些过渡图像中，人们看到的要么是快乐要么是惊奇的神情，而不会认为是两者兼有。

中国自古代就有“喜、怒、哀、惧、爱、恶、欲”的“七情”说法，这便是情绪分类模型的一个例子。情绪的正确分类是心理学上历来的争议话题，现代心理学中对此大致有两种观点，一种认为情绪可以被割裂地划分为几类，另一种认为大部分情绪本质相同，仅仅是程度上存在差异。持分类模型态度的心理学家大多赞成将情感分为基础情感和复合情感。

维度情绪论是基本情绪论之外的另一种情绪研究观点，认为情绪固有性质存在度量，即维度（英语：dimension）。维度具有两个方向的极端，即极性（英语：polarity）。关于情感的连续模型并没有统一的标准评价其好坏，常见的连续情感模型有：

情感信息的检测会从被动式传感器开始，它能够捕捉到用户的生理状态、行为表现方面的原始数据，这些数据和人类用以觉察他人情感的线索很相似。例如，摄像机可以捕捉面部表情、身体姿势和手势，麦克风则可以捕捉语音。一些传感器还可以通过测量生理数据（如皮肤的温度和电势）来探测情感线索。

识别情感信息需要从收集的数据中提取有意义的模式，通常要用到多模态的机器学习技术（如语音识别、自然语言处理、面部表情检测）。处理的结果要么会被打上标签，要么会映射到“正负性—唤醒度（valence–arousal）”空间上的点。

设计一种计算设备，使其能够展现出天然的情感能力（或是至少令人信服地模拟出人类的情感），是情感计算的另一研究范围。基于现有的技术能力，模拟对话机器人的情感是更具可行性的一种做法，以此来丰富并推动人与机器之间的互动。正如人类的情感和激素水平以及神经肽的波动息息相关，机器中的情感可能会与其自动学习过程的进展（或无进展）的抽象状态相关联。以此观之，不论是人还是机器，情绪状态与其学习系统的学习曲线对时间的导数（即“扰动”）相关。

人工智能的先驱之一——马文·闵斯基，在《情感机器（英语：The Emotion Machine）》一书中将情感和机器智能这一更为广泛的概念联系了起来。他说，情感“和我们称之为‘思考’的过程并没有显著差别”。

这些方法有一个很重要的共同缺陷：它们只能从图像中检出一种情绪，也就是在应用了各种方法中胜出的那个情绪；但在日常生活中，我们总能从单一图像中感知到不止一种情感。分类和连续模型都无法识别多种情感，因此对情感建模有一种新方法，即将一小部分类别的重叠视为一个新类别。有关这一主题的详细研究请参见综述《人类对面部表情情感的感知模型：研究现状与展望（A model of the perception of facial expressions of emotion by humans: research overview and perspectives）》。

以下各节将介绍可用于情感识别的特征。

自主神经系统的各种变化可以对人的语音产生间接影响。情感技术可以利用这些信息来识别情感。例如，在恐惧、愤怒或欢乐的状态下产生的言语会变得快速、大声，更确切地说，音域会更宽更高；而在疲劳、无聊或悲伤等情绪下，语音倾向于变得缓慢、低沉与不清楚。有些情感被证实更容易通过计算识别，如愤怒或赞同。

情感语音处理技术可以利用语音特征的计算分析来识别用户情绪状态。模式识别技术可被应用于声学参数和韵律特征，例如音调高低和语速等。

语音分析可以高效地分析情感状态，在最近的研究中达到了70%至80%的正确率。这一正确率已经超过了普通人识别精度的均值（大约60%），但是比生理学或面部识别方法的正确率要低。然而，由于大多语音特征与文化或语义无关，研究者认为这是一个未来的研究前景方向。

进行语音/文本的情感检测需要建立可靠的数据库、知识库或者向量空间模型。为了适应各种应用，这些库或是模型涉及面应当足够广泛。另外，还需要选择出一个又快又准确的情感分类器。

目前，常用的分类器有线性分类器、k-近邻（k-NN）、高斯混合模型、支持向量机（SVM）、人工神经网络（ANN）、决策树算法和隐马尔可夫模型（HMM）。各种研究表明，选择合适的分类器可以大大提高系统的效率与精度。以下简要说明每个算法：

研究证实，有了足够的声音样本之后，人的情感可以被主流分类器所正确分类。文献建议使用的模型由以下三种组合而成：k-NN、C4.5决策树和径向基函数核的SVM。这一组合模型比每单个分类器性能都更好，也超过了使用混合核（英语：Hybrid kernels）的“一对多”（英语：one-against-all, OAA）多类SVM，以及C5.0决策树与神经网络的组合。

目前绝大多数的系统都是数据依赖的。选择一个恰当的数据库来训练分类器因而成为语音情感识别的首要问题。目前拥有的大部分数据是从演员获得的，都是一些典型的情绪表现。这些所谓的表演数据库大多基于保罗·艾克曼的基础情绪理论，其假设了六种基础情绪的存在，即愤怒、害怕、厌恶、惊奇、愉快和哀伤，而其他情绪仅仅是前六者的组合。

另一方面，对现实生活应用来说，自然数据更受青睐。通过观察并分析被试在自然情境下的行为，研究者可以建立自然情感的数据库。最终，自然数据库会帮助系统识别情境下的情绪，也可以用来发现交互的目标和结果。由于这类数据的自然性，可以真实自然地反映人机交互下的情感状态，也就可以应用于现实生活中的系统实现。

尽管自然数据相比表演数据有更多优势，然而自然数据难以获得，情感密度也更低。由于环境噪声的存在、被试与麦克风的距离较远，自然情境下获得的数据信号质量也因此更差。埃尔朗根-纽伦堡大学的AIBO情感资料库（FAU Aibo Emotion Corpus for CEICES, CEICES: Combining Efforts for Improving Automatic Classification of Emotional User States）是建立自然情感数据库的首次尝试，其采集基于10—13岁儿童与索尼AIBO宠物机器人玩耍的真实情境。同样，在情感研究领域，建立任何一个标准数据库，都需要提供评估方法，以比较不同情感识别系统的差异。

情感识别的复杂度随情感类别和语音叙词的增加而增加，因此选取最为相关的特征是必要的。这样做不仅可以确保模型识别情感的成功率，也可以提升计算性能，尤其对实时检测系统更要如此。可选项很多，有些研究曾提到超过200种不同的特征。最为常见的语音特征被归纳为以下列表：

面部表情的检测和处理可以利用隐马尔可夫模型和人工神经网络等方法，也可在多模态的检测中将各种方法组合或交融起来（多模态，例如面部表情和语音韵律结合、面部表情和手势结合、面部表情和语音与文本的多模态数据与元数据分析），以更加稳健地估计对象的情感状态。

建立情感数据库极其困难和耗时，然而其又是识别人类情感的必要步骤。大多公开的情感数据库仅包含摆拍的面部表情，在这样的数据库中，参与者会被要求摆出不同基础情感的对应表情；而在自然表情数据库中，面部表情是自发的。自然表情的发生需要选取恰当的刺激，这样才能引起目标表情的丰富展示。其次，这个过程需要受过训练的工作者为数据做标注，以实现数据库的高度可靠。因为表情及其强度的感知本质上是主观的，专家的标注对验证而言是十分重要的。

研究者接触到的数据库可能包括以下三种：峰值表情（英语：peak expression image）数据库、中性到峰值表情的图像序列数据库和打上了情感标注的视频片段。被广泛使用的开放表情数据库有CK+和JAFFE。

在20世纪60年代末，保罗·艾克曼在巴布亚新几内亚的法雷人部落中进行了跨文化研究，之后提出，情感所对应的面部表情是普遍的，与文化无关。因此他提议，面部表情是生物本能，可以安全、正确地被归类。此后，他于1972年正式提出六个基本的情感：

之后在1990年代，艾克曼在基本情感列表中加入了一系列的积极和消极的情绪。并不是所有这类情感都对应于面部肌肉新加入的情感如下：

依肌肉动作定义表情的方法已经被应用于情感生理表达的形式分类。在由保罗·艾克曼（Paul Ekman）和华莱士·V·弗里森（Wallace V. Friesen）提出的面部表情编码系统（英语：Facial Action Coding System, FACS）中，动作单位（英语：action unit, AU）是核心概念。即，一块多一组肌肉的收缩或舒张。尽管这一概念看起来简单，但已经足以建立和描述复杂的情感识别系统。

通过识别不同的面部特征，研究人员能够将其映射到相应的行为单元代码。据此，他们依这些单位提出了六种基本情绪的分类（“+”意思是“和”）：

正如计算领域的大多数问题一样，面部表情处理的情感检测也会遇到种种障碍需要克服，这样才能开发出选用算法的潜能。建模与追踪的准确性长久以来就是个问题，特别是在情感计算领域的早期。随着硬件的发展、新方法的创造与时间，精度缺乏的问题逐渐淡出，而噪声问题依旧。降噪的方法也是存在的，如邻域平均、线性高斯平滑、中值滤波等。比较新的方法还有菌群优化算法（英语：Bacterial Foraging Optimization Algorithm）。

一般认为面部表情识别的准确度等级（并非情感状态识别的准确度等级）还没有达到可以广泛应用的层次。曾经有过将这样的技术应用于执法的实践，例如辨识罪犯，但并不成功。在没有提升扫描人脸的软硬件精度的前提下，准确度的进步已大大放缓。

其他问题包括：

身体姿态是检测用户的特定情绪状态的有效手段，特别是与语音和脸部识别一起使用时。依动作的不同，身体姿态分为反射性的（如被问题问住时下意识的抬肩膀）、复杂与有意义的（如手语交流）等。在不借助外物或环境的情况下，我们可以挥手、拍手或招手；借助外物时，则可以指向、移动、触碰和持握。计算机应该做到识别这些信息，以更有效地应用于人机交互。

身体姿态的检测已经有了很多方法提出。一些文献将以下两种识别途径区别开来：基于三维模型的，和基于外观的（英语：appearance-based）。前者将肢体关键部位的三维信息利用起来，以获得若干重要参数，例如手掌位置和关节角度；后者则是直接利用图像或视频做解释。手势是身体姿态情感研究的一大集中领域，上文所提到的三维模型和外观方法都有在此使用。

生理信号可用以检测与分析情绪状态，这些生理信号通常包括脉搏、心率、面部肌肉每分钟收缩频率等。这一研究领域仍处于相对起步的阶段，但发展迅猛，并已经有实用的产品出现。常被用来分析情感的生理信号种类有血容量脉冲、皮肤电反应、面部肌电图等。

血容量脉冲（英语：blood volume pulse, BVP）通过光电容积描记法记录，该方法可以检测肢体末端的血流变化。记录峰值代表着心搏周期中血流被泵到肢体末端。当被试受到惊吓或感到害怕时，他们往往会心跳加速，导致心率加快，从而在光电容积描记图上可以清楚地看到波峰与波谷间的距离变小。被试平静下来后，血液流回末端，心率回归正常。

在皮肤上照射红外光，利用特制传感器检测光的反射量。由于红外光被血液中的血红蛋白吸收，反射光与BVP相关。

确保传感器发射红外光并确保检测点始终在同一肢端上相当麻烦。尤其是被试需要伸展身体，也会因为使用电脑变化姿势，这更为检测增加了难度。影响血容量脉冲还有其他因素，例如被试觉得冷了或热了，都会导致血液向肢体末端流动的状态发生改变，而这与其情绪状态无关。

面部肌电图（肌电图，英语：electromyography, EMG）可以用来检测面部肌肉活动，放大肌纤维收缩的微小电流。面部表情和情绪关联性极大，以下两组肌肉是情感检测的主要研究对象：皱眉肌（用来检测负向情感效果最佳）和颧大肌（微笑时扬起嘴角用到的肌肉，用来检测正向情感效果最佳）。

皮肤电反应（英语：galvanic skin response, GSR）是皮肤电导的度量，与皮肤的湿润程度相关。由于汗腺分泌受神经系统控制，GSR同身体的唤醒度状态有关。被试唤醒度越高，皮肤电导和GSR数值越大。

皮肤电的测量使用两个氯化银电极，将其贴置于皮肤表面并施加一个小电压。电导由传感器测定。为了减少不适感、减轻刺激，电极可以贴在脚上，以达到释放双手、允许被试操作鼠标键盘的目的。

艺术和摄影世界中的美学指的是美的本质和欣赏原则，对美和其他审美特质的判断是高度主观的事情。宾夕法尼亚州立大学的一组计算机科学家，将自动评价图像的审美特质视作机器学习的一大挑战，他们将一个同行评级的在线照片分享网站作为数据源，从中抽取了特定的视觉特征，可以作为图像导致审美愉悦或不愉悦之间的差别。

正如人工智能先驱马文·闵斯基在其著作《心智社会》所指出的：“问题不在智能机器是否拥有情感，而是在机器有了智能之后怎样可以没有情感。”人与人之间的交流因科技的发展而越来越频繁，但通讯过程本身是与机器打交道，而不是与人。在机器愈发智能的21世纪初期，人也越发不满于机器在情感上的冰冷。与机器沟通过程更加友好的需求，使得情感计算在人机交互等领域存在着大量潜在应用。

情感计算可以提升人机交互中的用户体验，例如情感镜子让用户看到自己如何表现情绪、情感监控机器人会在发送愤怒的电子邮件之前发出警告、音乐播放器可以根据情绪选择曲目。

可处理情感信息的机器人系统在不确定或复杂的环境中展现出了高度的灵活性。陪伴性设备，比如电子宠物可利用情感计算能力提升真实感并带来更高的自主性。社交机器人，以及越来越多的被用于医疗的机器人，因为能够识别情感，可以更好地判断用户或患者的情绪状态，以及时对自身的行为或程序做出调整。在老龄化和缺乏年轻医疗工作者的国家，这些应用可以解决很多社会问题。

在电子学习应用中，情感计算可以用来发现学习者厌倦、感兴趣、沮丧或高兴的情况，以调整计算机中教师的教学风格与节奏。

罗马尼亚研究人员Nicu Sebe博士在采访中提出了一个想法，即分析使用某种产品时（原话以冰淇淋为例）一个人的面部表情。企业可以通过这类分析来推断他们的产品是否会被相应的市场所接受。人们可以利用实时视频记录被试者的面部表情，使用情绪状态识别，来判断电视广告的有效性。综合考虑从大量被试者身上获得的结果，就可以判断该广告（或电影）是否具有预期的效果，以及观众最感兴趣的要素是什么。

情感型电子游戏可以通过生物反馈设备获取玩家的情绪状态。有一些简单的生物反馈形式，例如通过测量游戏手柄按钮按压的压力，可以获知玩家的唤醒度水平，二者已被证明具有很强的相关性。另一方面的应用是脑机接口。情感游戏已被用于医学研究，以改善自闭症儿童的情感发展。

情感计算也可以应用于社会监督，改善社会治安、改善居民幸福感。配有情感计算装置的汽车可以监测驾驶者和乘客的情绪状态，采取相应的安全措施。举例来说，可以在检测到驾驶者生气时做出善意的提醒，以规避事故的发生。

情感计算也被应用于开发自闭症患者与外界交流的技术。心理咨询在确定患者情感状态时也可从情感计算中受益。

在人机交互领域，罗莎琳·皮卡德所倡导的认知主义或“信息模型（英语：information model）”情感概念受到了实用主义者的批评，后者笃信“后认知主义（英语：post-cognitivist）”或“交互方法（英语：interactional）”，其代表人有柯尔斯顿·伯纳（Kirsten Boehner）等，他们认为情感本质上是社会性的。

皮卡德专注于人机交互，她对情感计算的目标是“让计算机认知与表达情感，甚至在某些场合下‘拥有’情感”。相比之下，交互方法寻求“让人们理解与体验自身情感” ，增进以计算机为中介的人际交往，而并不一定要求得情感向客观数学模型的映射，来便于机器理解；情感计算应当让人类畅通无阻地理解彼此的情感，而这些情感信息往往会是歧义的、主观的或上下文敏感的。:284

皮卡德的批评者将她的情感概念描述为“客观的、内部的、个人的和机械的”。他们认为这将情绪降格成可测量的离散生理信号，而生理信号实际上只是认知的输入。情绪体验的复杂性则被忽视了。:280:278

交互方法认为，虽然情感具有生物物理性，但它是“以文化为基的、动态体验的、某种程度上是行为和交互中构建的”。:276换言之，交互方法认为“情感是通过交互体验到的社会与文化产物”。