文本情感分析

✍ dations ◷ 2025-12-11 15:30:35 #文本情感分析

文本情感分析（也称为意见挖掘）是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说，情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估，也许是他当时的情感状态（就是说，作者在做出这个言论时的情绪状态），或是作者有意向的情感交流（就是作者想要读者所体验的情绪）。文本情感分析的一个基本步骤是对文本中的某段已知文字的两极性进行分类，这个分类可能是在句子级、功能级。分类的作用就是判断出此文字中表述的观点是积极的、消极的、还是中性的情绪。更高级的“超出两极性”的情感分析还会寻找更复杂的情绪状态，比如“生气”、“悲伤”、“快乐” 等等。在文本情感分析领域，早期做出研究贡献的有 Turney 和 Pang 他们运用了多种方法探测商品评论和电影影评的两极观点。此研究是建立在文档级所进行的分析。另一种文档意见的分类方式可以是多重等级的，Pang 和 Snyder (among others): 延伸了早先的基础两极意见研究，将电影影评分类并预测为3至4星的多重级别，而 Snyder 就餐馆评论做了个深度分析，从多种不同方面预测餐馆的评分，比如食物、气氛等等（在一个5星的等级制度上）。尽管在大多数统计方面的分类方式中，“中性” 类是经常被忽略的，因为“中性”类的文本经常是处于一个两极分类的边缘地带，但是很多研究者指出，在每个两极化问题当中，都应该识别出三个不同的类别。进一步的说，一些现有的分类方式例如 Max Entropy 和 SVMs 可以证明，在分类过程中区分出“中性”类可以帮助提高分类算法的整体准确率。另一种判定文本情绪的方法是利用比例换算系统。当一个词普遍被认为跟消极、中性或是积极的情感有关联时，将这个词赋予一个-10到+10之中的数字级别（最消极到最正向情感），在使用自然语言处理来分析一个非结构化文本数据后，余下的的概念也可以被分析来得出词与概念的相关性。接下来，每一个概念都可以被赋予一个分数，这个分数是基于情感词汇和这个概念的关联度，以及他们本身的分数而得出的。这个方法让文本情感的理解晋升到一个更加智能的层面，并且是基于一个11分的等级范围的。另外一种方法是，计算出文本正向的和消极的情感力度分数，如果研究的目的是要判定一个文本的感情，而不是总体文本集的两极分布或文字的力度。另一个研究方向是“主观/客观识别”。这个研究通常被定义为将一个已知文本（一般是句子）分类成两个类：主观和客观。这个问题有些时候比两极化分类问题更难解决。主观词汇和短语可能是基于前后文语意联系，而一个客观文档有可能包含主观语句（e.g. 一篇新闻引用了某人的观点）。此外， Su 也曾提到过，得到的结论在很大程度上依赖于注释文本时对“主观”的定义。不过， Pang 证实了如果两极分类前去除文件中的客观语句，会提高算法的表现。一个更加优化的分析模型叫做“功能/属性为基础的情感分析（feature/aspect-based sentiment analysis）”。这是指判定针对一个实体在某一个方面或者某一功能下表现出来的意见或是情感， e.g. 一个实体可能是一个手机，一个电子相机，或者空白。一个“功能”或者“方面”是一件实体的某个属性或者组成部分，e.g.一个手机的屏幕，一个相机的成像质量，等等。这个问题涉及到若干个子问题，譬如，识别相关的实体，提取他们的功能/属性，然后判断是否在提及这个功能/属性时有正面或者负面或者中性的情绪或意见。更多关于这个层面的文本情感分析可以参照NLP手册“情感分析和主观性”这一章。现有的文本情感分析的途径大致可以集合成四类：关键词识别、词汇关联、统计方法和概念级技术。关键词识别是利用文本中出现的清楚定义的影响词（affect words），例如“开心”、“难过”、“伤心”、“害怕”、“无聊”等等，来影响分类。词汇关联除了侦查影响词以外，还附于词汇一个和某项情绪的“关联”值。统计方法通过调控机器学习中的元素，比如潜在语意分析（latent semantic analysis），SVM（support vector machines），词袋（bag of words），等等。（参见Peter Turney在相关领域的研究成果。）一些更智能的方法意在探测出情感持有者（保持情绪状态的那个人）和情感目标（让情感持有者产生情绪的实体）。要想挖掘在某语境下的意见，或是获取被给予意见的某项功能，需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。与单纯的语义技术不同的是，概念级的算法思路权衡了知识表达（knowledge representation）的元素，比如知识本体（ontologies）、语义网络（semantic networks），因此这种算法也可以探查到文字间比较微妙的情绪表达。例如，分析一些没有明确表达相关信息的概念，但是通过他们对于明确概念的不明显联系来获取所求信息。有很多开源软件使用机器学习（machine learning）、统计、自然语言处理的技术来计算大型文本集的情感分析, 这些大型文本集合包括网页、网络新闻、网上讨论群、网络评论、博客和社交媒介。

相关

透镜本条目介绍的是光学设备，其他领域的透镜不在此处讨论。透镜是一种将光线聚合或分散的设备，通常是由一片玻璃构成，但用于其他电磁辐射的类似设备通常也称为透镜，例如：由石蜡制成的
神经神经（英语：Nerve）是由聚集成束的神经纤维所构成。而神经纤维本身是由多个神经元细胞构成，其神经元的构造为轴突外并被神经胶质细胞所形成的髓鞘包覆。如此神经能将讯息从动物身
硬脊膜外麻醉硬脊膜外麻醉(epidura、epidural analgesia/epidural anaesthesial)是局部麻醉的一种。透过导管，将药物注射在硬脊膜外间隙。注射药物阻隔附近脊髓神经传送讯息，从而可以使到
德新社德新社，全称德意志新闻社或德国新闻社（德语：Deutsche Presse Agentur，简写为DPA），是世界大通讯社之一。建于1949年的西德，为国家通讯社，两德统一后，成为德国全境的官方通讯社。其总部
希腊的罗马时期希腊的罗马时期是希腊历史中的一段期间，从公元前146年罗马人占领科林斯开始，直到君士坦丁一世于330年将罗马帝国的首都从罗马迁到拜占庭，并将该地改称新罗马为止。在罗马统治时
翰斯勒巴东氏菌汉氏巴尔通体（Bartonella henselae）是一种常见的、可导致猫抓病的真细菌，属于巴尔通体属。该细菌通过三聚体自身转运蛋白粘附素（英语：trimeric autotransporter adhesin）与宿主细
协助扩散被动运输(英文:Passive transport)指的是生物化学物质的运动或其他原子或分子穿过细胞膜。不像主动运输，该过程不需要化学能，这是因为顺浓度梯度的跨膜转运总是伴随着系统熵增
失重物体对支持物的压力（或对悬挂物的拉力）小于物体所受重力的情况称为失重现象。违反直觉的是，一个不变的引力场自身是不会产生压力或拉力的。一个在这样环境中的自由落体的物体所
生物集群灭绝生物集群灭绝是指在一个相对短暂的地质时段中，在一个以上并且较大的地理区域范围内，生物数量和种类急剧下降的事件。这个概念主要是指宏观生物，因为微生物的多样性和数量很难推
根腐病根腐病是一种发生在植物根部的病症，通常在排水较差的室内植物中发现，在室外植物中较少见。目前没有有效的治疗方法。许多根腐病是由卵菌纲疫霉属（Phytophthora）的成员造成的。病