文本情感分析

✍ dations ◷ 2025-11-29 19:31:32 #文本情感分析
文本情感分析(也称为意见挖掘)是指用自然语言处理、文本挖掘以及计算机语言学等方法来识别和提取原素材中的主观信息。通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)。文本情感分析的一个基本步骤是对文本中的某段已知文字的两极性进行分类,这个分类可能是在句子级、功能级。分类的作用就是判断出此文字中表述的观点是积极的、消极的、还是中性的情绪。更高级的“超出两极性”的情感分析还会寻找更复杂的情绪状态,比如“生气”、“悲伤”、“快乐” 等等。在文本情感分析领域,早期做出研究贡献的有 Turney 和 Pang 他们运用了多种方法探测商品评论和电影影评的两极观点。此研究是建立在文档级所进行的分析。另一种文档意见的分类方式可以是多重等级的,Pang 和 Snyder (among others): 延伸了早先的基础两极意见研究,将电影影评分类并预测为3至4星的多重级别,而 Snyder 就餐馆评论做了个深度分析,从多种不同方面预测餐馆的评分,比如食物、气氛等等 (在一个5星的等级制度上)。尽管在大多数统计方面的分类方式中,“中性” 类是经常被忽略的,因为“中性”类的文本经常是处于一个两极分类的边缘地带,但是很多研究者指出,在每个两极化问题当中,都应该识别出三个不同的类别。进一步的说,一些现有的分类方式 例如 Max Entropy 和 SVMs 可以证明,在分类过程中区分出“中性”类可以帮助提高分类算法的整体准确率。另一种判定文本情绪的方法是利用比例换算系统。当一个词普遍被认为跟消极、中性或是积极的情感有关联时,将这个词赋予一个-10到+10之中的数字级别(最消极到最正向情感),在使用自然语言处理来分析一个非结构化文本数据后,余下的的概念也可以被分析来得出词与概念的相关性。 接下来,每一个概念都可以被赋予一个分数,这个分数是基于情感词汇和这个概念的关联度,以及他们本身的分数而得出的。这个方法让文本情感的理解晋升到一个更加智能的层面,并且是基于一个11分的等级范围的。另外一种方法是,计算出文本正向的和消极的情感力度分数, 如果研究的目的是要判定一个文本的感情,而不是总体文本集的两极分布或文字的力度。另一个研究方向是“主观/客观 识别”。这个研究 通常被定义为将一个已知文本(一般是句子)分类成两个类:主观和客观。这个问题有些时候比两极化分类问题更难解决。 主观词汇和短语可能是基于前后文语意联系,而一个客观文档有可能包含主观语句(e.g. 一篇新闻引用了某人的观点)。此外, Su 也曾提到过,得到的结论在很大程度上依赖于注释文本时对“主观”的定义。不过, Pang 证实了如果两极分类前去除文件中的客观语句,会提高算法的表现。一个更加优化的分析模型叫做“功能/属性为基础的情感分析(feature/aspect-based sentiment analysis)”。这是指判定针对一个实体在某一个方面或者某一功能下表现出来的意见或是情感, e.g. 一个实体可能是一个手机,一个电子相机,或者空白。一个“功能”或者“方面”是一件实体的某个属性或者组成部分,e.g.一个手机的屏幕,一个相机的成像质量,等等。 这个问题涉及到若干个子问题,譬如,识别相关的实体,提取他们的功能/属性,然后判断是否在提及这个功能/属性时有正面或者负面或者中性的情绪或意见。 更多关于这个层面的文本情感分析可以参照NLP手册“情感分析和主观性”这一章。现有的文本情感分析的途径大致可以集合成四类:关键词识别、词汇关联、统计方法和概念级技术。 关键词识别是利用文本中出现的清楚定义的影响词(affect words),例如“开心”、“难过”、“伤心”、“害怕”、“无聊”等等,来影响分类。词汇关联除了侦查影响词以外,还附于词汇一个和某项情绪的“关联”值。 统计方法通过调控机器学习中的元素,比如潜在语意分析(latent semantic analysis),SVM(support vector machines),词袋(bag of words),等等。(参见Peter Turney在相关领域的研究成果。)一些更智能的方法意在探测出情感持有者(保持情绪状态的那个人)和情感目标(让情感持有者产生情绪的实体)。要想挖掘在某语境下的意见,或是获取被给予意见的某项功能,需要使用到语法之间的关系。语法之间互相的关联性经常需要通过深度解析文本来获取。与单纯的语义技术不同的是,概念级的算法思路权衡了知识表达(knowledge representation)的元素,比如知识本体 (ontologies)、语义网络(semantic networks),因此这种算法也可以探查到文字间比较微妙的情绪表达。例如, 分析一些没有明确表达相关信息的概念,但是通过他们对于明确概念的不明显联系来获取所求信息。有很多开源软件使用机器学习(machine learning)、统计、自然语言处理的技术来计算大型文本集的情感分析, 这些大型文本集合包括网页、网络新闻、网上讨论群、网络评论、博客和社交媒介。

相关

  • 硬膜外脓肿脓疡(拉丁语:abscessus; 德语:Abszess; 法语:Abcès; 英语:Abscess)又称作脓疮、脓肿。指的是在身体组织中蓄积的脓。接近体表的脓疡会有红、肿、热、痛等症状,触诊病灶时感觉其内
  • 狭窄二尖瓣狭窄是一种较为常见的心瓣膜病。在正常情况下,二尖瓣在左心室舒张时打开,使血液从左心房流入左心室。患有二尖瓣狭窄症的病人二尖瓣在左心室舒张时不能够完全开放,使左心
  • ACTH/Corticotropin促肾上腺皮质激素(英语:adrenocorticotropic hormone, ACTH)——或简称促皮质素(corticotropin)——是一种多肽激素,生产并分泌于脑垂体,是下丘脑-脑垂体-肾上腺皮质轴(hypothalamic
  • 17-羟孕酮17α-羟孕酮(英语:17α-Hydroxyprogesterone,17α-OHP),有时就简称为羟孕酮(英语:hydroxyprogesterone,OHP)是一种孕酮类似的内源性的孕激素类甾体激素,同时也是很多内源性甾体激素生
  • 闭锁综合症闭锁综合征(Locked-in syndrome)是指患者虽然意识清醒,但却由于全身随意肌(除眼睛外)全部瘫痪,导致患者不能活动、不能自主说话的一种综合征。如果患者眼睛也瘫痪,则被称为完全性闭
  • 半纤维素酶纤维素酶是酶的一种,在分解纤维素时起生物催化作用。纤维素酶广泛存在于自然界的生物体中。细菌、真菌、动物体内等都能产生纤维素酶。一般用于生产的纤维素酶来自于真菌,比较
  • 七氟烷七氟醚(英文:Sevoflurane)为一种非易燃、气味香甜的卤代醚麻醉药,可以诱导和维持全身麻醉状态。其药力起效和消退速度甚快,仅次于地氟醚。本药通常和笑气和氧气混合后以吸入形式
  • 球墨铸铁肥粒铁(α-Fe) 针状肥粒铁(acicular α-Fe) 奥氏体(γ-Fe) 马氏体 波来铁(88%肥粒铁,12%碳化三铁) 变韧铁 粒滴斑铁(波来铁及渗碳体的共晶    混合物,含碳量4.3%) 碳化三铁(Fe3C) β铁
  • 复演说复演说(英语:Recapitulation theory)是一个由德国生物学家恩斯特·海克尔主张的历史上的假说,称动物胚胎的发育过程,从受精到妊娠和孵化(个体发生学)会经历和该动物远古祖先成年个
  • 鸟苷三磷酸鸟苷-5'-三磷酸,(缩写GTP),系一类嘌呤类核苷三磷酸。它可以在DNA复制期间的DNA转录过程中作为RNA生物合成的底物。它的结构与含氮碱基鸟嘌呤相似,唯一的不同是GTP连有一个核糖基