词义消歧

✍ dations ◷ 2024-07-05 02:53:12 #词义消歧
计算机语言学中,词义消歧是一个 自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。语义消歧/词义消歧 是自然语言处理任务的一个核心与难点,影响了几乎所有任务的性能,比如搜索引擎、意见挖掘、文本理解与产生、推理等。在语言学长期发展的过程中,语言本身积累了许多一词多义的用法。语言的产生是多方面共同作用的结果。语言的使用是不断变化的,一个词在发展中有许多具体的意思,现在通用的还有一些意思。不同地区可能对一个词有不同 的用法,不同的行业对一个词也会不同,甚至不同群体、不同个人、不同语气都会有自己的特殊的解读意思。语义消歧是一种语言理解的方式,一方面我们要理解通用词语一词多义的含义及应用,另一方面,还要考虑到具体场景,运用相关知识库、语料训练来增加一词多义的性能。迄今为止,丰富多样的技术已经被研究,以词典为基础的方法,使用知识库与知识图谱技术的,监督学习的,无监督的,半监督的,基于词或者词向量的。基于各种资源的、半监督的、同时基于词与词向量的应该是发展的方向。基于词典的语义消歧依赖于词典对语义的区分。粗粒度的一词多义指区分较大的语义,比如水,可能表示自然水,也能指水货;细粒度的一词多义指能区分较小不同的语义。如果词典缺少某一层次/某一些语义的描述,以词典作为词语义的完全描述就会导致问题。这个特点对WSD(词义消歧)与EL(entity linking)同样适用。解决这个问题的办法是,对描述较少的语义聚集自动增量增加聚类。英文里常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意语言都可以把常用的字典、词典、网络百科、专业知识库/数据库 作为消歧的词典文件。词性标注与词义消歧是相互关联的两个问题,在人的系统他们同时能到满足。但是目前系统一般并不能让2者公用参数,同时输出。语义理解,包括分词、词性标注、词义消歧、句法解析、语义解析 并不是前馈的,是相互依赖的存在反馈的。词性标注与语义消歧都要依赖上下文来标注,但是词性标注比语义消歧要简单以及成功。原因主要是词性标注的标注集合是确定的,而语义消歧并没有,并且量级要大的多;词性标注的上下文依赖比语义消歧要短。有时候人也不能很地判断一个词属于哪个意思。对于粗粒度的区分肯定比细粒度的高。所以一般选择粗粒度的任务,因为需要使用人的判断作为黄金标准。许多研究者认为要做到词义消歧,需要理解语用学、一些常识。语言学本身就是与知识紧密结合的,肯定需要语言相关的常识帮助解析,就像实体消歧需要实体的相关的知识一样。不同的任务具体词义消歧会不同。比如翻译,不必须显式地输出词义消歧中间结果,他需要最后的句子的同义即可人们一般能在粗粒度的定义上获得一致的看法,当他到更细的粒度,则很难统一。并且即便同个语义,在不同的环境里,也许还会有不同,因为语言表达有无限的可能性,导致语义在细粒度可能会迁移。

相关

  • 低二氧化碳血症低二氧化碳血症(英语:Hypocapnia)也称做低二氧碳血症,是指人体处于血中二氧化碳浓度偏低的情况。低二氧化碳血症通常是由于过度换气症候群而发生,也就是由于过快或过深的呼吸导致
  • 抗抑郁药抗抑郁药(英语:Anti-depressant),是一类治疗重度抑郁症(MDD)或其它问题如心境恶劣障碍、焦虑症、强迫症、进食障碍、慢性疼痛、神经性疼痛(英语:Neuropathic pain)的药物,在某些情况下
  • 体重减轻减肥学(bariatrics)是医学的一个分支,目的在探讨肥胖症的起因、预防及治疗。一般简称为减肥、纤体、瘦身或秀身,是指采用人为手段故意降低体重,特别是减少体内的脂肪。减肥的原因
  • 内皮细胞内皮细胞或血管内皮是一薄层的专门上皮细胞,由一层扁平细胞所组成。它形成血管的内壁,是血管管腔内血液及其他血管壁(单层鳞状上皮)的界面。内皮细胞是沿着整个循环系统,由心脏直
  • 采法特采法特 (希伯来语: צְפַת;阿拉伯语: صفد)是以色列北部城市。根据以色列中央统计局资料,2003年末该市人口为26,600人。采法特和耶路撒冷、提比里亚和希布伦一起被列为犹
  • 髋骨髋骨为人体腰部的骨骼,共左右两块。幼年时,髋骨分为髂骨、坐骨和耻骨以及软骨连接。成年后,它们之间的软骨会骨化,成为一个整体,即髋骨。左髋骨、右髋骨、骶骨、尾骨以及它们之间
  • 有尾目有尾目(学名:Urodela)是终身有尾的两栖动物,一共有9科60属约358种,幼体与成体形态上差别不大,主要包括蝾螈、小鲵和大鲵。有尾目动物有发展完全的前肢和后肢,大小大约一致,但四肢细
  • 肠绒毛肠绒毛(英语:Intestinal villus)是小肠内壁的指状凸起物。人类肠绒毛的大小通常落在0.5-1.6毫米间。绒毛表面的柱状上皮细胞上存在着更微小的凸起,称为微绒毛(microvillus),而这些微
  • 逻辑联结词在形式逻辑中,逻辑运算符或逻辑联结词把语句连接成更复杂的复杂语句。例如,假设有两个逻辑命题,分别是“正在下雨”和“我在屋里”,我们可以将它们组成复杂命题“正在下雨,并且我
  • 二阶逻辑在逻辑和数学中,二阶逻辑是一阶逻辑的扩展,一阶逻辑是命题逻辑的扩展。二阶逻辑接着被高阶逻辑和类型论所扩展。一阶逻辑和二阶逻辑都使用了论域(有时叫做“域”或“全集”)的想