词义消歧

✍ dations ◷ 2024-12-22 19:36:28 #词义消歧
计算机语言学中,词义消歧是一个 自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题,在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象,消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。语义消歧/词义消歧 是自然语言处理任务的一个核心与难点,影响了几乎所有任务的性能,比如搜索引擎、意见挖掘、文本理解与产生、推理等。在语言学长期发展的过程中,语言本身积累了许多一词多义的用法。语言的产生是多方面共同作用的结果。语言的使用是不断变化的,一个词在发展中有许多具体的意思,现在通用的还有一些意思。不同地区可能对一个词有不同 的用法,不同的行业对一个词也会不同,甚至不同群体、不同个人、不同语气都会有自己的特殊的解读意思。语义消歧是一种语言理解的方式,一方面我们要理解通用词语一词多义的含义及应用,另一方面,还要考虑到具体场景,运用相关知识库、语料训练来增加一词多义的性能。迄今为止,丰富多样的技术已经被研究,以词典为基础的方法,使用知识库与知识图谱技术的,监督学习的,无监督的,半监督的,基于词或者词向量的。基于各种资源的、半监督的、同时基于词与词向量的应该是发展的方向。基于词典的语义消歧依赖于词典对语义的区分。粗粒度的一词多义指区分较大的语义,比如水,可能表示自然水,也能指水货;细粒度的一词多义指能区分较小不同的语义。如果词典缺少某一层次/某一些语义的描述,以词典作为词语义的完全描述就会导致问题。这个特点对WSD(词义消歧)与EL(entity linking)同样适用。解决这个问题的办法是,对描述较少的语义聚集自动增量增加聚类。英文里常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意语言都可以把常用的字典、词典、网络百科、专业知识库/数据库 作为消歧的词典文件。词性标注与词义消歧是相互关联的两个问题,在人的系统他们同时能到满足。但是目前系统一般并不能让2者公用参数,同时输出。语义理解,包括分词、词性标注、词义消歧、句法解析、语义解析 并不是前馈的,是相互依赖的存在反馈的。词性标注与语义消歧都要依赖上下文来标注,但是词性标注比语义消歧要简单以及成功。原因主要是词性标注的标注集合是确定的,而语义消歧并没有,并且量级要大的多;词性标注的上下文依赖比语义消歧要短。有时候人也不能很地判断一个词属于哪个意思。对于粗粒度的区分肯定比细粒度的高。所以一般选择粗粒度的任务,因为需要使用人的判断作为黄金标准。许多研究者认为要做到词义消歧,需要理解语用学、一些常识。语言学本身就是与知识紧密结合的,肯定需要语言相关的常识帮助解析,就像实体消歧需要实体的相关的知识一样。不同的任务具体词义消歧会不同。比如翻译,不必须显式地输出词义消歧中间结果,他需要最后的句子的同义即可人们一般能在粗粒度的定义上获得一致的看法,当他到更细的粒度,则很难统一。并且即便同个语义,在不同的环境里,也许还会有不同,因为语言表达有无限的可能性,导致语义在细粒度可能会迁移。

相关

  • 医疗医疗可以是指:
  • 疱疹病毒性脑炎单纯疱疹病毒脑炎(英文:herpesviral encephalitis、herpes simplex encephalitis、HSE)是由单纯疱疹病毒造成的脑炎。什么时候都可以发病,40岁以上多见,急性起见病, 潜伏期为2=21
  • 地衣... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no changes ... no cha
  • SIRT1n/an/an/an/an/an/an/an/an/an/aSIRT1(英语:Sirtuin 1),也被称为 NAD-依赖性去乙酰化酶Sirtuin-1(英语:NAD-dependent deacetylase sirtuin-1),是人类基因组中由SIRT1基因编码的蛋白
  • H1N2H1N2亚型(influenza A virus subtype H1N2)是甲型流感病毒的一种。近年来在人类和猪之间引起瘟疫。H1N1、H1N2、H3N2是已知的现代人类间流行的流感病毒。此亚型与其他亚型相比
  • 运动损伤运动损伤又称运动创伤或运动伤害(英语:Sports injuries),指在体育运动或体能锻炼过程中发生的创伤。例如在美国,据估计有三千万青少年参与过某种形式的有组织运动,其中每年又有三
  • 库欣综合征库兴氏综合征(法语:Le syndrome de Cushing; 英语:Cushing's syndrome)亦称库欣氏综合征、柯兴氏综合征、皮质醇增多症,其中包括库欣氏病(Cushing's disease,专指由原发性脑下腺瘤
  • 右心房心脏(英语:heart),常简称心,是一种在人类和其他动物都有的肌造器官,它的功用是推动循环系统中血管的血液。血液提供身体氧气以及养分,同时也协助身体移除代谢废弃物(英语:metabolic w
  • 原发病例指示病例(英语:index case),又称为原发病例(英语:primary case),俗称零号病人或零号感染源(英语:patient zero),在流行病学调查中是指在一定人群中的最初的病例。指示病例可能表示疾病的
  • 尼夫赫语尼夫赫语(自族称呼:Нивхгу диф)或称吉利亚克语(此名称源自满语gilyak),是一种孤立语言,有时归类于古西伯利亚语,通行于外满州的亨滚河(黑龙江支流)、库页岛北部与黑龙江下游