词汇标示框架

✍ dations ◷ 2025-05-18 20:48:42 #计算语言学,语音识别,自然语言处理,ISO标准

词汇标示框架(Lexical Markup Framework,简称LMF)是国际标准组织(ISO/TC37)进行中的一项工作,目的在为自然语言处理与机读字典的词汇库描述建立一个标准化框架。计划范畴涵盖对牵涉到多语沟通及文化差异的语言资源,对建立与交换这些资源的准则与方法做标准化处理。

词汇标示框架的目标有三。其一,为词汇资源的创造与使用提供共用模型。其二,管理词汇资源间的资料交换。其三,促进个别电子资源的整合以形成大规模的全球性电子资源。

词汇标示框架的种类包括单语、双语或多语的词汇资源。这三种分类亦适用于小型或大型词汇库、简单或复杂词汇库,乃至于书面或口语词汇表述。说明的范畴包含构词学、语法学、计算语意学及电脑辅助翻译。涵盖的语言包括所有自然语言,并不局限于欧洲地区。此计划在自然语言处理的运用上不受限制。词汇标示框架能呈现多数辞典,包括WordNet、EDR及PAROLE。

在过去,已有不少计划做过词汇库标准化的研究,如GENELEX、EDR、EAGLES、 MULTEXT、PAROLE、SIMPLE 与ISLE。其后,参与ISO/TC37的国家代表决定为自然语言处理与词汇库呈现订定标准。2003年暑假,由美国代表提出的词汇标示框架计划诞生。2003年秋,法国代表提出定义资料模型的技术主张,以俾利做自然语言处理的辞典。到了2004初,ISO/TC37委员会又决定做一项共同ISO计划,由Nicoletta Calzolari (义)担任召集人,Gil Francopoulo (法)与Monte George (美)担任编辑。此计划建立出的词汇标示框架已有13个版本,并已分送给各国指定的专家做评论,再经过ISO技术会议的讨论修正。经过五年的努力,多次会议与电子邮件往来,编辑群间达成共识并建立了完整一致的UML模型。综上所述,词汇标示框架应可被视为当今自然语言处理词汇库领域中技术发展之极致。

词汇标示框架已于2008年11月17日正式发行,成为国际标准;标准号码为ISO24613。

ISO/TC37标准家族目前被定位为高阶指定规格,处理包括断词(ISO 24614)、标注(ISO 24611亦称为MAF、ISO 24612即LAF、ISO 24615亦即SynAF与ISO 24617-1又名SemAF/Time)、特征结构(ISO 24610)、多媒体载体(ISO 24616亦称为MLIF)以及辞典(ISO 24613)等内容。这些标准主要建立在提供共同术语的低阶指定规格,亦即资料范畴汇总(ISO 12620的修定版)、语言编码(ISO 639)、书写体编码(ISO 15924)、国家编码(ISO 3166)与通用编码(ISO 10646)。

这两个阶层架构的标准遵循下列两项简单共通准则,以构成具内部一致性的标准家族:

语言学的常数元素如/女性/或/及物/在词汇标示框架中并没有被规范,但被记录在资料范畴汇总(DCR)中。资料范畴汇总是一项全球性资源,由ISO/TC37负责维持,依照ISO/IEC 11179-3:2003*。这些常数元素要用来充实高阶结构性元素。

词汇标示框架遵守由物件管理组(OMG)规范的统一塑模语言(UML)。结构由UML的阶级图表呈现,例子由UML的例子图表或物件图表呈现。

需要补充说明的是,XML的档案类别定义(DTD)是由词汇标示框架的附件所规范。

词汇标示框架包含下列组成成分:

这些扩充乃特别为下列领域而设置,包含构词学、机读字典、自然语言处理语法学、自然语言处理语意学、多语标记、自然语言处理典型模式、多字词表达模式与限制表达模式。

在下面的举例中,词目以及两个词尾变化形跟都与词条有关。语言编码套用于整个词汇资源,而语言特性的值则适用于整个词汇库,正如下方UML图所示。

)、全球资讯()、词汇库()、词条()、词目()以及词形()这几个元素定义出词汇库的结构。在词汇标记框架的档案中有对这几项元素做说明。另一方面,语言编码()、语言()、词性()、一般名词()、书写形()、文法号码()、单数()、多数()等则是从资料类别登记中取出的资料种类。这些标示能充实结构内容。而、、这几项值都只是基本的特性字串。这个值则参照ISO 639-3所定义的语言清单。

再加上一些附加资讯如与后,同样的资料可以以下列XML段落表示:

<LexicalResource dtdVersion="15">    <GlobalInformation>        <feat att="languageCoding" val="ISO 639-3"/>    </GlobalInformation>    <Lexicon>        <feat att="language" val="eng"/>        <LexicalEntry>            <feat att="partOfSpeech" val="commonNoun"/>            <Lemma>                <feat att="writtenForm" val="clergyman"/>            </Lemma>            <WordForm>                 <feat att="writtenForm" val="clergyman"/>                 <feat att="grammaticalNumber" val="singular"/>            </WordForm>            <WordForm>                <feat att="writtenForm" val="clergymen"/>                <feat att="grammaticalNumber" val="plural"/>            </WordForm>        </LexicalEntry>    </Lexicon></LexicalResource>


要注意的是,这个例子相当简单。但词汇标示框架能够呈现更为复杂的语言描述,XML标记也会更加复杂。

相关

  • 红藻门红藻门(学名:Rhodophyta),是含有藻红素的一门藻类,属于多细胞、真核细胞的生物;约有7000种。几乎所有的红藻都生活在海洋中,他们生长在涨潮线以下的岩石上或较深的水中,有些物种可以
  • 降血压药物抗高血压药(英文:Anti-hypertensives)肼屈嗪 米诺地尔 硝普钠含羧基类: 依那普利# • 雷米普利 • 喹那普利 • 培哚普利 • 赖诺普利 • 贝那普利含次膦酸基类: 福辛普利 其
  • 麦道DC-10麦克唐纳-道格拉斯DC-10是麦克唐纳-道格拉斯公司应美国航空要求而研制的飞机,原为双引擎客机,后为确保可在短跑道上起飞及因应美国航空的要求而加上第三引擎。DC-10于1988年交
  • 绉缎绉缎,一种丝织物,以经丝为平丝,强捻丝为纬丝,二左二右排列,采用缎纹组织交织。绉缎分为花绉缎、素绉缎两种。绉缎的原料一般为桑蚕丝。素绉缎一般用五枚缎纹组织,而花绉缎则以正反
  • 孙大川孙大川(卑南语:Paelabang Danapan,音译:巴厄拉邦,1953年12月18日-),卑南族人、台湾原住民作家、中华民国政治人物。生于台东县卑南乡下宾朗(pinaseki)部落。国立台湾大学中国文学系毕
  • 芦山县芦山县是中国四川省雅安市所辖的一个山区县,位于雅安市区东北部,县城距雅安31公里,距成都156公里。全县总面积1166平方公里,2010年第六次全国人口普查显示全县常住人口为109029
  • 华盛顿首都South Carolina Stingrays (ECHL)华盛顿首都队(Washington Capitals)是位于美国华盛顿特区的国家冰球联盟队伍,隶属于国家冰球联盟(NHL)的东大区(the Eastern Conference(英语:Easte
  • T细胞淋巴瘤T细胞淋巴瘤(T-cell lymphoma)包括四种影响T细胞的淋巴瘤类型。这些解释或许能说明十分之一的非霍奇金氏淋巴瘤之情况。 T细胞淋巴瘤伴随着人类疱疹病毒第四型及人类T淋巴细
  • 09II型核潜艇09II型潜艇(北约代号:夏级,英语:)是中国人民解放军海军的第一代弹道导弹核潜艇,该型艇由攻击潜艇09I型核潜艇扩大船壳改进而来,在艇体上插入弹道导弹舱段。1970年设计方案完成,开始
  • 塞色黑塞色黑(满语:ᠰᡝᠰᡝᡥᡝᡳ,穆麟德:),富察氏,满洲,清朝政治人物、清朝刑部尚书。曾任兵部左侍郎。康熙十四年四月己丑,接替莫洛,担任清朝刑部尚书,后改兵部尚书。由吴达礼接任。