元数据

✍ dations ◷ 2024-11-05 14:56:43 #元数据
元数据(英语:metadata),又称诠释数据、中介数据、中继数据、后设数据等,为描述其他数据信息的数据。有三种不同类型的元数据,分别是记叙性元数据、结构性元数据和管理性元数据。主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。该名词起源于1969年,由Jack E. Myers所提出的.metadata即关于数据的数据(data-about-data),可以说是一种标准,是为支持互通性的数据描述,所获取一致的准则。其基本定义出自OCLC与NCSA所主办的“Metadata Workshop”研讨会。它将metadata定义为“描述数据的数据”(data about data)。此后各种有关Metadata的定义纷纷的出现。现存很多metadata的定义,主要视特定社群或使用情境而不同。如有有关数据的数据(data about data),有关信息对象之结构的信息(structured information about an information object),描述资源属性的数据(Data describes attributes of resources)等。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。元数据传统上用于图书馆的卡片目录,一直到1980年代;2000年代起,数字化成为存储数据的普遍方式。而图书馆也将其目录数据转换为数字数据库,数字数据也有相关的元数据标准。不同行业有不同的元数据标准(例如,博物馆收藏、数字音乐文件、网站等)。描述数据或数据档的背景和内容,增加了实用性。例如一个网页的元数据包括了有关页面主题、编写脚本语言(例如 HTML)、产生页面的工具,以及哪里有关于主题的更多信息。这个元数据可以自动提高阅读者的体验,让用户更容易在网络上查找网页。音乐CD可提供此专辑的音乐家、歌手和歌曲作者信息的元数据。元数据的主要目的是帮助用户查找相关信息并探索资源。元数据也有助于组织电子资源,提供数字识别,并支持归档和保存资源。“由相关标准查找、识别资源,将相似资源集中在一起,区分不同并提供位置信息”,元数据可帮助用户探索资源。各国政府广泛收集包括互联网在内的通信活动元数据,用于流量分析,而且可用于大规模监控。在许多国家有关于电子邮件、电话、网页、IP连线与手机位置的元数据,是固定由国家存储的。元数据是指“描述数据的数据”。虽然说源自于希腊介词和前缀 μετά- 的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元数据被定义为提供某些数据单方面或多方面信息的数据;它被用来概述数据的基础信息,以简化查找过程与方便使用。例如:举例,一个数字图像文件可能会包括描述图片大小、色彩深度、图片分辨率、图片创建时间、快门速度等数据的元数据。一份文档的元数据可能会包含文档长度、作者、创建时间、文档概述等信息。网页中的元数据也可以包含页面内容的描述,以及有关于内容的关键字等等。这些东西常被称作“元标签”(metatags),其在1990年代后期以前被用来当作决定搜索引擎结果顺序的主要因素。在1990年代后期,由于“关键字堆砌(英语:keyword stuffing)”的出现,对于元标签的倚赖程度逐渐降低。元标签的滥用导致许多搜索引擎会误认某些结果的关系性高于实际值。元数据可以在被称作元数据注册系统或元数据存储库的数据库中存储和管理。不过,如果没有文字和参考点的话,单纯看是很难辨认这些元数据的。举例来说:一个数据库本身会包含一些数字,但是这些数字代表的涵义可能是某些计算后的结果,或者是书籍的ISBN码──这就需要参考才能知道,而无法直接由数据容器内部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中发明了“metadata”这个词,当时的意思为“描述数据容器的数据”,也就是结构性元数据,而非描述性元数据或常用于图书馆目录的元内容(metacontent)。自那时起,信息管理、信息学、信息技术、图书馆学与地理信息系统等领域广泛接受了这个词汇。在这些领域中,元数据的定义为“描述数据的数据”。尽管这是最广为接受的定义,许多学科也为了自用而采用了特殊的解释或定义。虽然元数据的应用层面很广,涵盖各式各样的领域,有专门和公认的方法来决定元数据的类型。弗朗西斯·布雷瑟顿(英语:Francis Bretherton)和辛格利(1994)将元数据分成两类:结构性/控制性元数据和指南性元数据。“结构性元数据”描述了诸如表格、栏、密钥和索引等数据库对象的结构。“指南性元数据”帮助人们找到特定的物品,而且经常被压缩为一系列自然语言中的关键字。根据拉尔夫·金博尔(英语:Ralph Kimball),元数据可以分成两个相似的类别:技术性元数据和商业性元数据。“技术性元数据”等同内部性元数据,而“商业性元数据”则为外部性元数据。金博尔加入了第三种类别,“过程性元数据”。另一方面,美国国家信息标准组织将元数据分成三种:描述性、结构性和管理性。“描述性元数据”通常用于发现和识别,作为搜索和定位对象的信息,例如标题、作者、科目、关键字、出版商等等。“结构性元数据”描述对象的构成物是如何组织起来的,举例来说,书页是如何组成一本书中的章节的这种数据,就是结构性元数据。最后,“管理性元数据”给予有助于管理资源的信息。管理性元数据参考技术信息,包括文件类型、文件创建时间和文件创建方式。管理性元数据之下还有两个小分类,权限性元数据和保存性元数据。“权限性元数据”解释了知识产权,而“保存性元数据”则包含保存和存储资源的信息。元数据(元内容)或更正确地,用来组合元数据(元内容)陈述句的词汇,通常依据明确定义元数据纲要的标准化概念而结构化,其中包含了:元数据的标准和模型。诸如控制词汇表、分类学、索引典、数据字典和元数据注册库等工具,可针对元数据进一步标准化。结构元数据的共通性在数据模型开发和数据库设计中也是至关重要的。元数据(metacontent)语法是指产生元数据的字段或元素的结构规则。单一个元数据纲要可以许多不同的标记或编程语言来表达,每种标记或编程语言需要不同语法。例如,都柏林核心集(Dublin Core)可用纯文字、HTML、XML和RDF来表达。(引导)元内容的常见例子是书目分类,主题,杜威十进制图书分类号。在任何“分类”中总是有些关于对象的隐含陈述。将对象分类为例如杜威分类号514(拓扑)(即书背上有编号为514的书),隐含的陈述是:<book><subject heading><514>。这是一个主题-谓词-对象的三元组,更重要的,它是一个类-属性-值的三元组,前两个元素(类、属性)是已有定义语义的结构元数据片段。第三个元素是一个值,最好来自一些控制词汇表,一些参考(主)数据。元数据和主数据元素组合为一个陈述句,它是一个元内容陈述,即“元内容 = 元数据 + 主数据”。所有这些元素都可以当作“词汇”。元数据和主数据都是词汇,可以汇编成为元内容陈述。这些词汇有很多来源,包括元数据和主数据:UML,EDIFACT,XSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone,二名法等。使用控制词汇表作为元内容陈述的组成部分,无论是索引或查找,都被ISO 25964认可:“如果索引和搜索两者从相同概念都选择了相同的术语,那么检索将得到相关文件。”这对互联网的搜索引擎(如Google)尤其重要,搜索程序使用复杂的索引算法使搜索的文字与网页相符合;其中并没有智能或“推论”发生,只是令人感觉似乎如此。元数据的模式在本质上是层级结构,即元数据元素和元素之间存在套叠的关系,因此元素之间有亲子关系。层级模式的一个例子是IEEE LOM模式,其中某个元素可属于父亲的元数据元素。元数据模式也可以是一维或线性的,其中每个元素与其它元素完全不相关系,而且只根据一维来分类。例如都柏林核心纲要就是一维的元数据模式。元数据模式通常是二维或平面的,其中每个元素与其它元素完全不相关系,但根据两个正交的维度来分类。在元数据模式超出平面描述的所有情况下,需要某种类型的超映射(hypermapping)以选取观点来显示和查看元数据,并提供特殊视图。超映射通常应用于地理学的或地质信息叠加的图层。将数据或元数据构造的程度称为“细致程度”(granularity),是指提供了多少数据的相关细节。具有高细致度的元数据允许更深入、详细和更结构化的信息,并实现更高级别的技术操作。较低的细致度意味着以低成本的考量来产生元数据,但没有细节描述的信息。细致度的主要影响不仅在于元数据的产生和获取,而且在于其维护成本上。一旦元数据的结构变得过时,则对参考资料的访问也是如此。因此,细致度必须考虑到产生以及维护元数据的投入。元数据有适用的国际标准。在国家和国际标准社群,特别是ANSI和ISO正完成许多任务作,就元数据和登录的标准化达成共识。元数据的核心登录标准是ISO/IEC 11179 元数据登录(MDR),在ISO/IEC 11179-1:2004中描述了该标准的框架。新版本的第一部分正处于2015年或2016年初发布的最后阶段,已经被修订以符合当前版本的第三部分;而ISO/IEC 11179-3:2013,其中扩展了MDR以支持概念系统的登录(见ISO/IEC 11179)。此标准规范了记录数据涵义和技术结构两者,适合人类和计算机的无歧义用法。ISO/IEC 11179标准是指元数据为相关于数据的信息对象,或是“有关数据的数据”。在ISO/IEC 11179第三部分中,一个数据项的信息对象是指,描述关于其数据元素、值域和其它可重复使用语义,与用来描述意义和技术细节。此标准还规定了元数据登录的详细内容,以及在元数据登录中为了登录和管理的信息对象。ISO/IEC 11179第三部分也预定了从其它数据元素派生的复合结构描述,例如经过计算,一或多个数据元素的集合或其它形式的派生数据。此标准原先叙述本身为“数据元素”登录,但其目的则独立于任何特定应用程序之外,支持元数据内容的记叙和登录,将记叙提供给人或计算机以开发新的应用程序,数据库,或根据登录的元数据内容来分析收集到的数据。重复利用、扩展与该标准的管理部分,此标准已成为其它类型的元数据登录的一般基础。地理空间社群有专业化地理空间元数据标准的传统,特别奠基于地图、图像库和目录之上。对于地理空间数据,正规的元数据是必要基本的,一般文字处理方法则无法适用。都柏林核心元数据术语是一组词汇,用于描述意图探索的资源。最初的15个经典元数据术语被称为都柏林核心元数据元素集,在以下标准文件中均认可:虽然微格式遵循XHTML和HTML的语义标记方法,但它本身不是一个标准,它尝试重新利用现有的网页标签来发送元数据。一位微格式的倡导者坦塔克·塞里克,说明了采行另案的问题症结点:“我们希望你学习一种新语言,现在你需要在伺服主机上输出这些额外的文件。实在是麻烦。(微格式)能降低进入障碍。”含有拥有者,著作权和联系信息的识别元数据可能被写入数字照片文件,产生文件的相机品牌或型号以及曝光信息(快门速度,f-stop等)和记述信息,例如关于照片的关键字,使文件或图像可在计算机和/或互联网上搜索。一些元数据由相机产生,一些元数据由摄影师和/或软件在下载到计算机之后输入。大多数数字相机都会写入关于机型、快门速度等的元数据,有些则可以编辑它;在大多数Nikon、Canon,和Pentax DSLRs相机已经提供这样的功能。在后期制作时,使用元数据关键字可更方便组织。过滤器可用于分析特定的一组照片,并根据评等或摄影时间等标准来选取。摄影元数据标准由制定以下标准的组织管理。它们包括但不限于:关于电信通话,非通信的内容如通话时间、起点和目地的信息、电子消息、即时消息和其它电信模式,是另一种形式的元数据。在Edward Snowden公布情报机构对通话细节记录元数据的大量收集后,大众对于此举是有争议的,例如NSA保留数百万互联网用户的在线元数据长达一年,无论他们是否为该机构所关注的人物。元数据在影片中特别有用,其中关于内容信息(例如对白字幕和场景叙述)计算机并无法理解,而是用于有效地搜索内容。影片元数据来源有两个来源:网页通常包含元标记形式的元数据。元标签(<meta ……>)中的叙述和关键字一般用于描述网页的内容。标记元素也指示页面描述、关键字、文件作者以及最后修改的时间。网页元数据可帮助搜索引擎和用户,查找他们需求的网页类型。

相关

  • 自体免疫缺乏免疫缺陷(英语:immunodeficiency)是指免疫系统抵抗传染病的能力失常或欠缺。免疫缺陷还可能降低肿瘤免疫监视功能。免疫缺陷多为继发性(secondary)免疫缺陷,不过也有些人生来就有
  • 脐带绕颈脐带绕颈(nuchal cord)是指胎儿在母体子宫内时,发生脐带缠绕在胎儿颈部的情形。脐带绕颈的胎儿出生后,可能很快就会出现脸色发黑、面部瘀青及眼白布有血丝(英语:subconjunctival b
  • 囊肿囊肿(Cyst)是一个封闭的囊,具有明显的膜组织,也会产生细胞分裂。囊肿内部可能包含空气、液体或半固体物质。脓液的集合体称为一个囊肿。囊肿有时会自行消失,也可能需要通过外科手
  • 缺血缺血(Ischemia)是描述组织供血量不足,进而导致缺氧及养分的情形。缺血一般由血管问题所导致,也可能因血管收缩、血栓形成,或栓塞,导致局部贫血所导致。缺血除了导致缺氧以外及缺乏
  • 卡尔一世 (奥匈帝国)卡尔一世(Karl I,1887年8月17日-1922年4月1日),全名卡尔·弗朗茨·约瑟夫·路德维希·胡伯特·格奥尔格·玛利亚·冯·哈布斯堡-洛林(Karl Franz Joseph Ludwig Hubert Georg Mari
  • 糖尿病肾病糖尿病肾病(拉丁语:nephropatia diabetica;英语:diabetic nephropathy 或 diabetic kidney disease)也被称为金摩尔史迪尔-威尔逊综合征(Kimmelstiel–Wilson syndrome)、结节性糖
  • 阿巴卡韦阿巴卡维(英语:Abacavir,简称  ABC )是预防及治疗艾滋病的药物。本品属于核苷类(英语:nucleoside analog)反转录酶抑制剂(NRTI 药物),借由阻断人类免疫缺乏病毒(HIV)必需的反转录酶发挥
  • Q热Q型流感或羊流感(英语:Q fever或Goat flu),又称Q热或寇热,是指一种在荷兰爆发的新流感。这种流感由贝纳氏立克次体(学名:Coxiella burnetii)细菌引起 。这种流感能够通过羊群传染给
  • 叶酸叶酸(Folate、folic acid)也称为维生素B9、维生素M、维生素Bc,属于维生素B。叶酸可用于治疗由叶酸缺乏症引起的贫血。叶酸也是孕妇的营养补充品。在新生儿的神经管缺损(英语:Neur
  • 弗雷德里克·班廷弗雷德里克·格兰特·班廷爵士,KBE,MC,FRS,FRSC(英语:Sir Frederick Grant Banting,1891年11月14日-1941年2月21日)是加拿大一位杰出的医学家和诺贝尔生理学或医学奖获得者。班廷是在