盘点 (资料)

✍ dations ◷ 2025-10-03 13:56:27 #资料仓储

盘点区或接地区, 是资料处理过程在萃取/转置/加载(ETL)的中介存储区。此一资料盘点区是位于资料(多个)来源和(多个)目标之间, 通常会是数据仓库, 资料超市, 或其他的资料存储库。

资料盘点区在本质上通常是暂存的, 其内容在运行 ETL 处理前, 或成功完成 ETL 处理后立即会被清除。而盘点区的架构被设计着重于延长保有资料的时间处理归档, 或排调试误。

盘点区能有的实现方式是用一般数据库的资料表, 存储在文件系统中以文字展开的文件(或XML文件)或专属格式的二进制文件。 盘点区架构复杂的范围, 从目标数据库的一组单纯关系资料表, 到独立的数据库实例或文件系统。 尽管来源系统和目标系统支持的 ETL 处理, 通常是一般数据库, 但位于数据源和目标之间的盘点区也不尽然是一般数据库。

盘点区能够安排提供很多好处, 但其主要动机是用来增加 ETL 处理的效率, 确保资料完整及支持资料操作的质量。盘点区的功能包含下列各项:

盘点区担任的主要功能之一, 就是集成多个来源系统的资料。运行此一功能时, 盘点区就如同是一个大型的‘桶’可暂时放置从多个来源系统的资料, 便于未来的处理。常见的是在盘点区标记资料, 利用额外诠释资料指示原版的来源, 和时间戳记指示资料何时被放置到盘点区。

一致化数据包含跨多个来源系统的参考资料标准化, 以及检核来自不同来源的纪录和资料成分间的关系。 在盘点区资料的一致化, 是功能上的密切相关也是支持‘主资料管理’(Master Data Management)的能力。

盘点区和所支持的 ETL 处理, 其设计目标通常要能在来源系统做资源上竞争的最小化。一次性从来源拷贝需要的资料到盘点区, 常会较逐笔检索个别纪录(或小组群)要有效率。之前在技术上优势的做法, 是诸如资料流技术, 透过减少需要中断来降低负担和重新连接到来源系统, 并优化在多人使用来源系统的并发锁定管理。然而以复制来源的资料, 接着在盘点区等待运行的集中处理与转换的 ETL 方式, 可获得比并发相关处理更好的控制。

盘点区能在特定时间内安排好资料供给, 该资料是迳给多个目标。某些状况下, 资料可在不同时间拉入盘点区存放, 以便一次进行全部处理。举例来说, 此类状况有可能发生企业处理进行在跨时区的每个夜晚。其他情况也可能有资料被带入盘点区以便在特定时间处理; 或在盘点区推送资料到多个目标系统。例如, 每日营运资料会被推送到作业数据存储(Operational Data Store, ODS), 而相同资料也被送到以每月聚集形式的数据仓库。

盘点区支持根据目标系统的有效变更侦测。此功能在来源系统不支持可靠形式的变更侦测, 像是系统强制时间戳记, 变更追踪, 或者变更资料捕捉(Change Data Capture, CDC)时, 特别有用。

资料清理包含从来源系统中识别和移除(或更新)无效的资料。利用盘点区, ETL 处理可用来实现企业逻辑去辨别与处理 "无效的" 资料。无效资料的定义通常是业务规则与技术限制的组合。技术性约束可能外加于盘点区的结构 (诸如一般数据库中表格约束), 以强制资料的有效性规则。

复杂业务逻辑的汇集,复杂计算与应用的重算可在盘点区进行, 以支持高回应服务级别协议(Service Level Agreements, SLAs), 用于目标系统的汇总报表。


资料归档能在盘点区进行或支持。这种情境下, 在加载过程中, 盘点区可用来维护历史纪录, 或推送资料到目标下的归档结构。此外, 资料也能维护在盘点区保存更长的时间, 以利支持 ETL 处理的技术问题排除 ....


相关

  • 人体免疫缺损病毒人类免疫缺陷病毒(英语:human immunodeficiency virus,簡稱HIV,又称艾滋病毒)是一种感染人类免疫系统细胞的慢病毒,属逆转录病毒的一种。普遍认为,人类免疫缺陷病毒的感染导致艾滋
  • 头孢氨芐头孢氨苄(英语:Cefalexin或英语:Cephalexin,又译先锋霉素Ⅳ、又作赐福力欣、头孢力欣、赐尔复新、西华烈信、施华林、喜化幸、雪华力欣、或赐泛立信等)。是一种半合成的第一代口
  • EF-TuEF-Tu(热不稳定延伸因子 英语:elongation factor thermo unstable)是原核延伸因子之一。延伸因子在核糖体翻译蛋白质中有重要作用。t-RNA通过反密码子与mRNA识别,携带在tRNA上的
  • 酷热指数酷热指数(Heat Index)是一种综合空气温度和相对湿度来确定体感温度的指数──即真正感受到的热度。人体通过排出汗液来达到降温的目的,在这个过程里汗液中的水分得以蒸发并且从
  • 三国干涉还辽三国干涉还辽(简称三国干涉)之事件,乃发生于甲午战争后。由清朝光绪政府与日本明治政府在1895年4月17日签署《马关条约》,割让辽东半岛予日本。六日后,俄罗斯、德国与法国以提供
  • 配体 (生物化学)在生物化学和药理学中,配体(英语:ligand)是指一种能与受体结合以产生某种生理效果的物质。在蛋白质—配体复合物中,配体通常是与靶蛋白特定结合位点相连的信号触发分子。而在DNA
  • 信息抽取信息抽取(Information Extraction,简称IE,又译信息截取技术)主要是从大量文字数据中自动抽取特定消息(Particular Information),以作为数据库访问(Database Access)之用的技术。信息
  • 吉尔伯特及马绍尔群岛战事东南亚地区: 缅甸:西南太平洋地区:北美地区:日本本土:满洲:在第二次世界大战太平洋战争中,从1943年11月至1944年2月的吉尔伯特和马绍尔群岛战事,是中太平洋战区的美国海军和海军陆战
  • 永登暗沙永登暗沙,中国海南省渔民习惯称呼为奈罗角、奈罗谷,为南沙群岛北部的一个暗沙,是中业群礁的一部分,位于中业群礁的东北面。由一水下环礁组成,呈南北走向,长约19公里,宽4到9.5公里,水
  • 天主教阿达暨克朗麦克诺伊斯教区天主教阿达暨克朗麦克诺伊斯教区(拉丁语:Dioecesis Ardachadensis et Cluanensis、爱尔兰语:Deoise Ardach agus Chluain Mhic Nóis)是罗马天主教在爱尔兰的一个教区,属阿马总教