盘点区或接地区, 是资料处理过程在萃取/转置/加载(ETL)的中介存储区。此一资料盘点区是位于资料(多个)来源和(多个)目标之间, 通常会是数据仓库, 资料超市, 或其他的资料存储库。
资料盘点区在本质上通常是暂存的, 其内容在运行 ETL 处理前, 或成功完成 ETL 处理后立即会被清除。而盘点区的架构被设计着重于延长保有资料的时间处理归档, 或排调试误。
盘点区能有的实现方式是用一般数据库的资料表, 存储在文件系统中以文字展开的文件(或XML文件)或专属格式的二进制文件。 盘点区架构复杂的范围, 从目标数据库的一组单纯关系资料表, 到独立的数据库实例或文件系统。 尽管来源系统和目标系统支持的 ETL 处理, 通常是一般数据库, 但位于数据源和目标之间的盘点区也不尽然是一般数据库。
盘点区能够安排提供很多好处, 但其主要动机是用来增加 ETL 处理的效率, 确保资料完整及支持资料操作的质量。盘点区的功能包含下列各项:
盘点区担任的主要功能之一, 就是集成多个来源系统的资料。运行此一功能时, 盘点区就如同是一个大型的‘桶’可暂时放置从多个来源系统的资料, 便于未来的处理。常见的是在盘点区标记资料, 利用额外诠释资料指示原版的来源, 和时间戳记指示资料何时被放置到盘点区。
一致化数据包含跨多个来源系统的参考资料标准化, 以及检核来自不同来源的纪录和资料成分间的关系。 在盘点区资料的一致化, 是功能上的密切相关也是支持‘主资料管理’(Master Data Management)的能力。
盘点区和所支持的 ETL 处理, 其设计目标通常要能在来源系统做资源上竞争的最小化。一次性从来源拷贝需要的资料到盘点区, 常会较逐笔检索个别纪录(或小组群)要有效率。之前在技术上优势的做法, 是诸如资料流技术, 透过减少需要中断来降低负担和重新连接到来源系统, 并优化在多人使用来源系统的并发锁定管理。然而以复制来源的资料, 接着在盘点区等待运行的集中处理与转换的 ETL 方式, 可获得比并发相关处理更好的控制。
盘点区能在特定时间内安排好资料供给, 该资料是迳给多个目标。某些状况下, 资料可在不同时间拉入盘点区存放, 以便一次进行全部处理。举例来说, 此类状况有可能发生企业处理进行在跨时区的每个夜晚。其他情况也可能有资料被带入盘点区以便在特定时间处理; 或在盘点区推送资料到多个目标系统。例如, 每日营运资料会被推送到作业数据存储(Operational Data Store, ODS), 而相同资料也被送到以每月聚集形式的数据仓库。
盘点区支持根据目标系统的有效变更侦测。此功能在来源系统不支持可靠形式的变更侦测, 像是系统强制时间戳记, 变更追踪, 或者变更资料捕捉(Change Data Capture, CDC)时, 特别有用。
资料清理包含从来源系统中识别和移除(或更新)无效的资料。利用盘点区, ETL 处理可用来实现企业逻辑去辨别与处理 "无效的" 资料。无效资料的定义通常是业务规则与技术限制的组合。技术性约束可能外加于盘点区的结构 (诸如一般数据库中表格约束), 以强制资料的有效性规则。
复杂业务逻辑的汇集,复杂计算与应用的重算可在盘点区进行, 以支持高回应服务级别协议(Service Level Agreements, SLAs), 用于目标系统的汇总报表。
资料归档能在盘点区进行或支持。这种情境下, 在加载过程中, 盘点区可用来维护历史纪录, 或推送资料到目标下的归档结构。此外, 资料也能维护在盘点区保存更长的时间, 以利支持 ETL 处理的技术问题排除 ....