列式数据库

✍ dations ◷ 2025-07-03 15:11:21 #数据库,数据库管理系统

列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理。

数据库以行、列的二维表的形式存储数据,但是却以一维字符串的方式存储,例如以下的一个表:

这个简单的表包括员工代码(EmpId), 姓名字段(Lastname and Firstname)及工资(Salary).

这个表存储在电脑的内存(RAM)和存储(硬盘)中。虽然内存和硬盘在机制上不同,电脑的操作系统是以同样的方式存储的。数据库必须把这个二维表存储在一系列一维的“字节”中,由操作系统写到内存或硬盘中。

列式数据库把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类推。

10:001,12:002,11:003,22:004;Smith:001,Jones:002,Johnson:003,Jones:004;Joe:001,Mary:002,Cathy:003,Bob:004;40000:001,50000:002,44000:003,55000:004; 

行式数据库把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类推。

001:10,Smith,Joe,40000;002:12,Jones,Mary,50000;003:11,Johnson,Cathy,44000;004:22,Jones,Bob,55000;

这只是一个简化的说法。此外,partitioning, 索引, 缓存机制, 视图, 联机分析多维数据集, 以及诸如 预写式日志 和 multiversion concurrency control 此类的事务系统都在现实的应用环境中发挥作用。一般来说, 侧重于联机事务处理 (OLTP) 的系统更适用行数据库, 而侧重于联机分析处理 的系统就必须在行数据库和列数据库中找到适当得平衡。

因为硬盘寻址时间相较于计算机上其他部件的运行速度来说不是一般的慢,所以常用相同工作负载下的硬盘访问性能来比较行数据库和列数据库。通常,顺序读取数据要比随机访问更快。而且,硬盘寻址时间的提升比起CPU速度的进步要慢得多 (参看 摩尔定律),在使用硬盘作为存储介质的系统上这种情况很可能还会持续一段时间。下面简单罗列了一些选择行数据库还是列数据库的权衡依据。当然,如果能够把数据全放在内存中,那么使用内存数据库性能会更好。

在实际应用中,面向行的数据存储架构更适用于OLTP-频繁交互事务的场景。面向列的数据存储架构更适用于OLAP-(如数据仓库)这样在海量数据((可能达到 terabyte规模))中进行有限复杂查询的场景。


列式数据库的代表包括:SAP HANA、Amazon Redshift、Sybase IQ、ParAccel、Sand/DNA Analytics、Vertica、Aster Data Systems和greenplum等。

相关

  • 生物信息学生物信息学(英语:bioinformatics)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机
  • 表格表格,是数据安排成行与列,或是更为复杂的结构。表格常用于通信、研究与数据分析。表格会出现在印刷品、手写笔记、电脑软件、建筑装饰、交通号志及其他场合。表格就是由若干的
  • 克罗沙克·奥古斯特·史丁伯格·克罗(Schack August Steenberg Krogh,1874年11月15日-1949年9月13日)是一位拥有罗姆人吉普赛血统的丹麦人,在1916年到1945年间,是哥本哈根大学动物生理
  • CD29n/an/an/an/an/an/an/an/an/an/a整联蛋白β-1(英语:Integrin beta-1),也被称为 CD29 是一个由人类基因 ITGB1 编码的蛋白质。CD29是整合素极晚期抗原受体的一个亚基。它与α-3亚
  • 日本的城日本的城,是一种提供予地方领主(大名)居住的武装建筑,主要由城门、围墙及主城组成。起始于弥生时代,全盛时期在战国时代的关原之战后,后来因为德川家康的“一国一城令”而式微,幕末
  • 最贫穷的省份中国大陆自1978年推行“改革开放”以来,经济获得飞速发展。1995年,京津沪三个直辖市人均GDP达到1千美元以上;到2000年,人均GDP过1千美元的省份达到10个,其中京津沪人均超过2千美
  • ʔh清声门塞擦音是一种辅音,使用于一些口语中。国际音标写作⟨ʔ͡h⟩或⟨ʔ͜h⟩,X-SAMPA音标则记作?_h。其中间的弧线可以省略,则音标可以分别改写作⟨ʔh⟩(IPA)、?h(X-SAMPA)。清
  • 龙胆见内文龙胆属是龙胆科下的一个大属,大约包括有400余种,广泛分布在全世界温带地区的高山地带,绝大部分为一年生或多年生的草本植物,部分为常绿品种。龙胆属植物为单叶对生,花为喇
  • Cell (微处理器)Cell微处理器架构(Cell Broadband Engine Architecture,通常简称Cell BE或CBEA)由索尼、索尼电脑娱乐、东芝、国际商业机器(IBM)公司联合开发。它是以RISC指令体系的Power架构为
  • 研究员研究员是大学或类似研究机构的学术研究职位,通常面向学术人员或教职员工。研究员可以作为独立的调查员,也可以在学术带头人的监督下工作。与研究助理相比,研究员的职位通常要求