数据湖

✍ dations ◷ 2025-10-26 05:26:36 #数据管理

数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统 。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。

储存数据湖的方式包括 Apache Hadoop 分布式文件系统, Azure 数据湖 或 亚马逊云 Lake Formation's云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。

一个 数据沼泽 是一个劣化的数据湖,用户无法访问,或是没什么价值。

据称此术语由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。 数据集市相对较小,包含从原始数据提取出来的有价值的属性。 在推广数据湖的时候,他认为,数据集市有几个固有的问题,例如 信息孤岛. 普华永道称,数据湖可以"解决数据孤岛。" 在其数据湖研究中,他们指出,企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术, Cloudera和 亚马逊 都有数据湖的产品。

许多公司使用 Azure Data Lake 和 亚马逊云服务 Lake Formation 之类的云存储服务,或者 Apache Hadoop 之类的分布式文件系统 学术界对于数据湖的兴趣也正在兴起。比如,Cardiff 大学 的个人数据湖,它定位于管理个人大数据,提供收集,管理和分享个人数据的单一入口. 早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限,仅有(MapReduce) 这一个数据处理范式。 数据湖的访问者必须具备用Java实现MapReduce的能力,以及掌握一些高层工具,比如 Apache Pig and Apache Hive (他们本身是面向批处理的).

在2015年六月,David Needle 表示"所谓的数据湖"是"一个(相比之下)更具争议性的方法来管理大数据". 普华永道 也在它们的研究中谨慎地指出,并不是所有的数据湖行动都是成功的。 他们引用Sean Martin,剑桥语义的首席技术官的话:

普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据,逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是,这一概念模糊和任意。 它指的是不适合进入传统的 数据仓储 架构的任何工具或数据管理实践。 数据湖已被称为一种特定的技术。 数据湖已被标记为一个原始数据保存库或 ETL 卸载枢纽。 数据湖已被定义为一个自助分析服务的中央枢纽。 数据湖这一概念涵盖了太多意义,因此这个术语的价值存疑。

相关

  • 卵裂球卵裂球(Blastomere、胚叶细胞)是受精卵发育过程所经历过的一个阶段,指的是由受精卵分裂而生成的形态上尚未分化的细胞。主要指的是从二细胞期到八细胞期之间的形态,其中每一个细
  • 荷兰皇家陆军荷兰皇家陆军(荷兰语:Koninklijke Landmacht)是荷兰军队的地面部队。荷兰陆军成立于1814年1月9日,但它的起源可追溯至1572年。荷兰共和国在17和18世纪初开始训练这支军队,并参与8
  • 许延邵许延邵,浙江湖州武康人,清朝政治人物、进士出身。顺治十五年,登戊戌科进士。康熙十四年,担任江西建昌县知县。后调任星子县知县。康熙三十三年,担任福建泉州府知府。
  • 诙谐曲诙谐曲(Scherzo),是一种快速,节奏强烈的器乐曲,一般为三拍子,有令人惊奇、幽默的特点,是从小步舞曲中发展出来的,原文是意大利文意思是“玩笑”。海顿首先在写作奏鸣曲时用诙谐曲代
  • 川村二郎川村二郎(1928年1月28日-2008年2月7日),日本文艺评论家、德国文学专家。东京大学德文科毕业。著有《限界的文学》(1969)、《幻视与变奏》(1971)、《银河与地狱:幻想文学论》(1973
  • 陈月末陈月末(1983年7月29日-),是中国大陆男演员,北京人。父亲是著名演员陈宝国,母亲是著名演员赵奎娥。1996年,陈月末参加学校的演出《北大荒》,97年曾经架鹰,98年被父亲送到英国学习。爱
  • 金丸信金丸信(日语:金丸 信/かねまる しん ,1914年9月17日-1996年3月28日),日本政治家,自由民主党党员,曾历任众议员(12期)、防卫厅长官(第35代)、国土厅长官(第3代)、建设大臣(第34代)、副总理、
  • 索玛纳哈利·马雷阿·克里希纳索玛纳哈利·马雷阿·克里希纳(卡纳达语:ಸೋಮನಹಳ್ಳಿ ಮಲ್ಲಯ್ಯ ಕೃಷ್ಣ,英语:Somanahalli Mallaiah Krishna,1932年5月1日-)通常被称为“克里希那”,印度政治家。现
  • PSRS算法PSRS算法(Parallel Sorting by Regular Sampling):首先设待处理里序列长n,并行机上有p个处理器。为了使问题简单,我们假设n是p的整倍数。于是将这n个元素划分为p段,每段中有n/p个
  • 黑潮岛航《黑潮岛航:一群海人的蓝色旷野巡礼》(英语:Beyond the Blue: Kuroshio's Voyage),2019年8月由台湾的出版社“网络与书”(大块文化)发行,作者为吴明益、张卉君及陈冠荣,并于2019年8月