数据湖

✍ dations ◷ 2025-02-24 20:53:13 #数据管理

数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统 。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。

储存数据湖的方式包括 Apache Hadoop 分布式文件系统, Azure 数据湖 或 亚马逊云 Lake Formation's云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。

一个 数据沼泽 是一个劣化的数据湖,用户无法访问,或是没什么价值。

据称此术语由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。 数据集市相对较小,包含从原始数据提取出来的有价值的属性。 在推广数据湖的时候,他认为,数据集市有几个固有的问题,例如 信息孤岛. 普华永道称,数据湖可以"解决数据孤岛。" 在其数据湖研究中,他们指出,企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术, Cloudera和 亚马逊 都有数据湖的产品。

许多公司使用 Azure Data Lake 和 亚马逊云服务 Lake Formation 之类的云存储服务,或者 Apache Hadoop 之类的分布式文件系统 学术界对于数据湖的兴趣也正在兴起。比如,Cardiff 大学 的个人数据湖,它定位于管理个人大数据,提供收集,管理和分享个人数据的单一入口. 早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限,仅有(MapReduce) 这一个数据处理范式。 数据湖的访问者必须具备用Java实现MapReduce的能力,以及掌握一些高层工具,比如 Apache Pig and Apache Hive (他们本身是面向批处理的).

在2015年六月,David Needle 表示"所谓的数据湖"是"一个(相比之下)更具争议性的方法来管理大数据". 普华永道 也在它们的研究中谨慎地指出,并不是所有的数据湖行动都是成功的。 他们引用Sean Martin,剑桥语义的首席技术官的话:

普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据,逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是,这一概念模糊和任意。 它指的是不适合进入传统的 数据仓储 架构的任何工具或数据管理实践。 数据湖已被称为一种特定的技术。 数据湖已被标记为一个原始数据保存库或 ETL 卸载枢纽。 数据湖已被定义为一个自助分析服务的中央枢纽。 数据湖这一概念涵盖了太多意义,因此这个术语的价值存疑。

相关

  • 毛利齐奥·波里尼毛利齐奥·波里尼(意大利语:Maurizio Pollini,1942年1月5日-),意大利钢琴家。毛利齐奥·波里尼生于米兰,其父为理性主义建筑学家基诺·波里尼(意大利语:Gino Pollini),曾先后师从卡洛·
  • 番薯叶番薯叶或称地瓜叶、甘薯叶,是旋花科番薯属植物番薯的叶,可作为蔬菜食用。早年种植番薯的农民为求物尽其用,割下番薯叶后多半将它煮熟。亦有农民只摘取嫩叶部分炒熟吃,或加入蒜末
  • GOT7获奖及提名列表GOT7是韩国七人男子组合,隶属于JYP娱乐,主要列举韩国男子团体GOT7由出道至今于颁奖典礼的获奖及提名。Gaon Chart K-POP大奖是依据Gaon Chart统计数据授奖的年度大型颁奖礼。
  • 亚历山大·阿希耶泽尔亚历山大·伊里奇·阿希耶泽尔(俄语:Алекса́ндр Ильи́ч Ахие́зер,1911年10月31日-2000年5月4日),苏联理论物理学家。他对物理学的许多分支做出了贡献,包括
  • 赵焕赵焕,或作宦(1541年-1619年),字文光,号吉亭,山东掖县人。明朝政治人物,万历年间吏部尚书。明世宗嘉靖四十四年(1565年)进士,任乌程县知县,调工部主事,再改任御史,又任顺天府丞,左佥都御史。
  • 行星际物质行星际物质是填充在太阳系的物质,太阳系内较大的天体,如行星,小行星和彗星都运行在其间。行星际物质包括行星际的尘埃,宇宙射线和来自太阳风的热等离子体。行星际物质的温度大约
  • 陈光 (1961年)陈光(1961年3月-),男,安徽濉溪人,中国现代管理学学者,西南交通大学教授和公共管理学院院长。四川省委省政府决策咨询委员,经常就四川发展和政府政策,发表意见。1982年毕业于西南交通
  • 斯哈贾普尔斯哈贾普尔(Shajapur),是印度中央邦Shajapur县的一个城镇。总人口50086(2001年)。该地2001年总人口50086人,其中男性25854人,女性24232人;0—6岁人口7643人,其中男3961人,女3682人;识字
  • 沙西·韦素帕蓬沙西·韦素帕蓬(泰语:โต๋ ศักดิ์สิทธิ์ เวชสุภาพร,英语:ToR+ Saksit Vejsupaporn,中文:麦圣杰,或叫ToR+,一般称Tor+ Saksit),泰国钢琴家、流行歌手、作曲家,素
  • 森山佳郎森山佳郎(1967年11月9日-),日本足球运动员,前日本国家足球队成员。1994年,他共为日本国家足球队出场7次。