数据湖

✍ dations ◷ 2025-08-13 21:21:19 #数据管理

数据湖（英语：data Lake），是指使用大型二进制对象或文件这样的自然格式储存数据的系统。它通常把所有的企业数据统一存储，既包括源系统中的原始副本，也包括转换后的数据，比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV，日志，XML, JSON)，非结构化数据 (电子邮件、文件、PDF)和二进制数据(图像、音频、视频)。

储存数据湖的方式包括 Apache Hadoop 分布式文件系统， Azure 数据湖或亚马逊云 Lake Formation's云存储服务，以及诸如 Alluxio 虚拟数据湖之类的解决方案。

一个数据沼泽是一个劣化的数据湖，用户无法访问，或是没什么价值。

据称此术语由James Dixon为了与数据集市对比而提出，当时他是Pentaho的首席技术官。数据集市相对较小，包含从原始数据提取出来的有价值的属性。在推广数据湖的时候，他认为，数据集市有几个固有的问题，例如信息孤岛. 普华永道称，数据湖可以"解决数据孤岛。" 在其数据湖研究中，他们指出，企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术， Cloudera和亚马逊都有数据湖的产品。

许多公司使用 Azure Data Lake 和亚马逊云服务 Lake Formation 之类的云存储服务，或者 Apache Hadoop 之类的分布式文件系统学术界对于数据湖的兴趣也正在兴起。比如，Cardiff 大学的个人数据湖，它定位于管理个人大数据，提供收集，管理和分享个人数据的单一入口. 早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限，仅有(MapReduce) 这一个数据处理范式。数据湖的访问者必须具备用Java实现MapReduce的能力，以及掌握一些高层工具，比如 Apache Pig and Apache Hive (他们本身是面向批处理的).

在2015年六月，David Needle 表示"所谓的数据湖"是"一个（相比之下）更具争议性的方法来管理大数据". 普华永道也在它们的研究中谨慎地指出，并不是所有的数据湖行动都是成功的。他们引用Sean Martin，剑桥语义的首席技术官的话：

普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据，逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是，这一概念模糊和任意。它指的是不适合进入传统的数据仓储架构的任何工具或数据管理实践。数据湖已被称为一种特定的技术。数据湖已被标记为一个原始数据保存库或 ETL 卸载枢纽。数据湖已被定义为一个自助分析服务的中央枢纽。数据湖这一概念涵盖了太多意义，因此这个术语的价值存疑。

相关

生物界物质层级物质具有科学上和哲学上的双重含义，详见下面。物质是一个科学上没有明确定义的词，一般是指静止质量不为零的东西。物质也常用来泛称所有组成可观测物体的成分。所有可以用肉
三分虫属Eutrimerocephalus三跗节虫（学名：Trimerocephalus），又名三分虫，是生存于泥盆纪法门期（英语：Famennian）的一属三叶虫，生活在深海的底层。它们没有眼睛，也没有颊部棘刺，宽阔的侧板有往下
1997年茂朱－全州第十八届冬季世界大学生运动会于1997年1月24日至2月2日在韩国的全罗北道茂朱郡举行，这是韩国首次主办冬季世界大学生运动会，韩国也成为第二个主办冬季世界大学生运动会的亚洲
曼隆学院曼隆学院（Menlo College，当地常称：Menlo）是位于美国加利福尼亚州硅谷小镇阿瑟顿的一所四年制本科私立学院，1927年成立，当时是男子中学。2015年《美国新闻与世界报道》“西部地区大
社会网络实证主义 · 反实证主义（英语：Antipositivism）结构主义 · 冲突理论中层理论 · 形式理论批判理论人口 · 团体 · 组织（英语：Organizational theory） · 社会化社会性
宝箱-TREASURE BOX-/Platinajet《宝箱-TREASURE BOX-/Platinajet》（日语：宝箱-TREASURE BOX-/プラチナジェット）是在2015年2月26日由华纳日本娱乐发行的单曲。《宝箱-TREASURE BOX-/Platinajet》是P.A.WORKS
马来酸二甲酯马来酸二甲酯（英语：Dimethyl carbate），化学名顺丁烯二酸二甲酯或()-丁烯二酸二甲酯，分子式C6H8O4，是一分子马来酸与两分子甲醇形成的二酯，可由马来酸酐与甲醇合成，先在硫酸催化下发
多克莫卡多克莫卡（Dokmoka），是印度阿萨姆邦Karbi Anglong县的一个城镇。总人口4670（2001年）。该地2001年总人口4670人，其中男性2523人，女性2147人；0—6岁人口683人，其中男347人，女336人；识字率6
飞越老人院《飞越老人院》（）是一部张扬执导的中国内地剧情片，于2012年5月上映。由中国老一辈演员许还山、吴天明、李滨等主演，这些老演员的平均年龄高达80岁。张导演称本片是一部“疯狂的
林门入斋第一世林門入齋（1583年－1667年），日本围棋棋手，生于伊贺，乳名门三郎，1590年改住江户。门三郎自幼即进步神速，被德川家康召入滨松城，受到赏赐后剃发成僧，赐姓林，改名为林门入。之后拜入本