数据湖(英语:data Lake),是指使用大型二进制对象或文件这样的自然格式储存数据的系统 。它通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,比如那些用于报表, 可视化, 数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据(行与列)、半结构化的数据(CSV,日志,XML, JSON),非结构化数据 (电子邮件、文件、PDF)和 二进制数据(图像、音频、视频)。
储存数据湖的方式包括 Apache Hadoop 分布式文件系统, Azure 数据湖 或 亚马逊云 Lake Formation's云存储服务,以及诸如 Alluxio 虚拟数据湖之类的解决方案。
一个 数据沼泽 是一个劣化的数据湖,用户无法访问,或是没什么价值。
据称此术语由James Dixon为了与数据集市对比而提出,当时他是Pentaho的首席技术官。 数据集市相对较小,包含从原始数据提取出来的有价值的属性。 在推广数据湖的时候,他认为,数据集市有几个固有的问题,例如 信息孤岛. 普华永道称,数据湖可以"解决数据孤岛。" 在其数据湖研究中,他们指出,企业"开始使用一个单一的、基于Hadoop的存储库来存放和提取数据。"Hortonworks, 谷歌, Oracle, Microsoft, Zaloni, 天睿动力的技术, Cloudera和 亚马逊 都有数据湖的产品。
许多公司使用 Azure Data Lake 和 亚马逊云服务 Lake Formation 之类的云存储服务,或者 Apache Hadoop 之类的分布式文件系统 学术界对于数据湖的兴趣也正在兴起。比如,Cardiff 大学 的个人数据湖,它定位于管理个人大数据,提供收集,管理和分享个人数据的单一入口. 早期的数据湖(Hadoop 1.0)在批量数据处理方面能力有限,仅有(MapReduce) 这一个数据处理范式。 数据湖的访问者必须具备用Java实现MapReduce的能力,以及掌握一些高层工具,比如 Apache Pig and Apache Hive (他们本身是面向批处理的).
在2015年六月,David Needle 表示"所谓的数据湖"是"一个(相比之下)更具争议性的方法来管理大数据". 普华永道 也在它们的研究中谨慎地指出,并不是所有的数据湖行动都是成功的。 他们引用Sean Martin,剑桥语义的首席技术官的话:
普华永道描述那些在创建数据湖方面获取成功的公司能找出对组织重要的那些数据和元数据,逐步让他们的数据湖趋向成熟。对于数据湖的另一项批评是,这一概念模糊和任意。 它指的是不适合进入传统的 数据仓储 架构的任何工具或数据管理实践。 数据湖已被称为一种特定的技术。 数据湖已被标记为一个原始数据保存库或 ETL 卸载枢纽。 数据湖已被定义为一个自助分析服务的中央枢纽。 数据湖这一概念涵盖了太多意义,因此这个术语的价值存疑。