数据仓库、数据湖、湖仓一体,究竟有什么区别?

一、基本概念1.1数仓发展历史

数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据湖是以集中方式存储各种类型数据,提供弹性的 容量和吞吐能力,能够覆盖广泛的数据源,支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台 。它 能够实现数据分析、机器学习,数据访问和管理等细粒度的授权、审计等功能 。
数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖, 无需在数据上传之前对数据进行任何的结构化处理 。数据湖可以存储结构化数据(如关系型数据库中的表),半结 构化数据(如 CSV、JSON 、XML、日志等),非结构化数据(如电子邮件、文档、PDF 等)以及二进制数据 (如图形、音频、视频等)
1.2数据湖、数据仓、湖仓一体发展历程
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
(1)数据仓库,适合结构化数据,但不适合非结构化数据 。
(2)数据湖:支持多种格式存储数据库 。但不支持事务处理、不保证数据质量in过去缺乏一致性/隔离性,无法实现混合追加和读取数据,以及完成批处理和流式作业 。
(3)lakehouse:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能 。
1.3数据湖
1.3.1数据湖特征
 
  • 保真性,有一份业务原始数据,对业务数据一模一样完整拷贝 。
  • 灵活性,读取型Schema,数据逻辑处理延后
  • 可管理,数据管理能力,包括数据源、数据连接、数据格式、数据schema(库/表/列/行),权限等 。
  • 可追溯,数据生命周期管理,定义、接入、存储、处理、分析、应用全过程,可清楚重现数据完整产生过程和流动过程 。
  • 丰富计算引擎,批处理+流式技术+交互式分析+机器学习 。
  • 多模态的存储引擎
 
1.3.2数据湖架构
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
通用数据湖架构
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
1.3.3云原生数据湖的特征
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
1.4数据湖与数据仓库对比
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
首先,数据捕获时未定义架构 。数据湖在功能上可以实现各种类型数据的存储,数据湖中的数据可以是非结构 化的、未处理的形态,数据可以在确定需要使用时才会对数据进行对应处理与转换;而数据仓库则通常存放的是经 过处理的、结构化的数据,数据存储的 Schema 在数据存储之前就需要被定义好 。
其次,存储到数据湖中的数据通常会按照原始形态直接存储,随着业务和使用场景的发展,会使用不同的计算 存储的数据进行分析与处理,数据湖中的数据在一个企业组织中通常会被多个不同应用、系统和部门使覆盖的场景广泛并且范围也会动态延展,因此需要提供更多的灵活性以适应快速变化的应用场景;数据通常使用场景是在数据收集期间就已经明确,数据仓库通常集中在 BI、业务、运营等商业决策相关场 仓库也可以把已经存在的数据转换到新场景,但在灵活性方面不如数据湖,需要有更多的数据转换时间 投入 。


推荐阅读