数据仓库、数据湖、湖仓一体,究竟有什么区别?( 二 )


数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
1.5批处理和流式处理区别:
(1)数据范围:批处理对数据集中的所有或大部分数据进行查询或处理 。流处理对滚动时间窗口内的数据或仅对最近的数据记录进行查询或处理 。
(2)数据大小 ,批处理针对的是大批量数据(如GB或者PB级别) 。流处理针对的是单条记录或包含几条记录的微批数据(如KB或者MB) 。
(3)性能 ,批处理所需的时间一般是几分钟至几小时的延迟 。流处理所需的时间几毫秒至几秒的延迟 。
(4)场景 ,批处理使用的场景分析起来很复杂 。流处理只需要简单的响应调用,聚合和滚动指标 。
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
二、阿里大数据治理平台2.1产品架构
DataWorks(大数据开发治理平台)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索 。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、云原生数据仓库 AnalyticDB for PostgreSQL,云原生数据仓库AnalyticDB for MySQL,并且支持用户自定义接入计算和存储服务 。DataWorks为您提供全链路智能大数据及AI开发和治理服务 。
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
 
  • 全面托管的调度
    • DataWorks提供强大的调度功能,详情请参见调度配置 。
      • 支持根据时间、依赖关系,进行任务触发的机制 。详情请参见时间属性配置说明和配置同周期调度依赖 。
      • 支持每日千万级别大规模周期性任务调度,其将根据DAG关系准确、准时地运行 。
      • 支持分钟、小时、天、周、月、年多种调度周期配置 。
 
 
    • 完全托管的服务,无需关心调度的服务器资源问题 。
    • 提供隔离功能,确保不同租户之间的任务不会相互影响 。
  • DataWorks提供丰富的节点类型,详情可参考:选择数据开发节点 。全面的引擎能力封装,让您无需接触复杂的引擎命令行 。并提供自定义节点插件化机制,支持您扩展计算任务类型,自主接入自定义计算服务,同时,支持您结合DataWorks其他节点进行复杂数据处理 。
    • 数据集成:依托DataWorks中数据集成的强力支撑,支持超过20种数据源,为您提供稳定高效的数据传输功能 。详情请参见数据集成 。
    • 数据转化:
      • 依托引擎强大的能力,保证了大数据的分析处理性能 。例如:创建ODPS SQL节点、ODPS spark、EMR Hive、EMR MR等节点 。
      • 提供通用类型节点,,结合引擎节点可实现复杂数据分析处理过程 。例如:赋值节点、do-while、for-each等节点 。
      • 支持自定义节点,通过自定义计算服务进行数据开发 。关于自定义节点配置详情,可参考文档:概述 。
  • 可视化开发DataWorks提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务 。详情请参见界面功能点介绍 。只要有浏览器有网络,您即可随时随地进行开发工作 。
  • 监控告警运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,详情请参见运维中心 。您可以方便地配置各类报警方式,任务发生错误可及时通知相关人员,保证业务正常运行 。详情请参见智能监控 。
2.2功能介绍 
2.2.1数据集成
数据集成有两个定位,第一是数据中台对接外界核心枢纽,即对接云上系统之间数据流转的打通;第二是跨云跨网一站式数据传输,即在数据集成中,所有数据的进出都可以提供一站式的解决方案 。


推荐阅读