数据仓库、数据湖、湖仓一体,究竟有什么区别?( 三 )


数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
批量配置数据源和批量配置同步任务 。
向导模式和脚本模式,向导模式配置数据源后,参数自动生成 。
过程:选择数据源-添加同步任务 。
规则类型,8种,例如,目标表前缀;新增字段、字段赋值;目标表子端替换;
【数据仓库、数据湖、湖仓一体,究竟有什么区别?】
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
同步任务运行方式:测试运行、补数据运行和周期运行 。
同步速度调优:任务切分(切分键、作业并发数)、资源占用;
 
  • 切分键,切分源端数据;并发数小于DMU两倍 。
    • 资源单位DMU,为完成同步需要占用的CPU、内存、网络资源
    • 任务DMU<=5,并发资源数<=10
  • 自定义资源组,独占资源,利用专线+独占资源=提高速度
 
2.2.2数据建模
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
DataWorks 数据建模同时支持关系(ER、3NF)建模和维度建模(星型,雪花) 。不同类型的模型没有最好,只有更适合 。用户应该从企业的实际场景出发选择建模方式 。根据经验总结,大多数企业都会同时存在以上两种建模方式,底层模型用关系建模,力求做到数据精简,往上维度建模就更适合,靠数据冗余带来可用性、分析性和可操作性 。
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
2.2.3数据开发-降本增效利器
DataWorks数据开发(DataStudio、StreamStudio、HoloStudio)面向各引擎提供可视化开发的主界面,赋予用户智能代码开发、多引擎混编工作流、规范化任务发布的强大能力,让用户轻松构建离线数仓、实时数仓与即席分析系统 。支持引擎:MaxCompute、E-MapReduce、Flink、Hologres、AnalyticDB for PostgreSQL,满足用户不同的企业级业务场景 。
大幅提升工作效率
 
  • 非技术人员1~2小时即可掌握完整的数据研发流程
  • 无需维护各类开源技术栈,释放更多人力专注于业务
 
从容面对复杂场景
 
  • 支持顺序、循环、分支、判断等节点类型
  • 支持跨引擎、跨地域、跨周期的任务调度
 
提供更规范、科学的开发模式
 
  • 高效的多人协同任务开发模式
  • 规范且安全的任务发布上线流程
 
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
2.2.4数据治理
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
2.2.5数据服务
数据仓库、数据湖、湖仓一体,究竟有什么区别?

文章插图
 
2.3应用场景


推荐阅读