沃尔玛元数据管理平台



项目背景

       沃尔玛经过多年的信息化发展,已经从信息化进入到数字化的运营阶段,技术体系涵盖了关系型数据库、MPPHDP和报表等,数据分散在不同的系统和数据库,对企业管理人员、业务人员、数据开发人员及运维人员来讲都没有一个统一的媒介去检索和发现数据,导致数据的价值没有得到充分的发挥。因此,构建一个统一的元数据管理平台就显得尤其重要,它将是大数据时代最重要的数据资产。寄希望通过元数据管理项目作为切入点建立统一资产管理平台,并打通数据湖平台及外围工具数据流血缘关系,模型依赖,影响分析,形成数据地图,数据探索和导航的服务。


项目目标

统一元数据管理

    根据使用数据资产的方式来管理数据资产的流程,帮助数据管理者集成、链接和集中管理多个来源的元数据,便于在整个组织内妥善维护、分析、消费和解释数据。当从业务元数据和技术元数据中得出数据的含义时,可以更有效地汇总和集成数据。只有有效管理元数据时,海量的、格式各异的大数据才会更有价值。

统一多租户管理

     基于现有数据湖平台(HDP,结合公司现有BPMS系统,集成用户权限/存储/计算资源申请,审批,监控,管理功能。

统一数据开发门户

      实现用户在线可视化方式进行数据开发,进行数据建模,ELT处理,指标开发,指标开发完成后可以提交评审,打分,完成审批后可发布分享给平台其它用户使用。

统一Job调度能力

      集成现有离线/实时的Job脚本进行统一的管理,调度,依赖,监控和告警。


解决方案

     沃尔玛元数据管理平台具备集成数据同步、数据建模、数据开发、任务测试、任务调度、数据治理、数据服务等一站式的全流程大数据能力,实现企业数据设计、开发管控一体化,帮助企业构建可管控,能力可复用的敏捷数据中台平台整体规划如下图:


项目成果

      以传统数仓Teradata为主要数据源,以HDP为数据湖,采集TeradataHDP以及其他外围工具的元数据,形成数据地图,数据探索和导航的服务,并初步实现基于HDP的数据集成、数据开发、元数据管理、任务调度、多租户管理的统一的数据开发和元数据管理平台,促进沃尔玛的数字化发展。