案例一:广发银行Hadoop资源管理平台项目背景 随着广发银行大数据平台hadoop集群应用场景越来越多,研发中心、数据中心、卡中心和分行等部门均在大数据平台上进行数据开发和数据分析,由于数据开发和分析的场景各不相同,使用和购置的资源也不同。故需要通过多租户对不同用户资源进行管理。目前大数据平台hadoop集群有五个,分别是CDH应用集群、CDH分析集群、CDP集群和FI分行集群和离线集群,使用的产品为华为的FusionInsight和Cloudera的CDH/CDP。两类集群在管理用户、租户以及数据授权时的操作方法差别较大。FI在管理页面配置,CDH需要登录服务器用命令行的方式配置,随着集群规模不断扩大,这种不同的配置方式给运维工作增加了很大的压力。因此,需要自研一套hadoop集群资源统一管理工具,提高运维工作的效率,简化资源管理工作。 项目目标 该需求投产上线后,可进一步提升大数据平台hadoop集群资源管理水平,快速实现复杂场景的业务需求的落地实现。 解决方案 资源管理平台分为三大模块,一、资源管理模块,通过hadoop提供的接口和sdk,实现对多集群用户、用户组、角色和租户管理二、集群监控模块,通过hadoop提供的接口和sdk,对集群状态、租户信息和使用情况、Yarn任务和ACL目录授权监控信息进行采集,并通过可视化图表对上述采集到的信息进行展示三、平台管理模块,管理平台本身的用户、用户组、角色及平台的配置与权限,并实现审计管理等功能
项目成果通过可视化界面进行集群管理,提高运维效率和准确率 通过集中化集群管理,提高对集群管控能力,减少生产事件 提供集群租户使用资源报表功能,拥有对集群租户使用情况的全景视野,实现租户精细化管理 Yarn任务监控和导出功能,实现集群大任务监控和定期任务优化 打通行内其它系统,与其它系统实现数据共享,增强集群上下游数据交互能力 项目背景 2018年,结合云计算和大数据两大战略方向,招商银行开始准备分行数据云服务项目的建设,该项目作为招行金融科技战略的创新试点项目,目标是基于招商银行私有云及CDH大数据平台,建立起全流程的大数据服务。 借助这个项目,招行希望与大数据厂商及开源社区合作,引入符合招行特色的组件及平台,逐步推动内部对开源工具、平台的使用及自研,更开放的拥抱开源社区、反哺开源社区。 案例二:招行分行数据云服务平台 项目目标 通过分行数据云服务平台,强大的数据集成能力,支持大规模混合结构数据集成,根据管理规范,进行可视化管理,支持在线数据分析和探索,同时支持SQL、Spark和Python等开发,实现数据自助开发能力,并通过API实现数据服务化能力。总结目标如下四点: 自助式、可视化服务 快速响应业务变化 灵活调度任务和资源 集中资源、集中管控 解决方案 招商银行分行数据云服务平台目前由三部分组成: CDH集群与Seele自助服务平台 BI服务集群与圆方数据门户 统一分行数据集市 平台整体架构如下图:
基于分行数据云服务平台,实现: 分行按需申请资源, 降低分行运维成本, 提高资源利用率 参考互联网公司的实践经验,为分行科技及业务同事建设自助服务平台及数据门户。 封装复杂命令, 降低使用门槛,集成管控体系,提升开发效率 根据分行业务及科技同事的需求,提炼出稳定的分行数据集市模型, 减少无效冗余, 提高复用能力, 降低学习及运维成本,提升分析效率,支持分行数仓上云迁移 项目成果 目前招行全国44家分行已全部上线分行数据云CDH+BI服务; 截至9月8日, CDH服务共有1000+个数据项目、 20000+个工作流、 40000+个任务节点上线; BI服务共有5000+个仪表盘、 20000+个工作表上线; 分行应用上线到分行数据云平台上之后,数据加载、加工、分发处理时间都有几倍甚至几十倍的提升; |