过去的两年我在大树金融担任大数据团队负责人,打造了一套一体化无边界的大数据基础平台,其中的一些架构思路和做法值得分享一下。
何谓一体化无边界、它的架构要点、典型应用案例,这些是我接下来要讲的。
一体化无边界
所谓一体化,指的是一套基础架构同时支撑 分析挖掘、线上业务 和流处理。 所谓无边界,指的是同样的组件我们用客户也用、既可以平台/API 嵌入业务系统也可以业务逻辑嵌入数据平台。
这是我们的基础架构及业务影响图,
接下来讲下它的要点:
架构要点
抽象点说,数据总线连接各类存储、计算组件,组件能力的不同组合可以满足各类业务场景。
比如,
[存储体系]
通过实时同步,
[计算转移]
借助实时同步,我们转移了洗数逻辑,不再需要访问不同系统获得数据(直接推送给它),业务迭代更快速(SQL、实时上线),计算结果同步到原来的目标数据库(外部应用不受影响)。
依托强大的数据总线/同步能力,让我们在选择和组合业务所需的存储、计算能力方面更加自由。
大数据平台一些常见的能力/要素如下:
我们的一些组件选型及看中的能力如下:
总线连通的做法还有几个相关的问题需要考虑:
如上,针对分析挖掘、线上查询、批处理、流处理等应用场景,我们并没有独立的基础架构。但我愿顺着这个思路展开,看看针对不同业务/场景提供的解决方案:
分析架构
面向数据分析和风控人员
Hive 和 Pg 是主力,
线上架构
面向线上业务系统
TiDB 是主力,
流处理架构
既能支撑大规模分布式计算,又兼具 PgSQL 生态优势。
在数据流动的各个环节都可以自由处理,
开放架构
这一部分落实 “无边界”大数据平台的想法
核心组件服务化,
开放架构让大数据平台融入业务系统,同时通过流处理业务逻辑也可以托管在大数据平台上。
说不好 是业务系统选择了大数据平台,还是大数据平台融化了业务系统。用一个词描述可能更合适,那就是 “平台化”。
案例-运营策略优化
这是公司客户关系管理委员会提出的一个项目,其基本想法是,根据不同地方持续收集的用户及行为数据,进行客群细分(营销阶段、用户意愿等),据此作出营销决策(流转,手段等),执行/反馈,并不断作出评价和改进。
营销决策由 CRM 系统负责,客群细分在大数据平台上进行。
落实方式其实是用户画像,分为相对稳定部分和实时变化部分。数据分析团队负责稳定部分的用户标签,通过每日的全量脚本作业在 Hive 上运行实现;大数据团队负责实时部分的用户生命周期、导流状态等,在 Pg/pipelineDb 上开发实现。两份数据最终同步到 ES,在那里合并后等待 CRM 系统使用。
基础数据架构
前面讲述的各个架构有一个共同点,那就是都跟业务数据有关。这个不太一样,它是关于基础数据的。
何谓基础数据,指的是非业务逻辑产生的日志、监控、链路追踪这些基础设施和运行时系统自身的数据。而作为业务的基础数据,则包括采集、可靠传输、存储、融合,以及基于这些数据的衍生系统和业务。
基础数据架构要点如下,
业务数据 + 基础数据,交叉融合,是我构想的双剑合璧、数据大融合。关于基础数据的应用我有很多构想,这里不作展开。
写在最后
存储、计算、融合、治理。
存储、计算一般可通过选择避免研发,但融合、治理还是得自己操心。
上述描述很好的解决了数据融合问题,但对数据治理没怎么触及。
我们目前对数据治理作的直接研发不多,但已经做了很好的铺垫了。
数据治理的核心数据血缘方案一个常见的思路,是四处搜集/提取数据集、数据转换相关的元数据信息,把他们拼接、呈现出来就是我们期望的数据血缘关系图了。
上述做法很巧妙的把很多数据表定义、数据处理逻辑集中化、文本化了,这种情况下的爬取、分析,比起源码扫描分析、日志扫描分析、数据文件分析等等,要简便了多少?
实际上,由于 kafka connect、mysql、pg、hive、airflow 等已有了还算可以的元数据管理功能,我们目前对专门开发元数据管理系统的需求不是很大。
平台性能方面,日入库/处理数据量 3~4 亿条(几十 GB)的样子,迁机房造成大量重生数据时达到过 20 多亿条/天,我们在自建机房的物理机总数量 20 台左右。增加资源肯定能提升性能,根据我在前东家网宿处理更大规模数据量的经验,百亿级别的数据量应该不用调整架构。
平台运维方面,我们做了 Schema 自适应调整、自动检查修复、故障隔离、故障重启、监控/预警、数据质量报告等,所以,不出意外的话,日常运维还是比较省心的。
以上,建成的大数据基础平台其实是一套穷人的大数据平台,以较低的门槛便捷的满足各种应用场景的需求,并可以随着业务壮大做出调整和优化。愿平台后续的运营者使用愉快!
作者介绍 :
涂明雷,大树金融大数据负责人,TiDB User Group (TUG) 大使。
原文链接 :