前言
自全球疫情爆发以来,PayPal 经历了创纪录的增长。为了跟上暴涨的需求,我们决定将 PayPal Analytics 分析平台迁移到公共云上。第一波大迁移是将一个仓库负载迁移到 Google Cloud 中的 BigQuery,耗时不到一年。在此过程中 PayPal 团队还构建了一个平台,可以支持其他很多用例。
这篇文章回顾了这次里程碑式的迁移体验。我们将一半的数据和处理从 Teradata 系统迁移到了 Google Cloud Platform 的 BigQuery 上。
介绍
由于组织和消费者在疫情期间踊跃采用新的业务手段,PayPal 的交易量创下了历史新高。这给我们用于合规、风险处理、产品和财务分析、营销、客户成功和欺诈保护的离线分析系统带来了很大压力。这些分析系统之前都运行在本地数据中心,以 Teradata 和 Hadoop 为核心,并配备了额外的软件和工作流来管理系统中的资源。
数据的处理需求远远超过了本地现有的容量。在疫情期间快速扩容也绝非易事。为了应对危机,数据平台团队开始人工干预,优先处理需要额外处理时间的各种负载。鉴于持续增长的业务前景,PayPal 意识到分析生态系统需要变革。
此外,我们意识到我们可以根据更好的敏捷性、可发现性、可共享性和生态系统集成的理念对我们的数据战略进行现代化改造。BigQuery 使我们能够中心化我们的数据平台,而不会牺牲 SQL 访问、Spark 集成和高级 ML 训练等能力。此外,BigQuery 还具有机器学习和实时分析等高级特性,无需将数据移到另一个系统即可利用这些能力。
PayPal 之所以选择了云而非本地扩展是考虑到了多个因素。PayPal 的数据团队绘制了迁移到公有云的蓝图,以基于 Google Cloud Platform 的能力来满足未来五年的数据需求。
上下文
PayPal 的分析基础设施是基于适用于各种用例的一系列技术构建的。数据分析师和部分数据科学家主要依赖一个数据仓库来完成数据工作。仓库中的数据是半结构化的,便于团队分析和报告。
下图提供了数据流的简化视图。来自站点数据库的数据首先进入数据仓库。来自仓库的一些数据的副本被制作成一个由开源技术提供支持的数据湖。然后,数据会使用其他数据源修饰,例如跟踪、实验和来自 PayPal 邻接源的数据,以进行变换并加载回分析仓库供消费。
图 1:PayPal 分析环境中的数据流高层视图
PayPal 在本地管理两个基于供应商的数据仓库集群,总存储量超过 20PB,为 3,000 多个用户提供服务。随着数据在业务决策中的分量愈来愈重,容量需求也在不断增长。分析仓库的瓶颈是存储和 CPU,主仓库瓶颈是 IO 和存储。
仓库用例可以大致分为交互式负载和批处理负载。交互式负载包括来自使用 Jupyter 笔记本的用户即席查询,以及使用 Tableau 和 Qlikview 等 BI 工具的报告和仪表板。批处理负载使用 Airflow 和 UC4 调度。负载大多用 SQL 编写,并使用 shell 或 Python 脚本执行。
由于流量增长带来的挑战,许多变换作业和批量加载都落后于计划。PayPal 分析师和数据科学家发现数据远远达不到他们的服务级别协议(SLA)标准,随之而来的是体验下降,并拖累了决策速度。在两大仓库中,PayPal 决定首先将分析仓库迁移到 BigQuery,获得使用该服务作为 Teradata 替代品的经验,并在此过程中为 PayPal 的数据用户构建一个围绕 Google Cloud Platform 服务的平台。之后我们将总结分析仓库的迁移和使用经验来迁移主仓库。
挑战
技术挑战
要改善 PayPal 数据用户的体验,我们需要解决以下技术挑战:
采用挑战
基础设施的变革需要克服以下采用挑战:
我们做出的选择
鉴于 PayPal 必须解决这么多挑战,很明显,创建新的本地解决方案是没什么出路的。稳健解决方案的构建块大都针对云端设计,对本地基础设施的支持较少。此外,系统扩展需要购买新的硬件,而漫长的交付周期会成为业务的瓶颈。PayPal 已经将大量负载转移到了 Google Cloud Platform,所以分析平台转移到 Google Cloud Platform 是更顺其自然的选项。我们评估了在 Google Cloud Platform 上提供服务的各个供应商,看看他们是否可以解决前面提到的一些技术挑战,然后我们将选择范围缩小到了 BigQuery。我们对 BigQuery 进行了为期 12 周的评估,以涵盖不同类型的用例。它在我们设定的成功标准下表现良好。下面提供了评估结果的摘要。
作为我们蓝图的一部分,我们决定处理图 1 中所示的“分析仓库”。
我们使用的方法
我们选择了要探索的云和仓库后就确定了以下路径并开始进入下一阶段。
客户联系
我们根据过去 12 个月的使用统计数据联系了仓库用户,以及该集群中的数据提供者。我们安排了时间,引导他们做出决定,并寻求他们对这次迁移的支持。这种利益相关者的支持对我们的成功迁移是很重要的。我们向他们解释了基本原理,告诉他们我们计划如何解决这个问题。一些用户很兴奋,并希望深度参与迁移工作。我们选择了一个业务部门中的一个团队作为早期采用者,并将我们的迁移工作重点放在他们的用例和数据要求上。
安全基础设施建设
我们构建了一个安全的基础设施来将数据移动到云端。我们将 BigQuery 中的数据保存为美国的多区域数据,以便从美国的其他区域访问。我们在数据中心和 Google Cloud Platform 中离分析仓库最近的区域之间实现了安全的私有互联。由于我们希望以混合模式运营(在可见的未来,其他连接系统仍保留在本地),因此没有出口成本的私有互联是更好的选择。
我们决定在 Google Cloud Platform 提供的服务范围内,在 BigQuery 中使用 PayPal 提供的私钥来保护我们的数据。这确保了数据的安全性,保证数据位于无法从外部访问的范围内。我们部署了自动化操作以防止意外创建缺少加密密钥的数据集。通过这种方式,我们为存储在 Google Cloud Platform 中的所有数据启用了默认加密,这符合我们的内部政策和外部规范。
我们已使用这一基础架构将超过 15PB 的数据复制到了 BigQuery 中,并将 80 多 PB 数据复制到了 Google Cloud Services 中,用于各种用例。我们使用同一套网络基础架构,让用户通过 Jupyter 笔记本、Tableau 或从他们的计划作业访问 BigQuery。
合规和渗透测试
PayPal 是一个金融科技组织,在我们的数据集中会处理 PCI 和 PII 数据元素,因此我们与各种监管机构合作,提交了我们将数据移至云端的意图。PayPal 的信息安全、区域业务部门和法律团队与我们的团队一起,加班为监管机构准备文书工作。我们进行了多轮渗透测试,以确保没有漏洞可利用。这一过程帮助我们验证了基础设施中的数据保护和访问设计。
DDL(数据定义语言)和 SQL 转换
因为我们要使用新技术将数据用户带到云端,我们希望减轻从 Teradata 过渡到 BigQuery 的阵痛。为了实现这一点,我们评估了各种选项并从CompilerWorks选择了一个工具。它的转译器让我们可以在 BigQuery 中创建 DDL,并使用该模式(schema)将 DML 和用户 SQL 从 Teradata 风味转为 BigQuery。PayPal 努力强化了转译器配置,以生成高性能、干净的 BigQuery 兼容 SQL。
这种自动代码转换对我们来说是非常关键的一步,因为我们希望为用户简化迁移工作。除了代码转换之外,我们还从 CompilerWorks 的工具中提取了有价值的血统(lineage)数据。 我们创建了一个自动化框架以及一个用于交互式使用和自助代码转换的门户 。自动化框架不断轮询本地基础架构的更改,并在创建新工件时在 BigQuery 中创建等效项。我们要求用户使用这个门户将他们现有或已知的 SQL 转换为与 BigQuery 兼容的 SQL,以进行测试和验证。我们还利用这一框架来转换用户的作业、Tableau 仪表板和笔记本以进行测试和验证。这种自动化框架帮助我们转换了超过 1 万条 SQL。
负载、模式和表标识
为了确定负载的范围,该团队检查了我们存储库中的所有笔记本、Tableau 仪表板和 UC4 日志。根据我们确定的表,我们创建了一个血统图来制订一个包含所使用的表和模式、活跃计划作业、笔记本和仪表板的列表。我们与用户一起验证了工作范围,确认它的确可以代表集群上的负载。这帮助团队大大减少了我们需要迁移的负载数量。以下是从总体清单中弃用的内容细节。
图 3:在迁移过程中弃用的负载
对自动化框架的投入帮助我们区分了用过/未使用的内容,并在最后一步获得用户的验证。让用户手工确认会很枯燥,且容易出错。
数据移动、加载和验证
在我们完成这个项目的过程中,很明显数据移动与我们的设置高度相关,并且要使用现有的工具将数据无缝复制到 Google Cloud Platform 会出一些问题。这是整个项目中最难的部分。它的难点在于偶然出现的复杂性,而非容量。以下是我们遇到的问题:
干运行和湿运行
干运行 ,指的是没有数据的执行,可以确保变换的查询没有语法错误。如果干运行成功,我们会将数据加载到表中并要求用户进行湿运行。 湿运行 是一次性执行,用来测试结果集是否全部正确。我们为用户创建了用于湿运行的测试数据集,在湿运行后再验证他们的生产负载。所有这些都是为使用我们的应用程序生命周期管理门户的用户设计的,我们的用户习惯用这个门户部署应用程序。我们非常重视将我们的测试融入用户习惯的生态系统的理念。
进展的可见性
上述活动中很多是同时进行的。这就需要沟通协调,但人类或协作电子表格是很难做好这一工作的。我们跟踪 BigQuery 中的所有数据,这些数据会在执行发生时自动更新。我们创建了一些仪表板来跟踪活动的顺序,并向我们的高管和利益相关者一致地报告进展情况。这些仪表板跟踪多个里程碑的数据复制进度、负载合理化以及笔记本、计划作业和干湿运行的 BI 仪表板的准备进度。示例报告如下所示。用户可以通过数据库名称和表名称来搜索以检查状态。
图 4:数据复制仪表板示例
进展顺利
在我们的案例中这句话非常正确,因为这个里程碑是 PayPal 的许多团队齐心协力打造的。我们相信是下面这些理念让我们的故事与众不同,帮助我们取得了成功:
总结与后续
目前,PayPal 的用户社区已经顺利过渡到了 BigQuery。用户需要项目约定方面的上手帮助(与 Teradata 相比,这对他们来说是新的概念);在一些帮助下,他们很快就提高了工作效率。用户非常喜欢 BigQuery 日志的查询性能优势、更快的数据加载时间和完全可见性。
带领 PayPal 完成这次迁移,帮助我们评估和观察了 BigQuery 和 Google Cloud Platform 可以为 PayPal 带来哪些收益。数据用户现在使用 SQL,以及通过笔记本使用的 Spark 和通过 BigQuery 使用的 Google>
我们正在计划将来自财务、人力资源、营销和第三方系统(如 Salesforce)以及站点活动的多个数据集整合到 BigQuery 中,以实现更快的业务建模和决策制定流程。团队正在研究流式传输能力,以将站点数据集直接注入 BigQuery,让我们的分析师近乎实时地使用。除了 BigQuery,我们的一些团队还利用 Google top="7146.453125">致谢
PayPal 有许多员工直接或间接参与了这项工作。我们印度办事处的许多员工在应对肆虐的疫情同时还花很多时间投入这项工作。我们对他们所有人表示感谢!
非常感谢领导该项目的 Vaishali Walia,以及帮助保持迁移正常进行的整个德勤团队。
还要感谢为本文提供意见的 Bala Natarajan,以及帮助撰写本文的 Melissa O'Malley、Michael Davis 和 Parviz Deyhim。
原文链接: