关于基础软件产品价值的思考 黄东旭 (关于基础软件有哪些)

关于基础软件产品价值的思考 黄东旭 (关于基础软件有哪些)

前几年偶尔会写一些关于 TiDB 产品功能解读的文章,TiDB 5.0 发了那么长时间了,也应该写一写了。我其实在多个场合里表达过我对于 5.0 的重视,这个版本可能是对于 TiDB 来说的 MySQL 5.x,熟悉 MySQL 生态的朋友肯定知道我在说什么,MySQL 5.x,尤其是 5.5~5.7 这几个重要的版本基本上为 MySQL 的快速扩张奠定了坚实的基础,也培养了一大批 MySQL 的用户和人才。

对我而言,TiDB 是一个绝佳的样本,在此之前,中国本土很少有这样从零到一做出来的开源基础软件产品,多数工程师和产品经理都是这些软件的“使用者”,更多的是构建业务系统,而 TiDB 让我们第一次得以“设计者”的视角参与其中:每一个功能特性的设置背后的思考,对基础软件产品的价值呈现,体验还是很不一样的,借着这篇文章写点感受,另外这个文章是春节前我在 PingCAP 内部给 Presales 和 PM 培训上的分享整理而成,不一定正确,仅供参考。

我们做的事情,对于用户意味着什么?

要讲好基础软件的产品价值,首先要克服的第一个关卡: 学会换位思考。 其实 TiDB 每个版本都带着数十个的特性和修复,但是多数时候我们的 Release note 只是忠实的反映了 “我们做了什么”:

TiDB 4.0 GA 的 Release Note 截图

各位这里请不要理解错我的意思,这种类型的记录是很有必要存在的,但是仅有这个是远远不够的。例如在 TiDB 5.0 ~5.5 的版本里面,我们引入了 n 多的新特性:聚簇索引,异步提交事务模型,优化了 SQL 优化器,支持了 CTE,引入了锁视图和持续性能诊断工具,改进了热点调度器,降低了获取 TSO 的延迟,引入 Placement Rules SQL…这些名字在 TiDB 的开发者看来是没问题的,但是请注意,更重要的问题是: 这些对于用户(客户)意味着什么?

要回答这个问题的思路有两种,我分别讲讲:

对于第一种思路,通常适用于比较新的特性,尤其是一些过去从来没有的新鲜东西。用一个比较好理解的例子:假如大家都在开马车的时候,你发明了一个汽车,这时候如果你以汽车解决了马儿要吃草的问题作为价值点显然是比较荒谬的,更合理的是描绘高速通勤的场景带来的便利性作为卖点。这种思路有两个关键点:

第一种思路本质上来说是 Storytelling,这种方式的好处在于:

对于第二种思路,通常适用于一些改进型的特性,其中的关键点在于:待解决的问题到底多痛?没有完美的软件,在重度用户那边一定会有各种各样的问题,而且这类问题通常这个功能的开发者是难以体会到的,这时候要做的也很简单,就是弯下腰去了解,去使用,去感受。我经常会去和我们的客户交付团队的一线同学聊天,在做这次分享之前也不例外,大致的对话如下:

上面最后一句的两个反馈,我听到以后觉得很有启发,其实这两个需求都是很中肯,而且开发的代价并不大,但是确实节约了很多的时间和 DBA 的心智负担。

类似的例子还有很多,但是重点是: 找到产品的重度使用者,深入挖掘他最头疼的问题,有时候会有意想不到的收获(例如去 OnCall 的现场观察大家的操作)。 而且这类问题的解决,通常也会伴随着很好的体感,TiDB 在最近几个版本中的一些关于可观测性的改进,基本都是通过类似的观察得来。

但是第二种思路的价值展现,一定要找到合适的听众,例如:通常我们为应用开发者(数据库的使用者)解决的问题和数据库运维者(DBA)是不一样的。面对错误的对象,结果有可能会是鸡同鸭讲。

当用户在说:“我要这个”的时候,Ta 其实在说什么?

在中国基础软件的产品经理和解决方案工程师难找,我觉得是有历史原因的,就像上面我提到,过去很长时间,我们通常是站在一个“使用者”的视角去看待软件,这意味着从问题到解决方案通常是明显的,例如,假设我需要做一个高性能,支持亚毫秒低延迟读写的 User Profile 系统,数据量不大,可以容忍数据丢失,那我就用 Redis 好了!但是作为 Redis 的产品经理来说,ta 很难为了 User Profile 这个很特化的场景去设计 Redis 的功能。

优秀的基础软件产品经理通常会选择通用的技能点,用尽可能小的功能集合来包含更大的可能性(这样的灵活性是被鼓励的,例如:UNIX),所以这就对于基础软件厂商的售前和解决方案工程师提出了更高的要求: 很多业务需要的“特性”是需要多个“技术点”组合出来的,或者通过引导到正确的问题从而提供更好的解决方案。 下面我会通过几个例子来说明这个观点:

第一个例子,我们的经常被用户问到:TiDB 有没有多租户功能?这个问题的我的回复并不是简单的“有”或者“没有”,而是会去挖掘用户真正想要解决的问题是什么?潜台词是什么?在多租户的例子中大概逃不出下面几种情况:

搞清楚情况后,对于这几种不同的情况,我就拿其中一个作为例子:节约成本,展开说说。下一步就是思考我们手上有什么菜了。

对于 TiDB 5.x 来说,大致有下面几个技术点和上面这个特性相关:

对于节约成本的诉求,通常的原因是冷热数据比例比较悬殊,我们观察到多数大集群都符合 2/8 原则,也就是 20% 的数据承载 80% 的流量,而且尤其是对于金融类型业务,很多时候数据是永远不能删除的,这就意味着用户也需要为冷数据支付存储成本,这种情况按照统一的硬件标准去部署这其实是不划算的,所以站在用户的角度,是很合理的诉求。

下一步需要思考的是: 世界上没有新鲜事,用户现在是通过什么办法解决这样的问题呢?

类似冷热分离这样的场景,我见过比较多的方案是冷数据用 HBase 或者其它比较低成本数据库方案(例如 MySQL 分库分表跑在机械磁盘上),热数据仍然放在 OLTP 数据库里,然后定期按照时间索引(或者分区)手动导入到冷数据集群中。这样对于应用层来说,就要知道的哪些数据去哪里查询,相当于需要对接两个数据源,而且这样的架构通常很难应对突发的冷数据读写热点(尤其是 ToC 端业务,偶尔会有一些“挖坟”的突发流量)。

然后下一个问题是: 我们的产品解决这个问题能给用户带来哪些不一样? 如果还是需要用户手动做数据搬迁,或者搭建两个配置不同的 TiDB 集群,那其实没什么大的区别,在这个场景里面,如果 TiDB 能够支持异构集群,并且自动能将冷热数据固化在特定配置的机器上,同时支持冷数据到热数据自动交换,对用户来说体验是最好的:一个 DB 意味着业务的改动和维护成本最低。在 TiDB 5.4 里面发布了一个新的功能,叫做 Placement Rules in SQL, 这个功能可以让用户使用 SQL 声明式的决定数据的分布策略,自然可以指定冷热数据的分布策略。更进一步, 对于多租户要求的更复杂数据分布方式,例如不同租户的数据放置在不同的物理机上,但是又能通过一个 TiDB 集群统一管控,通过 Placement Rules in SQL 这个功能也能实现。

Meta Feature:解决方案架构师的宝藏

说到这里,我想进一步展开一个概念,有一些功能和其它功能不一样,这类功能可以作为构建其它功能的基础,组合出新的特性。这类功能我称之为:Meta Feature,上面提到的 Placement Rule 就是一个很典型的 Meta Feature, 例如:Placment Rule + Follower Read 可以组合成接近传统意义上的数据库一写多读(但是更灵活,更加细粒度,特别适合临时性的捞数或者做临时的查询,保证数据新鲜的情况下,不影响在线业务),Placement Rule + 用户自定义的权限系统 = 支持物理隔离多租户;Placement Rule + Local Transaction + 跨中心部属 = 异地多活(WIP);Placement Rule 还可以将精心设施数据的放置策略,让 TiDB 避免分布式事务(模拟分库分表),提升 OLTP 性能。

Meta Feature 通常不太会直接暴露给终端的用户,因为灵活性太强,用户会有一定的学习成本和上手门槛(除非经过精心的 UX 设计),但是这类能力对于架构师 / 解决方案提供商 / 生态合作伙伴尤其重要,因为 Meta Feature 越多,一个系统的“可玩性”越高,造出来的差异化方案也越多。但是通常我们会犯一个错误:灵活性是否等于产品价值?我认为不是的,虽然工程师(尤其是 Geek)对这类开放能力有天生的好感,但是对于终端用户到底能否说好这样的故事,我是存疑的,看看 Windows 和 UNIX 的终端用户的市场占有率就知道了。在这个例子上最近我听到了个绝佳的例子,和大家分享: 你并不能对一个美式的爱好者说拿铁更好,因为你可以灵活的控制含奶量,奶量降低到 0 就包含了美式。

我们再看一个场景,关于批处理。熟悉 TiDB 历史的朋友肯定知道我们最早这个项目的初心其实是从 MySQL Sharding 的替换开始的,后来慢慢的很多用户发现:反正我的数据都已经在 TiDB 里了,为什么不直接在上面做计算?或者原来一些使用 SQL 做的复杂的数据变换工作遇到了单机计算能力瓶颈,而且因为一些业务要求,这些计算还需要保持强一致性甚至 ACID 事务支持,一个典型的场景就是银行的清结算业务。

本来年轻的我还不太理解,这类批处理业务直接 Hadoop 跑就好了,后来了解清楚情况以后才发现还是年轻了,对于银行来说,很多传统的清结算业务是直接跑在核心的数据库上的,而且业务也不简单,一个 Job 上百行的 SQL 家常便饭,很可能开发这个 Job 的开发商已经不见了,谁也不敢轻易改写成 MR Job,另外对于批量后结果,可能还要回填到数据库中,而且整个过程需要在短短几个小时内完成,完不成就是生产事故。原本如果数据量没那么大,跑在 Oracle,DB2 小型机上也没啥问题,但是最近这几年随着移动支付和电子商务的兴起,数据量越来越大,增长也越来越快,Scale-Up 一定迟早成为瓶颈。TiDB 在其中正好切中两个很高的价值点:

对于银行的批量业务来说,令人头疼架构改造问题变成了简单的买机器的问题,你说香不香?但是在 TiDB 早期设计的解决方案中,有几个痛点:

对于第一个问题,通常一个典型的 TiDB 做批量任务的流程是:下档(每日的交易记录通过文件的形式发布)-> 将这些记录批量写入到 TiDB 中 -> 计算(通过 SQL) -> 计算结果回填到 TiDB 的表中。档案记录可能是一大堆文本文件(例如 CSV)格式,最简单的写入方式肯定就是直接一条条记录用 SQL Insert 的方式写入,这个方式处理点小数据量问题不大,但是数据量大的话,其实是比较不划算的,毕竟大多数导入都是离线导入,虽然 TiDB 提供大事务(单个事务最大 10G),但是站在用户的角度有几个问题:

一个更好方式是支持物理导入,直接分布式的生成底层存储引擎的数据文件,分发给存储节点,直接插入物理文件,也就是 TiDB 的 Lightning 做的事情。在最近的一个真实用户的场景观察到,Lightning 使用 3 台机器,大概在 72h 内完成了 ~30T 的原始数据的转码和导入工作,大概导入吞吐能做到 380GB/h。所以在批量的场景中,能使用 Lightning 物理导入模式的话,通常是一个更快且更稳定的解。

另外的一个痛点,计算瓶颈(听起来还挺不合理的,哈哈哈),在早期 TiDB 还不支持 MPP 的时代,TiDB 只支持 1 层的算子下推,也就是 Coprocessor 分布在 TiKV 中的计算的结果只能汇总在一台 TiDB 计算节点上进行聚合,如果中间结果过大,超过了这个 TiDB 节点的内存,就会 OOM,这也就是为什么过去 TiDB 需要引入 Spark 来进行更复杂的分布式计算的原因(尤其是大表和大表的 Join),所以在过去对于复杂的批量业务还是需要引入一批 Spark 的机器通过 TiSpark 对 TiDB 的计算能力进行补充。但是在 TiDB 5.0 后引入了 TiFlash 的 MPP 模式,可以通过多个 TiDB 计算节点进行计算结果聚合,于是计算能力并不再是瓶颈了,这意味着,很有可能在一些 TiDB 的批量计算场景中,5.0 能够节省一批 Spark 的机器,意味着更简单的技术栈和更高的性能。

更进一步,引入 Spark 还有一个原因,就是在计算结果回填的阶段,由于 TiDB 的事务大小限制,以及提升并发写入的效率,我们会使用 Spark 来对 TiDB 进行分布式的数据插入。这个过程理论上也是可以通过 Lightning 改进的,TiFlash MPP 可以将结果数据输出成 CSV,Lightning 是支持 CSV 格式的数据导入的。

所以原来的链路理论上有可能变成:Lightning 导入数据到 TiDB -> TiDB 使用 TiFlash MPP 进行计算结果输出成 CSV -> 再次通过的 Lightning 将 CSV 结果写入到 TiDB 中;有可能比使用 TiSpark + 大事务的方案更快更省资源,也更稳定。

在这个方案上我们可以再延伸一下仔细想想,上面的方案优化其实是利用了 Lightning 的大批量数据写入能力,理论上有“大写入压力”的数据导入场景,都可以通过这个思路改进。我这里分享一个 TiDB 的用户真实反馈:这个客户业务系统上到 TiDB 后,会有定期大表导入的场景,他们希望先将大空表通过 Placement Rule 指定到特定空闲主机,然后通过 Lightning 快速导入数据,不需要考虑限流等措施也可以降低对整体集群的影响,实现快速导入;相反的,如果 TiDB 没有这个调度能力,客户只能通过限流的方式保持集群稳定,但是导入速度会很慢。这个例子是通过 Placement Rule + Lightning 实现了在线的批量写入,也是很好的呼应了一下前面关于 Meta Feature 的描述。

本来在线下的分享中还有关于“分库分表” vs TiDB 的例子,因为篇幅关系就不展开了,感兴趣的可以按照上面的思路去思考。

更隐式,但更大更长期的价值:可观测性和 Troubleshooting 能力

最后一部分,大家也能看到,最近其实我一直在努力的传达这个 Message,对于一个基础软件产品来说,一个重要的长期竞争力和产品价值来自于可观测性和 Troubleshooting 能力。这个世界没有完美的软件,而且对于有经验的开发者来说,快速的发现和定位问题的能力是必备的,对于基础软件的商业化来说,服务支持效率和 Self-serving 也是规模化的基础,这一点在云的环境下也同样重要。我这里说一些我们最近做的一些新的事情,以及未来面临的挑战。

TiDB Clinic (tiup diag)

为什么要做这个事情?过去我们在做故障诊断的时候,是一个痛苦的过程,除了我在之前的关于可观测性的文章中提到的老司机的经验只在老司机脑子里的问题外,我观察到其实消耗时间的大头来自于收集信息,尤其是部署在用户自己的环境中,用户对于系统诊断并不熟悉,求助我们的服务支持的时候,经常的对话是:

但是反过来,TiDB 的服务支持人员的痛点是:

于是就有了 Clinic 这个产品了,在用户同意的前提下:

如果熟悉 AskTUG (TiDB 用户论坛)的朋友,可能会看到类似这样的链接:(例如这个 case:)

对于用户来说,只需要在集群内执行一个简单的命令,就会生成上面这样的一个链接,把重要的诊断信息与 PingCAP 的专业服务支持人员共享,我们在后台可以看到:

其实 TiDB Clinic 也是对于基础软件的维护性的一个新尝试:诊断能力的 SaaS 化,通过一个在云端不断强化的规则引擎,将故障的诊断和修复建议和本地的运维部署结耦。这样的能力会变成用户选择 TiDB 的一个新的价值点,也是 TiDB 很强的生态护城河。

TiDB Dashboard 中 Profiling

我心目中对于一个基础软件产品是不是好,我有一个特别的标准: 自带 Profiler 的,基本上都是良心产品,能够把 Profile 体验做 UX 优化的, 更是良心中的良心。例如 Golang 的 pprof,用过都说香。其实这个点说起来也不难做,但是关键时刻能救命,而且通常出事的时候也没法 Profile 了,这个时候如果系统告诉你,自己在故障的时候保存了一份当时的 profile 记录,这种雪中送炭似的帮助的体验是很好的。

其实这个功能来自于几个我们实际处理过的 oncall case,都是一些通过 metric 没法覆盖到的问题,有一大类故障,是遇到硬件瓶颈了,大概逃不过 CPU 和磁盘,磁盘瓶颈相对好查,大致看有没有大的 IO(Update / Delete / Insert)或者 RocksDB 本身的 Compaction 就好,但是 CPU 瓶颈的查找方式就模糊许多,Profiler 几乎是唯一的方式:

目前 TiDB 在 5.x 中提供了两种 Profile 方式:手动 Profile 和自动持续 Profile,两种应用场景不同,手动的通常用于针对性的性能优化;自动持续 Profile 通常用于系统出现问题后的回溯。

面临的挑战

快结尾了,说点挑战。PingCAP 是在 2015 年成立的,到现在已经马上就要 7 岁了,在这 7 年里,正好经历了一些很重要的行业变革:

这几点分别代表两个方向上的认知改变:

而 SaaS 的模式则可以很好回答这两个问题,而且基础设施类的软件和 SaaS 的模式融合后会有更大的放大效应 ,我在《大教堂终将倒下,但集市永存》一文提及过,但是真正的挑战在于: 一个面向传统软件售卖 + 服务支持导向的软件公司的组织如何调整为一个面向运营的线上服务公司? 以研发体系为视角,举几个小例子:1. 版本发布,对于传统软件公司来说,一年发布 1~2 个版本就不错了,但是线上服务有可能一个礼拜就升级一次,不要小看这个发版节奏的差异,这个差异决定了整个研发和质量保障体系模式的差异。2. 如果在云上提供服务,那么就需要配套的运营支持系统(计费,审计,故障诊断等)以及相应的 SRE 团队,这些系统可能并不在传统的软件研发体系里面,另外对于用户体验和开发者体验的关注变得尤其重要。

当然挑战也不止这些,也都没有标准答案,不过我还是对未来充满信心的,毕竟这些趋势本质上都是在加速技术到社会价值和商业价值的转化以及降低门槛,都是好的且务实的转变,这对于 PingCAP 这样的公司来说当然是利好,前方是星辰大海,一切都是事在人为,大有可为。本来就想写一篇小文,没想到写着写着就扯得有点长了,就到这里吧。

声明:本文来自用户分享和网络收集,仅供学习与参考,测试请备份。