2023 年,顺丰科技发布了首个在物流领域大规模应用的数字孪生实践。在物流典型的中转分拣场景,该技术已经可以实现 1 天内在虚拟环境验证并优化 1000 次分拣计划,通过向全国 60 多个中转场的快速复制,平均每个中转场提升了 8% 以上的产能。
“大数据做打底”是提高数字世界精准度,降低和现实物理世界差异的前提和基础。在顺丰数字化过程中,其构建了一套的框架和机制,以确保数据驱动业务的体系化运作。其中,前两个“1”均与数据相关,分别是“大数据底盘”和“数据治理体系”。
在 InfoQ《超级连麦. 数智大脑》2024 年度首期直播中,顺丰科技大数据总监林国强对该运作框架进行了介绍,并且分享了顺丰内部如何从战略、组织、目标、成果量化等维度入手严格执行数据中台战略,使得涉及多环节、复杂流程的物流供应链场景数据的标准得以统一,并确保数据质量满足业务需求,帮助顺丰提升流转效率。
以下内容根据对话整理,篇幅有删减,点击链接可观看直播回放 :top="1152">构建数据驱动的运作框架:1+1+n+x
InfoQ:物流和供应链行业的核心业务目标之一就是把具体的任务和资源做匹配,尽可能提升流转的效率。我们看到,过去顺丰基于大数据、机器学习、运筹优化等技术打造了智能化的决策体系,是否可以请您先大致介绍一下这套体系的运转机制?
林国强: 数据驱动业务需要一套完整的框架和机制来维持运作,涉及的技术包括大数据、机器学习、运筹算法和人工智能等。
顺丰内部将这套架构称为。顺丰通过“1+1+n+x”的方式,确保数字化数据驱动业务的整体运作。
第一个“1”是指 大数据底盘 ,包括数据相关开发工具,从采集到接入、到资产到质量到服务全流程的工具,确保数据能够顺利、简单地进入平台。
第二个“1”是指 数据治理体系 ,包括立法、司法、执法、主数据标准、元数据标准、数据质量、数仓标准等,确保数据质量满足业务需求。
“n”是指 n 个业务场景 ,包括运营、财务、市场等各个业务线,例如需求预测、业财一体、潜客挖掘等。
“x”是指顺丰的 智慧供应链战略 ,围绕消费供应链、生产供应链、制造供应链等打造智慧供应链模型能力,例如仓网规划、路径规划、装箱规划、智能调度等。
InfoQ:去年顺丰发布了首个在物流领域大规模应用的数字孪生实践,目前具体在哪些业务场景落地?具体带来了哪些商业增长或者降本增效的成果?
林国强: 数字孪生的本质是对现实世界的虚拟化,以 1:1 的比例还原,让我们在虚拟世界中进行试错和验证,以更高效的方式找到最佳解决方案。这一技术在各行各业都有广泛应用,对于顺丰来说,主要利用数字孪生技术在点和面两个方面进行验:
在“点”方面 ,顺丰对中转场进行建模,包括人员、设备、货物流程等,以验证整个分拣计划和资源调度计划的效率。通过这一技术,顺丰能够 大大提高风险计划的验证效率 ,例如一天内能验证超千次班次,比以往验证的效率高很多。此外,当顺丰需要关停某条分拣线或减少人员时,该技术也能快速验证这些变化对整体分拣吞吐的影响,从而做出更优化的决策。
在“面”方面 ,顺丰计划对站点、中转场、道路、航线、车辆和人员进行整体建模,形成整个数字孪生的物流网络。这将有助于顺丰进行全网的畅网规划和局部最优调度,提高整体物流效率。经过验证,这一技术可以帮助顺丰节省城市运营线路,已经在内部得到推广应用。
InfoQ:另外一个关键问题是,很多企业普遍认为数字孪生技术的成本投入较大,因此存在投入产出的考量。顺丰在这方面是如何考虑的?
林国强: 数字孪生的投入需要考虑场景本身的收益。投入不是问题,关键在于投入后是否能覆盖前期投入成本。对于我们来说,收益远远高于投入。
InfoQ:谈到技术热点和战略投入,我相信很多人最近都关注到了 Sora。林老师您对 Sora 的出现抱有什么样的看法?在物流场景下,文生视频技术可能有什么应用?
林国强: 我主要基于自己的感受简单谈谈。
本身非常惊艳,这点是无可否认的。首先是它的输出时长,可以达到 60 秒以上。这比目前最长输出时长的 Runway 的 16 秒要长得多。60 秒意味着什么呢?就是在像抖音这样的视频平台中,视频最低要求是 60 秒,这意味着你可以用 Sora 做中视频计划并获得收益。其次是它的画面质量,包括分辨率等都非常好。例如,在视频中一些毛发、水波纹和纹理等都做得非常细致。在我看来,目前来看,Sora 在这两个方面做得比较出色。
但 Sora 自身也存在一些不尽如人意的地方。例如,Sora 本身对因果关系和物理原理的认知比较弱。我记得很清楚,有一个文本叫做“老奶奶吹蜡烛火苗”,但是在 Sora 生成的视频里,老奶奶吹的蜡烛火苗却是静止的。因此,它对物理原理和因果关系的认知相对较弱。目前来看,它可能对广告媒体和游戏设计行业的影响会比较大,但是由于未能完善因果关系和时空关系,因此在物流领域可能暂时不会有太大作用。
严格执行数据中台战略
InfoQ:无论是智能决策体系还是数字孪生实践,数据在其中都发挥着关键作用,在推动这些技术创新的同时,针对数据,顺丰内部制定了什么样的策略和目标?
林国强: 我们在内部 严格执行数据中台战略 。这一战略从建立数据委员会到构建数据治理体系,包括主数据标准、元数据标准、数据质量和数据仓库标准等方面都有着严格的制定和执行。我们制定了数据质量划分策略,确定了数据质量的责任人和具体执行流程,这些都是为了确保数据质量。
InfoQ:物流场景中包含收、转、运、派等各个不同环节,涉及角色和节点众多,顺丰是如何统一数据标准的?又是如何确保这些标准顺利落实的?
林国强: 事实上,数据标准的落地在整个数据中台战略中是至关重要的核心部分。我们将其分为三个方面。
首先是定战略 ,因为对于像顺丰这样涉及上千个业务系统和数百个 BU 的公司来说,要让各组织达成一致,数据中台对于集团的重要性不言而喻,需要明确战略的指引。在这一点上,我们需要将其提升至战略层面,企业高层必须站出来,对此负责并明确其意义。我们当时定位 整个数据中台战略的意义是高效连接数据的供给侧和消费侧,持续沉淀数据公共能力,实现数据按需安全共享,以助力集团的经营增长、客户体验和风险控制。 这一定义由公司高层出面背书,以确保各组织对此有相同认知。
其次是定组织。 因为这是一项庞大的工程,不能单靠公司内的某个 IT 部门或大数据中心来实现。我们需要各业务线和职能线共同参与,这就需要成立我们所谓的 数据委员会,包括立法、司法和执法这三个关键角色。 立法更多地是制定大框架的规则,而司法则由信息安全部门和数据架构师来执行监管角色。执法包括数据仓库团队、数据质量团队和数据服务团队,以确保整个数据治理的执行。这三个角色确保了整个运作机制的正常运转。我们还建立了相关的数据质量台账,定期公示数据质量,以确保各业务线能够配合执行。
第三个是定目标。 我们要明确告诉大家建立数据中台或进行数据治理的 目标绝不是简单地为了数据标准化。 因为这个过程是一个持续的事业,如果我们只是汇报数据标准化的结果,这远远不能满足公司的期望。因此,确定目标非常重要。 目标的意义在于将数据标准化过程、中台战略与公司业务增长、成本降低和效率提升的关键指标或事项相互关联, 形成合力,推动整个数据驱动业务的主线。
最终的成果要有量化的结果, 无论是成本降低、商业增长还是其他方面的,都要向企业高层汇报。这就是定目标的意义。如果我们的定战略、定组织和定目标能够清晰、妥当、扎实地落实,相信我们的数据治理或数据标准的工作已经成功了大半。
InfoQ:具体来说,顺丰的原始数据清洗怎么做的?
林国强: 原始数据清洗的流程通常是这样的,首先,我们将原始数据统一收集到 ODS 层,即数据库的“贴源层”。然后,从贴源层到 DWD 层(明细层),我们会 基于相关的主数据和前面提到的数据入湖标准进行清洗和转换操作。
因此,原始数据并不意味着它没有用处。因为当某个数据质量出现问题时,或者末端应用出现问题时,我们可以通过数据血缘找到问题的根源,而不是将整个转化和清洗过程放在数据湖之外。我们将其放置在数据湖中,这样在追溯时整个链路就会非常清晰。 发现“脏数据”后可以让业务部门按照之前定义的数据质量规则尽快处理, 并且关联相关的主数据。我们对元数据定义有一些要求,例如,在数据的流转过程中,身份证号码或手机号码的数字和英文字符需要在从 ODS 到 DWD 的过程中进行处理。
InfoQ:顺丰有上千个业务,而且这些系统的建设年代也不同。每个系统都有自己的定义,比如某些系统可能有自己的主数据,那么顺丰是如何进行治理而不影响原有的业务系统呢?
林国强: 这个问题我们经常会遇到,特别是在主数据管理方面。有些老系统可能没有主数据的概念,而一些新老系统对主数据的定义也不一致。另外,当一些老系统更新数据库时,也会对我们后端主数据的治理造成一定影响。
解决这个问题的关键在于两点:
首先, 要根据数据规模,在数据湖中尽可能细分分区。 比如,可以将数据按小时或者按天进行分区,这样当我们发现后端质量出现问题时,可以及时进行整改,减少需要重新刷数据的量。
其次,我们 引入了一些工具化的强制检测机制,以确保数据的干净度。 不是所有数据都能够直接入湖,而是经过前置的主数据标准检测。虽然在引入这些检测机制的初期可能会遇到一些问题,比如出错或者受到阻碍,需要做一些整改。但是一旦这些机制建立起来,对于数据湖的整体健康度会有很大帮助,可以预防和减少后续的数据质量问题,这是事后和事前两方面的建议。
InfoQ:为何顺丰的某些系统数据不先进入数据湖,而是直接与主数据平台进行实时交互?
林国强: 这个涉及数据链路的问题。实际上,数据链路不仅包括离线链路,还涵盖了实时链路。在某些场景中,数据在前端就已经进行了初步处理,再进入后续流程。这并不意味着所有数据都必须先经过某个特定环节。例如,数据在进入 Kafka 时可能已经完成了主数据处理。
这与各业务线的历史和发展密切相关。每个公司的数据架构都有所不同。有些公司可能相对简单,业务系统只有几十套,且公司成立时间不长,历史负担不重,因此数据架构相对清晰。然而,对于大多数 5 年以上的公司来说,由于业务发展和技术积累,数据架构通常较为复杂,涉及各种情况和处理流程。
InfoQ:事实上,无论是在系统建设还是任何技术应用的前期都会遇到内部阻碍,在这方面顺丰有什么经验,如何缩短这个过渡期?
林国强: 为了解决这个问题,我认为关键是要找到一种方法,使得业务部门的利益与数据整合的目标相趋同。换句话说,我们需要 明确业务部门通过参与数据整合可以获得哪些实际利益。 例如,如果能够帮助市场团队收集更完整、更准确的客户数据,这将如何促进他们的工作?我们能否提供一些具体的案例或方法论,说明通过数据整合,市场部门可以实现潜在客户挖掘、新客户增长等方面的提升?为了实现这一目标,技术团队需要与业务团队紧密合作,共同制定解决方案。业务团队中的成员需要积极参与,提供他们的见解和经验,以确保数据整合工作能够真正满足业务需求。
通过强制手段虽然短期内可能取得一定的效果,但从长远来看,这并不是一个可持续的解决方案。 真正的关键在于如何确保业务部门与数据部门在业务目标和利益上实现真正的协同。 这需要我们不断探索和实践,找到最适合自己企业的方法。
InfoQ:在谈到制定战略时,您提到了一个关键点,那就是数据可以按需安全共享,这并不是一件简单的工作。对于数据部门的人员来说,业务部门提出的需求可能会非常频繁和繁琐;而对于业务部门的人来说,有时他们可能会感觉数据部门的响应效率不高。那么在顺丰,我们是如何实现按需共享的呢?这就需要具备哪些前提条件才能够达到这一目标?
林国强: 因为数据团队人数有限,无法满足业务部门庞大的需求。当业务部门提交数千个需求时,数据团队难以应对这样大规模的需求。因此,我们引入了另一个角色,我们称之为 数据伙伴或数据合作伙伴。 这些数据伙伴来自业务部门,他们可能在财务或其他部门工作,并且对数据非常敏感,愿意积极学习相关内容。
我们 为他们提供了一些低代码工具 ,比如商业智能工具或数据分析工具,让他们可以基于这些工具生成他们所需的指标。这样一来,我们的团队可以将精力集中在数据仓库的核心部分,比如从 ODS 到 DWD 再到 DWS 的工作上。 至于数据仓库层以上的智能应用层,我们尽可能地交给业务方去处理。 这样做的好处是,你会有更多的伙伴来帮助你执行整个数据战略,而不会受限于目前团队的规模。
InfoQ:顺丰是如何构建数据中台部门的?与其他业务部门如何协调?
林国强: 数据中台部门的构成包括平台部门、工具侧和数仓侧的团队。这几个团队如何与其他部门协同呢? 最核心的就是立项。 立项意味着项目的启动,只有通过立项,才能够获得资源的投入,包括工时、出差、采购等方面的资源。
对于集团层面来说,立项的参与方包括业务侧、财务侧、技术侧等,他们会共同规划项目的执行计划,明确每个季度、每个月要完成的任务。通过立项,整个成本投入也会变得清晰可见,包括外部采购和内部人员投入。此外,每周的工时填报也通过项目报表进行,以便了解协同进展情况。
InfoQ:数据质量决定着数据应用的效果,在顺丰场景中,哪些因素可能会影响数据质量?具体如何规避?
林国强: 需要从两个方面来思考:制度层面和工具层面。
首先, 从制度层面来看 ,确保数据质量至关重要,这需要 明确责任方。 每个数据的所有者都必须确定,他们的职责范围也必须明确。举例来说,如果收入报表的数据出现问题,就需要确定谁是收入数据的所有者。在数据治理委员会的早期阶段,我们要明确定义每个数据的所有者,他们的职责和质量处理范围。
其次, 从工具层面来看 ,我可以举几个例子:一是 主数据的问题 ,比如国家、省份或人员代码的错误。为了尽可能确保数据的纯净性,我们在数据入湖的时候可以采用工具进行强制性检测;
二是 数据波动 ,尽管这种情况不太常见。如果数据在短时间内出现大幅度变化,我们需要分析是否是延迟或前端脏数据导致的。为了解决这个问题,我们可以定期分析数据质量台账,确定问题所在并及时解决。
最后一个例子是 数据丢失 ,因为数据质量的关键问题之一就是数据丢失。在大规模场景下,即使丢失了少量数据,也可能造成严重影响。为了避免这种情况,我们需要 确保建立完整的数据血缘 ,从数据接入开始到最终应用端都要建立起血缘关系。这样一来,当出现数据丢失时,我们可以追踪到丢失的具体位置和原因,从而避免潜在的损失。
InfoQ:在如今的经济形势下,企业越来越看重技术的投入产出比,那么,聚焦数据管理的投入效果最大化以及期间的可视化追踪问题,顺丰有哪些经验可以分享?采取了哪些战略措施?
林国强: 这个问题实际上是很多企业的数据中台负责人或数据方面的负责人都非常关心的。我们也经历了一段时间的试错和摸索,有几点值得分享一下。
首先,在早期阶段,我们 更多地讨论数据的价值 。这个数据价值指的是数据被应用的广度和热度。比如说,在数据的末端,我们会建议将数据服务化,通过数据服务我们能够了解到这个数据被哪些应用、哪些 BU、哪些企业所调用,以及调用频次是多少。通 过血缘反向计算整个链路中每项数据的应用广度和热度 ,明确哪些数据具有价值,哪些数据没有价值,以及如何处理没有价值的数据,如何增加对有价值数据的投入。
第二点是 数据成本的概念 。数据成本 不仅指数据开发本身所产生的成本,比如服务器资源、人力投入等,还要关注单位业务金额对应的数据成本是否在降低 。举个例子,如果公司一年的营收是 20 到 30 亿,数据成本可能是 2,000 到 3,000 万,那么这个比值是不是在逐年增加?也就是说单位业务金额对应的数据成本是否在降低?如果单位业务金额对应的数据成本在降低,而且保证了相同的服务水平和 SLA,说明企业整体的数据技术能力在提升。
最后,我们最终可能还是要 回归到核心价值点,也就是数据收益 ,这是从中长期来看的。因为这个问题在过去,甚至未来几年都是不可回避的,因为当前大家都知道经济环境并不好。最终,我们关注的还是投入和收益的对比。在这个时候,数据对业务部门的成本降低、收入增加到底实际上为公司做了多少贡献?如果 ROI 比值大于等于一,就证明投产是对公司有价值的。
数据要素流通的价值与挑战
InfoQ:过去一年,数据资产入表、“数据要素×”行动计划等一系列政策文件相继发布和实施,这对于顺丰乃至整个物流行业有哪些意义和价值?对于我们的数据管理策略制定又会带来哪些影响?
林国强: 对于企业而言,数据资产入表的实施是至关重要的,它有助于增加企业的资产,对于任何上市公司都至关重要。数据资产评估将对数据质量和价值产生更高的要求。在具体的数据管理策略制定中,顺丰也会加强数据治理和数据价值的管理,以确保数据资产的评估能够获得较高的评价。这种加强对于上市公司和即将上市的公司尤为重要,因此这一群体可能会更加重视数据资产的治理。
InfoQ:数据入表这一个动作对于大数据部门会产生什么样的影响?在配合财务部门方面是不是有一些具体的工作应对?
林国强: 数据资产入表对公司的资产增值是肯定的,因此这将证明团队的价值。与财务部门的合作是必不可少的,因为数据资产入表需要第三方咨询评估机构的介入,以及与证券交易所进行相关的最终评估和确认。
财务部门和数据团队需要就数据资产入表的具体事宜进行探讨,并落实相关产线。评估数据资产价值的方法有成本法和收益法。在确定哪些数据资产应该入表时,需要考虑投入的资源、开发人员的数量以及服务的部门和创造的业务价值等方面。这些信息需要从财务的角度进行审视,而不是技术开发人员的角度。由于技术同学可能对财务口径不太了解,因此需要进行跨领域的交流和学习。未来涉及资产入表的大数据从业者可能需要学习一些简单的会计术语,以便更好地与财务同学进行交流。
InfoQ:反之对于财务部门而言,如何和数据部门进行联动,以便更好推进业务?
林国强: 财务部门在推动数据资产入表方面扮演着关键角色,因为财务是企业主最关注的方面,尤其是对于中小企业而言。财务部门的重要作用体现在两个方面:首先是推动数据资产入表。数据资产入表是非常重要的,因为它可以增加公司的无形资产,对公司来说是一件好事。财务部门完全可以发起这项工作,并与数据部门紧密合作,从而使数据部门能够获得相关的价值。同时,财务部门和数据部门之间的合作也能够为双方带来益处,实现双赢的局面。
InfoQ:数据要素的流通并非单一企业可以独自实现的,它涉及整个行业乃至多个生态系统之间的互动。针对物流行业,实现数据要素的流通要面临哪些挑战,头部企业能发挥哪些作用?
林国强: 数据要素流通是一个复杂的问题,从国家层面以及各地的数据交易所来看,都在积极推进数据要素流通。然而,对我们行业来说,主要的挑战包括两个方面。
首先是合规性。 尽管国家已经颁布了相关的公民个人隐私保护法,也有数据要素流通的相关规定和细则,但具体落地实施案例还比较少,缺乏足够的参照物,导致许多企业不敢轻易行动。我们建议由国有企业牵头,如中国物流集团来组织民营企业参与,以确保该举措的有效落地。
其次是数据标准化。 在物流领域,由于其信息化发展相对滞后,并且存在许多加盟企业,因此很难有效管理数据。我们建议由数交所牵头,邀请行业龙头企业,如顺丰等,参与制定数据标准,这种模式也适用于其他行业和领域,从而为数据要素流通奠定良好基础。
嘉宾介绍
林国强 ,现任顺丰科技大数据总监。负责顺丰集团大数据及区块链科技融通、产业化赋能和生态建设。对供应链科技、产教融合、城市物流及快消零售行业有深入研究和实践,理解行业痛点和科技创新的链接点,在行业中落地过多个头部客户数字化转型案例,助力客户实现主营业务增收、供应链成本优化和管理数字化。