3 月 29 日,InfoQ 获悉,浪潮云发布了数据云业务战略,推动可信数据自由流动。
发布会现场,IDC 分析师钟振山分享了数据云的发展现状。
现在正处在数据爆发的阶段,IDC 预测,未来五年,全球数据量将会增长一倍以上,这其中,中国本土的数据量会仅次于北美地区,达到大概 56.16ZB 的规模,另外年复合增长率接近 25%,增长率将成全球第一,也就是说,未来几年中国将会超越北美地区成为全球最大的数据市场。
但在这个过程中,一个有意思的现象是,数据的总量在不断增长,但真正使用的数据或产生价值的数据只占总数据量非常小的一部分。
不过这一现象在最近几个月出现了根本性的颠覆,原因就是 ChatGPT 以及 AIGC 超级应用的出现。这种应用的背后是千亿级参数大规模的大模型,它们需要对海量数据进行标注和训练,从而达到相对智能的状态。随着应用技术不断普及和成熟,可以预见到,未来数据的使用,数据的价值会产生根本性改变。所有的数据将来都可以被利用起来,从而为企业和社会产生相应的价值。
另外,现在总数据量中,大部分的数据来源于企业级,大概占 70%比例,基本上来源于以下几个行业,政府、媒体、专业服务,金融、医疗、零售等。这些行业都具备一个比较普遍的共性,它们都有巨大的数据量产生。这为企业带来的巨大挑战是,如何有效存储、保护、使用和管理分析企业内部的数据。
回到 ChatGPT 的出现来看这个问题,可以想象,对于一个企业来说,想自建这类应用基本不太可能。所以,企业如果真正将来希望自身的数据以及行业内的数据产生更大的价值,必须依赖于基于云计算的技术。也就是,未来对于云端的存储和算力的资源需求,会有爆发性的增长。
IDC 预计,到 2026 年大概 27%的数据会产生于云端,另外可能会有 60%左右的数据,会被存储在云端,在企业级市场比例会更高,大概达到 70%-80%左右。在未来,企业更加关注的是如何使用分布式共享式的资源池,实现对于数据价值的深度挖掘。
对企业来说,在进行数字化转型过程中,需要意识到,整体意识形态需要逐步地从数据上云转向数据在云上,真正实现对于数据深层价值深度的挖掘。IDC 看到,企业的 CIO 等管理层也更加关注数据云相关的产品或者服务所带来的安全性、灵活性以及低成本和高效化的特点,数据安全仍然是企业在上云时最关注的话题,如何合法合规去使用在云上的资源,势必会成为一个企业今后在数字化转型历程中最关键的因素。
数据云的服务出现,会给企业提供更加可信任的空间,可以实现在数据全周期内安全管控。最终企业想要的是统一的、全面的、安全的数据访问和管理流程。这个流程会取代过去传统的以数据分发和系统维护升级的传统运维方式。
数据云主要具备几大优势,第一安全性,第二是全面性,第三是灵活性,第四是可见一站式服务。数据云这种服务,不同于传统的解决方案或者平台类或者数据中台类产品的地方在于,它更多突出即视化的概念,为企业提供更加开放灵活的环境,帮助企业实现转型。市场变化非常快速,企业需要具备更有效的,或者更高效的开发能力,才能应对数字经济下整体的大的市场环境。
在企业逐步从数据上云转变到云上数据的过程中,IDC 认为其中存在四个阶段。第一是业务流程化,第二是管理平台化,第三是应用繁衍化,第四是底座生态化。
现在国内绝大多数数字化转型企业,它们处在第一或者第二阶段,也就是,它们首先需要把内部的流程和管理机制数字化之后,才能够真正实现数字化转型整体的价值。这也说明,我们在数字化转型道路上还有很长路要走。从另一角度看,企业在数字化转型道路上,还有更多价值可以挖掘,尤其像云计算、人工智能这种技术,如何把它真正融入到企业核心业务当中去,让企业内部的核心资产,也就是数据资产产生更大的价值。
数据云最终的目标是打造安全的数据与业务向融合的平台,这个平台一定是以云计算技术为底座,为企业通过一系列新兴的科技,比如区块链,包括联邦学习、加密计算等等,为企业来提供安全以及合规的数据处理环境。
同时,企业也需要能够有能力去快速的开发和迭代出业务,跟业务强相关的应用,这些特点都是云厂商主要的技术特点,也就是说,未来云计算以及相关的云基础供应方,将会在产业以及企业的数字化转型进程中起到非常关键的作用。
从行业角度来讲,现在可以看到,大部分的数据云的行业应用主要是集中在智慧政务、数字城市管理,以及产业智能化三个方面。可以预见到,随着数据云以及数据要素的概念逐渐成熟,以及技术逐渐普及,未来在供应链,在工业、农业,应急等传统行业里面,同样存在巨大的市场潜力和空间。
从交付模式角度来看,模型即服务,是一个未来交付的主要方式,厂商与丰富行业经验以及技术相融合,可以为企业提供标准化智能化和产品化的数据标准数据服务产品。现阶段大部分的应用主要是集中在政府侧,从整体数字中国进程来讲,政府将会起到非常关键的支点作用。
2022 年是数据云产业发展的元年,全球有越来越多的厂商在不断地布局数据云产业,云厂商方面,去年谷歌已经发布了它们第一款数据云产品;在国内,浪潮云发布了数据云战略。
浪潮集团执行总裁、总工程师,浪潮云董事长肖雪表示,“数据的指数级增长和算力的线性增长带来的算力需求和算力发展不匹配的问题日益突出。如何增加算力供给,提高算力利用率成为急需解决的问题。在这方面,浪潮云进行了大量实践,可以提供一站式运维专家级服务,支持政府、行业、企业的不同计算需求。”
回归产业自身,数据云将如何助力政企用户释放海量数据价值。浪潮云给出答案——基础设施先行。数据空间作为实现数据开放共享和可信流通的新型基础设施,基于“可用不可见、可控可计量”的应用模式,为数据要素市场化提供实现路径。
浪潮云总经理颜亮中表示,浪潮云以数据为核心,从新要素、新产品、新模式三个方面出发,推出浪潮数据云 , 提供支撑数据空间的分布式数据基础设施服务 ,秉承数据优先(Data First),围绕“数采-数算-数用”价值链与数据可信自由流通,打造新产品,应用新模式,释放数据价值。
浪潮云正式发布数据云业务战略——百城千业计划,进一步迭代深化专业、生态、可信赖三大核心优势,通过百亿投入打造联合运营模式,依托数据云联盟持续加大生态合作,计划在十八个月内实现浪潮数据云在百城千业的落地覆盖。
浪潮为什么选择数据云?
浪潮云总经理颜亮详细阐述了,浪潮选择数据云方向背后的考量。
一方面大的背景是,全球云厂商、大数据厂商都在朝这个方向尝试,关键词围绕着数据:数据现在到底发展到了什么程度,面临着什么样的问题,企业为什么奔着这个方向集中精力找新的解决方案。
近 10 年来,人们对数据的理解不断随着时代变迁。2011 年《大众科学》提到,数据就是力量,2017 年《经济学人》点出了世界上最有价值的资源不再是石油,而是数据。到 2020 年,出现了云和数据的结合,创造新的竞争力,这时全球各国都已或早或晚的提出了自己的数据战略。由此可见,在发展过程中,大家逐步接受了数据是新一代的能源的理念。与此同时,未来不论是中国还是全球,数据的增速仍然非常之快。
但是问题来了,数据作为新一代能源,怎么“解放”它?现在这个问题还比较模糊。从中国的角度讲,我们具备海量数据优势,如何用新的技术、新的工具,去“解放”这些海量的数据是关注的重点。
过去这几年,全国各地都在尝试“解放”数据。但数据“解放”还面临一些困境,数据实际上不是没有发挥价值,数据在领域内或者在封闭体系内发挥了巨大的价值。但面向产业与企业价值还不够大,数据在企业内、在行业的赋能还是隐形的,这意味着数据交易的商业模式碰到了困难。
一个新的商业模式成功不成功,往底下需要钻两层,一是支撑商业模式的运营体系,在企业里是企业的运行体系,在产业里面是产业的运行环境,再往下一层是基础设施。我们过去总以为云计算就是数据的基础设施,现在来看,只能算是基础设施的基础设施。还应该有新的层次,面向数据的直接服务于数据的基础设施。由此看,数据的商业模式上受困于运营支持体系,以及数据基础设施不成形。
数据基础设施服务对象是数据,过去数据不需要基础设施,因为它长在应用里。如果数据给算力解耦,数据作为独立存在的时候,怎么服务于它,怎么支撑于它?过去所有信息化系统是支撑应用的,某个系统上云,某个系统建设项目,是基于应用的,所有的数据都跟着应用走的,“住在应用的家里”。
我国从国家层面成立了数据局,各个地方有大数据局,不是奔着应用去的,它服务应用,数据是独立对象。现在一些政府正在探索数据的新一代基础设施,包括数据快车、数据快通道等。
总结来说,数据云就是怎么弥补和怎么提升面向数据的基础设施。在数据的基础设施中,数据云只是它组成一部分。这是一件需要整个社会为之努力的事情,所以可以看到,现在是政府主导在建设。
数据云的概念最早在 2013 年提出来,2020 年,欧盟发展了这个概念,称之为数据空间。数据空间才有可能是数据的基础设施,或者是数据的“家”。数据空间的结构包含数据地图、认证中心,审计清算等,企业通过连接器再到数据空间,产生真的数据交换,或者是数据交易和流通,统一身份认证、容器管理、数据存储、区块链等,这是公共能力,是数据云要供给的核心部分,这部分是政府牵头云服务商来做的。数据空间体系,底下支撑的是云服务商。公共能力上面是运行面,运行面是面向企业,面向政府,面向具像的组织,再往上是数据地图、审计清算等。
提出解决思路:打造数据云来支撑数据空间建设
浪潮云的解决思路是通过打造数据云来支撑数据空间建设。具体是以数据为主轴,以数据空间为基础设施,以数据云为技术支撑。数据云支撑数据空间的分布式数据基础设施服务。
数据云有三个创新之处,第一个是新要素,新的理解是>
第二是新产品。从认知到理论,从理论到技术,从技术到工具,最后直接帮到社会、用户的是工具,就算是社会基础设施,也无非是工具集,一定要有技术的产品化,新产品要出来。具体来说,在数据采集、数据计算、数据应用、数据流通领域都有产品板块,云包含了采集端,从分布式计算平台,IoT 平台,实时数据库,分布式数据库,这都是浪潮基于技术形成的服务。
第三是新模式,数据既然独立了,就得把它当做一个对象去运营,但现在真正把数据作为独立要素去运营的少之又少,这需要平台支撑。此外还需要开放的生态系统,数据中台、数据平台必须跟云耦合在一起,数据云要跨云,要跨算力系统,数据云要有跨算力系统的能力,才有可能形成大的流通支撑。从厂商角度来讲,我们奔着开放生态的方向去做,浪潮云有自己的算力平台,但解耦,支撑其他的云平台。另外,要建设管理运营服务商,一定有独立的服务商出来,承担各自的服务角色,政府是政策的主管和监管部门。
浪潮云的计划百城千业,投入 100 亿,建设 100 朵城市的数据云。基于数据云有区域的概念,因为政府的驱动基于区域概念,然后再领域,100 个城市怎么赋能千业或者支撑千业数字化转型,还是通过数据云的落地,结合政府的落地,再结合市场化现在可以推动的数据。
此外,赛迪顾问还在现场发起成立了开放性生态联盟——数据云联盟。赛迪顾问云计算和大数据研究中心总经理郑昊介绍,当前数据云联盟已吸纳 493 家生态伙伴加入,联盟将由浪潮云担任理事长单位,以浪潮数据云所提供的分布式数据基础设施服务为支撑,面向联盟成员开放数据服务、数据模型、数据应用等能力,实现成员间的信息资源共享和多层次合作,形成优质产业链,充分释放数据要素价值。
以数据为核心,构建云体系中的技术服务能力
战略目标的实现需要落实到具体的产业、技术和应用上,浪潮云首席技术官孙思清介绍了浪潮数据云在以数据为核心,构建整个云体系中的技术服务能力方面的工作。
孙思清表示,在没有云计算之前,最早 IT 是以应用为核心的 IT 架构,那时基本上基础设施、数据和应用是耦合在一块的,这是云计算前期的时代。进入到第二个阶段后,进入到以算力基础设施为核心。而进入数据元年之后,云计算围绕着数据来打造整个云计算的架构,提供数据的从数采、数算和数用,全生命周期的支撑能力,云是围绕数来转,以数为核心来构建整个云体系。
围绕六个方面构建核心技术能力
构建整个数据云的过程中,包括 6 个方面的能力,涵盖了从数据采集,数据存储、数据计算,数据治理,数据流通、数据使用等方面的全栈能力。
从数采层面看,首先是全域全量的数据采集,原来解决数据场景问题是单点解决的,大模型的出现对数据提出了更高的要求,各个行业数据既然是战略资产,全域全量拥有这些数据是未来发展核心竞争力。在数采层面,要解决全域全量的数据采集,包括采集完后,如何对不同类型、不同来源的数据进行治理的问题 。
在数据计算层面,如何能够调度闲散的算力,提供数据高效的计算,这在技术上的关键点。最关键的是所有这些数据从数采到数算,为了数据使用,如何去通过数据驱动来进行业务的创新,也是整个构建数据云的关键点。
围绕这六个方面,浪潮云提供了多项技术能力。在全域全量数据的采集,尤其对 IoT 层面的数据采集边端,浪潮实现了数据安全传输,接触到物联感知平台的汇聚,从边缘到数据的汇聚,汇聚了图像、文本语音等多模态的数据。
同时数据存储的要求也提高了,浪潮在分布式混合的数据存储层面进行了相关研发和技术上的突破,推出了分布式数据库,能实现多模数据存储,底层无论是什么形态的数据,都可以统一数据访问,统一数据存储,整个存储空间比传统数据存储节省 90%以上,从存储成本上,大约占用三分之一左右,响应比传统模式快了接近 30%。
全域全量海量数据采集完,如何保证这些数据能用可用这是关键,尤其在数据多元的情况下。浪潮数据云提供了数据治理工厂,通过多年在行业中的积累,积累治理规则有 5000 多项,包括数据质量检测等。所有的数据多元异构的数据进来后,能够快速把它变成标准化的数据,从数据的标准,元数据、组数据,到数据质量的检测,最终把数据资源变成数据的资产。通过数据治理工厂,整个智能化流水线式的数据处理过程,大大的节省工作量,提高工作效率。
另一个问题是,如果把这些数据变成模型,把算法变成数据产品,很重要的是需要算力。算力面临一个矛盾,一方面随着数据快速增长,算力不足。但同时又在很多地方散落了很多闲置算力,如何把这些算力整合起来提供算力是一个问题。对此,浪潮云在全国布局了多个算力中心,总共有 7 个核心节点,全国有 113 个二级节点,来提供算力服务。
有了底层的算力支撑,对数据的处理,数据的计算,数据计算模式并不一样,有最简单的机器学习,最复杂的大模型训练,基于安全的多方计算,包括高性能计算,实时计算,流式计算等,计算模式完全不一样。基于云提供整个数据一站式的数据的处理能力,传统的大数据和云,和现在基础设施算力是两个隔离的状态。浪潮提供数据处理平台,底层存储融合存储能力,用云原生算力调度,在上面跑各种算力不同的模式数据计算。底层从存储来看,湖仓一体,从存储和计算来看,计算和存储分离。另外计算流批一体,在计算模式上深度融合。从云和数完全融合之后,资源利用率有了比较大的提升,同时对数据的访问 I/O 效率也得到很大提升。
最终数据要用起来。如何把这些数据转换成数据产品,数据产品有很多,有原始的数据资源,有数据资产,有训练完的模型算法。实际上从现在来看,终极走到大模型超级的智能体,这都是从整个数据使用呈现出来的方式。浪潮有大量的数据,从数据产品层面,有接近 350 多个数据产品,从多个行业中,梳理了 100 多个数据所,把数据分级分类。目前浪潮整个模型算法,现在已经有接近 200 多个了,在这些行业已经有比较强的积累,可以在一些行业落地时直接使用数据的模型算法和产品。
深入各行各业,数据云的更多场景化创新与价值创造,正在从智慧政务、城市管理、产业智能等各个领域涌现。浪潮云提供了部分应用案例:
在山东,浪潮数据云助力构建山东省一体化大数据中心,纵向打穿省级、市级、区县、街镇四级节点,横向实现各部门数据互联互通,自项目运行至今,已汇聚 1056 亿条数据,共享 24 万余项数据资源,提供 390 亿次共享服务。
在上海虹口,围绕一网统管业务、数字赋能底座、数字孪生平台、综合应用场景四大核心业务,浪潮数据云与城市运行管理中心合力打造“3+2+1”的现代化城市治理体系,通过数据赋能城市治理,助力城市运行。
此外,首自信公司联合浪潮数据云构建首钢集团智能制造大数据平台,实现数据采集汇聚、数据计算、数据应用和数据共享,同时打造“数据驱动”的智慧供应链、智能工厂、安全环保、数智服务等多领域解决方案及产品,具备钢铁全流程的咨询及解决方案、标准产品及实施交付、统一技术平台、综合人才培养四大能力。