2012年以来,大数据(Big target="_blank">
大数据是数据的集合,以容量大、类型多、速度快、精度准、价值高为主要特征,是推动经济转型发展的新动力。大数据产业是以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。基础设施、数据服务、融合应用是大数据产业的三大组成部分,三者相互交融,形成完整的大数据产业生态。
在我国,大数据从提出到快速发展,主要历经了这几个阶段。
2014年3月,“大数据”首次写入政府工作报告,大数据开始成为国内社会各界的热点。2015年8月,国务院以国发〔2015〕50 号印发《促进大数据发展行动纲要》,对大数据整体发展进行了顶层设计和统筹布局,产业发展开始起步。2016年3月,《十三五规划纲要》正式提出“实施国家大数据战略”,我国大数据产业进入全面快速发展阶段。2021年11月,工信部印发《“十四五”大数据产业发展规划》的通知,明确指出“十四五”时期是我国工业经济向数字经济迈进的关键时期,对大数据产业发展提出了新的要求,产业将步入集成创新、快速发展、深度应用、结构优化的新阶段。
大数据作为新兴战略产业,涉及到众多的行业基础知识。
:大数据特征的概念由维克托迈尔·舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,分别是:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。随着大数据产业的持续发展,在4V的基础上,专业人士又新增了2个V,分别是Veracity(质量)、Valence(连接)。
规规模性(Volume):强调数据量大,通常是TB/PB/ZB级别的存储数据量,且周期性的增量数据也是非常巨大的。
高速性(Velocity):强调数据处理的速度要快,数据从采集存储,加工处理、分析展示的速度,越快越好,且不能因为数据量的激增,响应速度就可以慢下来。
价值性(Value):强调数据价值的可量化,如通过对城市车流量数据的分析,准确判断城市道路拥堵的发展趋势,并提前做好预案防止道路交通瘫痪。
质量性(Veracity):强调数据要具备一定的质量,这样才能够通过数据间的关联性,分析出有价值的结论,为决策支撑提供准确依据。
连接性(Valence):强调各数据间的连接性,通过各类分析工具平台,找到数据潜在的社会意义和经济意义。
:是一组有序、有起点和终点的字节的数据序列,包括输入流和输出流。数据流数据具有如下三个特点:快速到达、广域范围、到达时间持续。数据流特点也决定了数据流处理的特点:一次存取、持续处理、有限存储、近似结果、快速响应。
大数据处理模式分为数据流和批处理模式。流处理模式将数据视为流,当新的数据到达时就立刻处理并返回所需结果,强调数据处理的实时性。两者的区别是:批处理是先存储后处理,流处理是直接处理,后存储,甚至不存。
大数据平台通常是指以处理海量数据存储、计算及不间断流数据实时计算、分析展示等场景为主的信息化基础设施。市场上比较知名的大数据平台如Hadoop系列、Spark、Storm、Flink以及Flume Kafka等集群。
大数据平台涉及到系列数据处理工具,如:
:用来执行某种形式的计算和提取处理,比如对杂乱无序的数据做排序、筛选操作,譬如Storm、HBase、Hive等工具。
:用来收集和接受大数据并传输给数据加工系统(或在不同的系统组件间传输),通过使用消息总线(Message bus)或消息队列进行数据的传输、分发等,譬如Kafka、Flume、Sqoop等工具。
:大数据以某种格式记录在计算机内部或外部存储介质上(磁盘、磁带等),然后通过大数据存储系统或数据库进行存储,譬如Hadoop的分布式文件系统HDFS、开源分布式文件系统GlusterFS,以及NoSQL(非关系型的数据库)等。
大数据平台产品众多,下面以Hadoop为例对平台所涉及的核心内容进行分析。
:一个由Apache基金会所开发的分布式系统基础架构,优点包括Hadoop能够对海量数据进行可靠、高效、可伸缩的方式进行处理。
:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map”(映射)和“Reduce”(归约),是它们的主要思想。MapReduce最早由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。
:分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,能够减少存储大量数据的成本和复杂度。HDFS是一个被设计成可运行在通用硬件上的分布式文件系统(Distributed File System)。HDFS是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS是Apache Hadoop Core项目的一部分。
:是一款基于Hadoop的数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
:是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable(分布式存储系统)的开源实现,主要用来存储非结构化和半结构化的松散数据,利用HBase技术可在廉价服务器上搭建起大规模结构化存储集群,通常在Hadoop平台上广泛使用。
与大数据平台相关的基础知识,还包括了Kafka、ETL、数据湖等专业术语。
:是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。Kafka是由Apache软件基金会开发的一个开源流处理平台。
:是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是全量数据的单一存储。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如Email、文档、PDF等)、二进制数据(如图像、音频、视频)等等。
大数据平台及相关知识