大数据在工业制造业的应用方法与系统方案设计文献综述

 2022-11-29 04:11

一、文献综述

1.1 大数据

Gantz和Reinsel[1]在研究报告中提出,在2010年全球信息量已经突破ZB量级,不断膨胀的数字宇宙将“大数据”这个并非新生的概念带向主流。成本逐渐降低的的存储方式、快速增值的传感器,日益提升的数据捕捉能力,通过云计算方式而增强的信息交换和越来越多的虚拟化存储设施,使得大数据成为可能。IDC将其定义为:一种通过使用高速的数据捕捉、发现和分析能力,进而能够从大量的多样化数据中经济地提取价值的全新技术。大数据同时也包括了除原始信息外,围绕着这些信息的存储、利用而产生的其他信息,这意味着这些数据的规模和复杂程度,往往超过了常用的数据处理技术,其特征可主要分为四个方面。第一,数据量巨大,大数据的数据规模一般在10TB左右,在实际使用中往往能达到PB级别[2];第二,数据种类繁多,大量新生的数据源创造出的半结构化和非结构化数据,已经占据全球数据总量的80%以上[2];第三,数据流动速度快,数据处于高速变化的流式状态,使数据的采集、处理、抓取更加困难;第四,数据价值密度低,蕴含在海量数据中的有价值信息并不会成比例地伴随数据量的增长而增长,这使得价值获取变得更加困难[3]

针对上述特征,用以解决相关问题的技术应运而生。Kelly[4]提出,有两种数据管理方式从实践者以及围绕其所搭建的开源环境中脱颖而出,第一种是Hadoop,为存储、处理和分析海量半结构化或非结构化数据所设计的开源大数据架构,其存储功能由HDFS(Hadoop distributed file system)实现,分析功能则由2004年谷歌公司推出的大数据处理模型MapReduce实现[3]。第二种为NoSQL,一种不同于传统数据库的非关系型数据库,能够使得开发者建立包含各类数据,拥有高度扩展性和交互性的应用,处于市场领先地位的是Marklogic,MongoDB和Datastax[4]

      1. Hadoop

作为Hadoop核心服务之一的HDFS,可以被简单理解为由多个被计算机网络所连接的,用于存储物理资源的多个节点所构成的系统。在此基础上,Hadoop采用了scale out(向外扩展)的方式,将数据分割成64M大小的数据块,以冗余镜像的方式存储在系统的不同节点上,从而使得整个集群可以并行化地调用数据,增加吞吐量,缩短了读取数据的时间;在此基础上,Hadoop以代码移动来取代数据移动,避免了在处理密集数据时由于传输数据量巨大而造成网络瓶颈的问题,尽可能让数据的计算在一台计算机上完成,将执行代码发送至数据所在的机器,从而提高整个系统的运行效率[5]

另一个核心服务MapReduce的工作过程则分为Map和Reduce两部分。首先,Hadoop将输入的数据划分为等长的输入分片(input split),发送到MapReduce,并为每个分片创造一个任务,由此来分析每一个分片中的一条条记录,执行Map任务,并生成中间键值对,将输出结果写入硬盘中。而Reduce任务会将Map任务的输出传送到运行Reduce任务的结点上,再对键值对进行排序,把具有相同键值的数据放在一起。数据经过排序后,最终产生的键值集合会被写入输出文件中[6]

      1. NoSQL

NoSQL的概念在1998年被Carlo Strozzi首先提出,又在2009年被Eric Evans在讨论开源分布式数据库时再次提出。从普遍意义上说,NoSQL数据库系统往往存在三个特点:没有固定的模式或体系,避免使用join操作,可横向扩展。这些非关系型数据库为了满足不同的需求而被开发出来,其中的一些面向文件,而更多的则采用了键值或列存储的方式,使得在集群式分布的计算机上存储数据变得更简单。不同于传统数据库遵循的事务的ACID特性,非关系型数据库追求BASE特性,即最终一致性和软事务[7]

1.2 工业大数据

在工业系统中,大数据技术能够为营销决策、原料供应、生产计划、现场控制等提供智能化的解决方案,其原理为:以数据为核心,使用数据挖掘等技术发现并分析隐藏在生产控制现场所产生的海量数据中可利用的知识与价值,并根据整体化和最优化的原则,为整个工业系统提供最优化的方案[8]。应用邵义元[8]提出的系统方案,可将其分为三个模块:公共数据管理、模型库管理以及知识库管理。

1.2.1 公共数据管理模块

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。