Spark环境集群构建与Spark SQL编程文献综述

 2021-09-27 08:09

毕业论文课题相关文献综述

1.引言

伴随着大数据相关技术和产业的逐步成熟,继Hadoop之后,Spark技术以集大成的无比优势,发展迅速,将成为替代Hadoop的下一代云计算、大数据核心技术。Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架[1],Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解决了大数据中BatchProcessing、StreamingProcessing、Ad-hocQuery等三大核心问题,使得Spark中SparkSQL、SparkStreaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作,有着目前任何大数据平台都无可匹敌的优势[12]。

关键词:Spark,hadoop,大数据,构建与集群...

2.正文

云计算简介

云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需的提供给计算机和其他设备。作为一种能提供低成本的服务方式,云计算的概念实际是率先从企业发起的。由于低成本,巨大的计算和存储能力,动态交互,可伸缩,且被虚拟化,以服务的方式被提供的特点,云计算的研究正引领着互联网技术发展的潮流。云计算的特点使得企业能通过更低的成本来处理日益增长的海量数据,并通过互联网提供可伸缩的服务,这为企业的成长降低了门槛,并带来了更多的利益[17]。

对于数据挖掘来说,从海量的数据中,执行大规模的挖掘,从而得到有价值的、可理解的知识是我们追求的目标。实际上,随着计算机技术和互联网的高速发展,数据量也已经成超大规模的增长,一些大型企业的日扫描数据已达数百TB。这些海量的数据蕴含了丰富的信息,对于企业来说是一项巨额的财富。为了给企业提供更好的决策支持,从而对这些数据提出了巨大的挖掘需求。然而,对数据挖掘技术来说,这也是一项重大的挑战。大规模的计算能力成为数据挖掘技术能否有

效实现的必须的外部需求。

以前,企业会试图使用高效能机或者是更大规模的计算设备来进行计算。但是,这大大的增加执行挖掘任务的成本。云计算的出现则为数据挖掘提出了新的方式。巨大的计算能力,巨大的存储能力,云计算的方式能为数据挖掘提供的正是解决数据挖掘技术面临的新课题的方法。

要实现基于云计算的数据挖掘技术,关键就在于将传统的数据挖掘算法移植到云平台。数据挖掘技术发展到今天,针对不同的数据挖掘任务,涌现出了大量的算法。这些算法根据数据挖掘的目标展现出不同的优势。通常,我们会根据具体的数据挖掘要求而采用特定的算法,从而提高数据挖掘结果的可用性。要将数据挖掘技术结合到云平台,实现这些传统数据挖掘算法的并行运算方案是整个过程的第一步,也是最核心的内容。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。