全球新冠肺炎数据的可视化与挖掘分析文献综述

 2022-03-16 10:03

随着社会的发展,计算机所能够做的事情也越来越多,给我们的生活带来了质的飞跃,从前我们倚靠人力无法完成的许多工作,在计算机的帮助先变得简单了许多。随着社会的发展,科技越来越发达,人们的接触更加密切,互联的快速崛起,大数据也吸引了越来越多的关注,那什么是大数据呢?一般认为数据量大于10TB(1TB=1024GB)[1]。大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起。

在现今的社会,大数据的应用越来越彰显他的优势,它占领的领域也越来越大,电子商务、金融行业、物流配送等,各行各业都在利用着大数据时代来有效的协助企业不断地发展新的业务,创造更多的价值,创新运营的模式。维基百科中将大数据界定为: 常用软件工具捕获、管理和处 理数据所耗时间超过可容忍时间限制的数据集[2]。有了大数据这个概念,公司对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。大数据时代不仅影响着公司的发展,同样也对我们每个人的生活有着巨大的影响。大数据时代给我们带来了许多的便利,比如我们在刷小视频或者听音乐的时候,就可以根据我们的兴趣爱好来给我们推荐我们感兴趣的视频或音乐,给我们的生活带来便利的同时还能为我们节省一部分时间。

在大数据时代,计算机软件技术也得到全面进步和发展,并且相关行业和单位也进一步强化了对相应技术的研发 和创新。可以说,当前我国计算机软件技术得到了快速发展,创新了众多技术手段。但是从实际表现情况来看,在常规应用过程中,由于硬件设备和网络铺设等多种因素的制约,使得我国当前计算机软件技术发展仍然存在很多问题, 覆盖面需要进一步提升,软件的应用深度和广度也都有待拓展,软件的功能也不够完善等,同西方发达国家相比,我国的计算机软件技术发展仍然面临很大的差距。从客观应用情况来看,我国当前计算机软件技术的应用深度并不高,尤其是在商业和私人领域,软件的应用主要集中于三个方面。 第一,用于沟通交流,企业和个人通过计算机软件技术 实现信息的相互交流,保证信息可以快速传递,实现同外部 商业沟通交流的需要,以此打破时间和空间的约束,有效降低沟通成本,保证交流信息有效传递,提升沟通的效率。 第二,用于资源的有效管理。在我国经济和社会快速发展的背景下,每一个行业内部的资源更加丰富多样,也相应地提升了管理内容的丰富程度以及难度。计算机软件技术能够为个人以及企业提供更为系统的管理软件,让使用者基 于自身需要,灵活选用相应的计算机软件技术。 第三,用于为相关决策提供支撑。相关举措和方案的产生和应用,需要基于大量的调查数据以及信息作为保障。而想要搜集和汇总这种数据信息,自然是一项庞大的工程,如果仅凭人力显然难度非常大。而通过应用计算机软件技术,可以有效整理并收集海量信息,通过将这些信息收集并汇总,为决策者提供针对性的服务,满足客观需要。如可以系 统汇总市场的信息、用户群体发展的规律总结等,为决策者提供相应的建议。 三、计算机软件技术在大数据时代下的应用及注意事项 在大数据时代,计算机软件技术的应用范围日益广泛, 技术手段也在不断升级和创新,功能在不断拓展。在不断发 展过程中,计算机软件技术同商务办公、信息传输以及网络 存储等需求紧密结合。但是这些技术手段的优化需要合理 的管控和设计,这样才能够保证相应工作的顺利开展。

结合客观需要,计算机软件技术在大数据时代下的应用需要注意以下几个方面的诉求。 第一,要合理管理和布置信息通信系统。在大数据时代,信息通信系统担负着重要的信息通信和文件传输功能, 对于计算机软件的应用有着重要的作用。因此,在发展过程中,需要进一步对信息通信系统进行有效布置和管理,以此来提高数据信息的应用效能以及传输速度,并有提升信息传 输的经济效益。 第二,要注意数据信息的系统挖掘和应用。在大数据时代背景下,数据信息的挖掘是最基本的要求,企业和个人会通过搜集相应的大数据信息来挖掘这些信息间的规律,以此做出判断。因此,在大数据时代,数据信息的挖掘和应用无疑非常关键,要注意全方位提升数据挖掘的效果。 第三,合理选择计算机技术。在计算机软件技术不断丰富的情况下,软件功能更为完善,种类也不断扩展。同时,相同或相似的计算机软件技术不断丰富,而功能和特点则存在 差异,这使得用户有更多的空间进行选择,但是在选择过程中,一定要基于自身需要以及应用软件的特点来合理选择。

数据清洗是大数据技术的核心,经行大数据挖掘与应用分析时大部分时间是在解决数据存在的数据质量问题[3]。一般我们得到的数据都会多多少少存在一些问题,其中主要的问题有:1.部分缺失。2.数据存在的重复值。3.部分数据存在异常。5. 一个数据集(表)中存储多个类型[4]。6.数据包含数值和字符串情况。这些问题不但会在我们数据挖掘过程中给我们的带了很多的无用功,还有可能在会影响到我们的分析结果。所以我们要经行数据清洗。针对部分数据的缺失我们最常用的手段就是经行数据补全。针对数据存在重复值我们要做的工作则是删除掉重复的部分。数据存在异常我们则是找出异常部分,尝试查找到其正确的数据,如果查找不到则将其删除。数据类型统一则是通过分类,找出其中有哪些数据的类型,最后将它们保存为同一类型的数据。数据包含字符串和数字的情况则是根据自己的需求将数据保存为同一类型。数据清洗在大数据的研究中起到至关重要的作用。如果数据存在异常,首先会给我们带来很大的工作量,其次会在最后的结果中起到一定的干扰作用,有时这种干扰作用对我们的分析没有太大的联系,但是有时这种干扰可能会直接带给我们不同的结果。

大数据是如此重要,以至于其获取、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,但是数据是抽象的,这些数据是怎样呈现在我们的面前的呢?为了能够直观发现大数据的规律,数据可视化就很好的帮到了我们。数据可视化作为数据挖掘的最基本方法之一,就是通过图像的手段,清晰有效的将抽象的数据绘制成为不同的图形呈现在我们的面前。数据可视化与信息图形,信息可视化,科学可视化以及统计图形密切相关。数据可视化技术主要包含几个基本的概念:1.数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间2.数据开发:是指利用一定的算法和工具对数据经行定量的推演和计算3.数据分析:指对多维数据经行切片,块,旋转等动作刨析数据,从而能多角度,多侧面观察数据。4.数据可视化是将大型数据集中的数据以图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化已经提出了很多方法这些方法根据可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等[5]

基于几何的可视化技术包括Scatter plots、Landscapes、Projection Pursuit、Parallel Coordinates等等, 是以几何画法或几何投影的方式来表示数据库中的数据。平行坐标法是最早提出的以二维形式表示n维数据的可视化技术之一[6], 基于图标技术的基本思想是用一个简单图标的各个部分 来表示n维数据属性。基于图标的可视化技术包括Chernoffface、Shape Coding、Stick Figures等,这种技术适用于某些 维值在二维平面上具有良好展开属性的数据集。枝形图方法(Stick Figures)是其中的基本方法之一[7]。枝形图方法首先选取多维属性中的两种属性作为基本的平 X-Y 面轴,在此平面上利用小树枝的长度或角度的不同表示出其 他属性值的变化。

ECharts是一个使用JavaScript实现的开源可视化库[8],其底层依赖于轻量级的Canvas类库Zrender,基于BSD开源协议,是一款非常优秀的可视化前端框架。ECharts是一个可以流畅的运行在pc段和移动段的开源的可视化的库,它提供了直观,生动,可交互,可个性化定制的数据可视化图库,具有丰富的可视化图表类型(包括柱状图,折线图,饼状图,条形图,地图,并且支持图与图直间的混搭)[9]。在Echarts中我们可以找到很多帮助我们实现可视化的图库,其代码是完全开源的,我们可以在使用中可以去尝试改动创作者的代码来熟悉其具体的实现方法。

Python是当下最流行的编程语言之一, 目前最稳定的版本是python3.0以上[10],python是一门已读、易维护、被大量用户所欢迎的、用途广泛的语言,它是一门动态的、面向对象的脚本语言,最初被设计用于编写自动化脚本,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的大型项目的开发。Python语言是一种免费的、开源的语言,这一点很重要,它对python用户群的扩大起到了至关重要的作用,使用者的增加反过来又可以丰富python的功能。Python最强大的地方在于python有许多强大的库可以调用,从而帮助我们减轻编程的工作量。Python有很强的数学处理能力就是得益于python中的numpy库,numpy库是python中比较常用的一个库,这个库可以用于python对于数组的算数和逻辑运算、傅立叶变换、线性代数有关的操作。正是有了这些操作的存在python在数据的可视化和挖掘分析中才能展现出如此强大的能力。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。