基于网络爬虫的林业火灾数据挖掘分析系统的设计与实现文献综述

 2022-05-30 10:05

开题报告

近几十年来,由于世界范围的人口膨胀,工业化进程加快,人类活动对森林的影响日益加剧,森林火灾发生的危险性提高,防御和控制森林火灾受到了各国的普遍重视森林火灾的发生有很深的自然因素和社会因素。全世界每年发生森林火灾几十万次、受灾面积达几百万公顷,约占森林总面积的0.1%[1]。进入21世纪以来,火灾每年都有上升的趋势,虽然各国的森林防火费用不断增加,但森林火灾面积并未发生明显变化。持别是2019年,火灾毁灭了数百万公顷的热带森林,严重破坏了全球的生态平衡。森林火灾增加了大气中 CO2 的含量,导致了气温升高。严重的森林火灾还会引起土壤荒漠化,并对全球的经济产生巨大影响。森林资源的消失,对全世界来说都是无法逆转的损失。预防森林火灾的发生,减少其所造成的损失,对于保护森林资源,维护区域生态平衡,保障区域经济、社会持续稳定发展有着重要的意义。

传统的林业火灾信息数据收集与检索工作通常依靠人工完成。通过人工采集与整理的林业火灾信息数据往往具有精度高,数据格式规整,可信程度高,但数据量小,来源单一,时效性较差等特点。与此相对应,网络林业火灾信息数据量大,来源广泛,时效性强,但数据格式复杂多变,收集和整理网络林业火灾信息数据需要耗费大量的人力。因此,传统的人工数据采集与整理方法不适用于网络林业火灾信息[7]。在大数据时代,搜索引擎在信息检索方面起着关键性的作用,为人们快速准确地提供所需要的信息。网络爬虫作为搜索引擎的关键组成部分,为信息的准确收集与检索提供了基础[8]。网络爬虫在国内外的使用十分广泛,发展迅速,在多个领域都能看到他的身影,比如出行、社交、自媒体、新闻等等,但是国内外并没有人用网络爬虫来获取林业火灾数据。而且,目前国内外没有详细的林业火灾数据库,本研究基于网络爬虫获取林业火灾数据,并基于数据挖掘分析火灾发生原因与趋势。对林业火灾数据的分析和展示在目前来说在各个平台上尚缺少同类系统的存在,该课题的研究可以填补这一空白,且对于林业火灾的预防有极大的帮助。

网络爬虫,又称网页蜘蛛 ( web crawler),是一个功能强大的能够自动提取网页信息的程序,网络爬虫通过网页的链接地址来查找网页内容,并直接返回给用户所需要的数据,不需要人工操纵浏览器获取[2]。网络爬虫从互联网上源源不断的抓取海量信息,所以,如果我们把互联网比喻成一张覆盖全球的蜘蛛网,那么抓取程序就是在网上爬来爬去的蜘蛛[4]。本研究将使用网络爬虫来获取互联网上关于林业火灾的数据,包括但不限于地理、气候数据、人类活动等相关的数据,接着基于数据分析火灾发生的原因和规律。

根据爬取的对象,使用的结构及技术,爬虫可分为:

  • 通用型爬虫:该爬虫又称为全网爬虫,主要用在搜索引擎,从初始的URL到全网页面,但需要的存储容量大,速度要求快,工作性能强大。
  • 聚焦型爬虫:该爬虫专注某一方面,只搜索事先定义的关键信息。
  • 增量型爬虫:每隔一段时间更新,重新爬取,更新数据库。
  • 深层爬虫:该爬虫一般需要登录提交数据,才能进入页面提取信息。

本研究将使用Python语言来实现一个简单的聚焦型爬虫程序系统,包括数据提取,数据分析与结果展示等主要模块。Python是一种广泛应用的脚本语言,它自身带有urllib2、urllib相关的爬虫基础库等,在Python语言的基础上开发出的一种开源软件则是Scrapy,它可以在Linux、Windows等多种操作系统中使用。如果被获取的网页经过大量的HTML源代码进行编写,这种情况下需要下载很多内容,但是用户可以在Scrapy爬虫系统上制定一部分模块,从而实现爬虫的功能[3]。在使用之前,必须搭建好使用环境。到Python官网下载针对用户所使 用的操作系统Python版本来安装,安装完成后需要设置环境变量便于启动Python。同时可选择一款合适的编辑工具来完成爬虫的编写。

网络爬虫的基本工作流程如下:

  • 首先选取一部分URL作为种子URL;
  • 将这些种子URL加入待抓取集合;
  • 从待抓取的URL集合中取出待抓取的URL,解析DNS,并且得到主机 的IP,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进己抓取的URL集合;
  • 分析己抓取URL集合中的URL,分析其中的其他URL,并且将URL放入待抓取URL集合,从而进入下一个循环:
  • 解析下载下来的网页,将需要的数据解析出来;
  • 数据持久化,保存至数据库中。

该爬虫程序中有三个核心模块:URL管理器,是用来管理待爬取URL数据和已爬取URL数据;网页下载器,是将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析;网页解析器,一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理器。这三部分就组成了一个简单的爬虫架构,这个架构就能将互联网中所有关于林业火灾的网页抓取下来[5]。当然这是理想状态下爬虫的执行过程,但是实际上要抓取Internet上所有的网页是不可能完成的。从目前公布的数据来看,最好的搜索引擎也只不过抓取了整个Internet 40%的网页[10]

高效率的抓取策略是网络爬虫算法的核心内容,也是本研究的难点,即通过尽可能高的效率爬取和用户兴趣相关的网页,提高爬取内容的准确性[11]。网络爬虫的抓取原理是从互联网的一个网页开始,根据网页中的超级链接逐个抓取网页中链接的其他网页。而网页通过超级链接互相连接,组成了一个庞大的无形的网,信息量十分庞大,网络爬虫不可能抓取所有网页信息,所以使用网络爬虫抓取网页要遵循一定的原则,主要是深度优先原则,广度优先原则和最佳优先原则[6]

1)深度优先策略

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。