文献综述

一、网络爬虫技术

网络信息获取技术,是指对网络流中非结构化的信息,设法将其读取出来,然后将其保存至结构化的本地数据库。其中,网络爬虫是最典型的例子。网络爬虫,通常又称之为Web信息采集器或网络蜘蛛,是遍历web并以有条理的自动方式下载web文档的程序或软件。1994年,全球首个网络检索工具诞生,即Web Crawler。现阶段,百度、Yahoo、Google等是当下较为流行的搜索引擎。给定一个或多个种子URL,是网络爬虫的首要条件，其次,需要将与这些URL相关联的网页下载下来,提取其中涉及到的所有超链接，最后,递归地继续去下载被这些超链接所标识的网页。使用遍历的方式,访问互联网这个超级“图”的各个节点,找寻并获取有用信息,这是网络爬虫的目的。因此,网络爬虫的体系结构一般由以下几个模块组成:初始化模块、Web页面获取模块、Web页面解析模块,以及URL过滤模块。网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。[1][11][12]

二、Web空间数据获取主要采用网络爬虫技术，

国内外许多学者在这方面进行了研究。Leasure D R指出，利用网络爬虫技术，可以丰富GIS空间分析的数据来源。 Tezuka T等研究提出的网络爬虫技术降低了Web空间数据获取的难度。 Zhang C J提出了甚于网络爬虫技术的地名地址库更新方法。Hua-Ping Zhang等研究了从互联网新闻报道中自动提取POI数据的方法。Li W研究了基于网络爬虫OGC服务发现方法。Chen x甚于网络爬虫实现了自动化发现和检索WMS服务。Jiang J研究了检索WFS服务的网络爬虫。王明军在普通网络爬虫技术基础上提出了空间敏感爬虫的思想体系，并从多个方面对其进行了阐述。蔡地在研究开源网络爬虫框架的基础上，提出通过多线程和异步I/O两种策略来优化Web空间数据的获取效率。Ager A则在研究中指出，如果能够对Web空间数据进行有效的利用，将对GIS的发展产生深远的影响。[10][3]

三、Dijkstra算法

Dijkstra算法是1959年由荷兰计算机科学家Dijkstra提出的图论中求最短路径的常用算法,该算法可求得图中一点到其他任一顶点的最短路径。.Dijkstra算法将网络节点分成3部分:未标记节点、临时标记节点和永久标记节点.在网络图中,将所有节点初始化为未标记节点,在搜索过程中游历节点和任一路径中相连通的节点为临时标记节点,每次循环都是把从临时标记节点中搜索距起源点路径长度最短的节点作为永久标记节点，直至找到目标节点或者所有的节点都成为有就标记节点后算法结束。

通过对传统Djkstra算法的研究与分析，可以得出Djkstra算法的几点不足之处：

第一，对于数据的存储，传统的Djksta算法用图论中的邻接矩阵来存储网络图，其存储量是nXn (n为网络中的节点数目)。因为，通常网络中虽然节点很多，但是与节点相连的节点数目并不多，所以网络图一般为稀疏图。而对于一个大型稀疏图来说，邻接矩阵的存储方式会浪费大量的存储空间，并且在计算时也要花费大量时间来遍历无意义的数据。其存储效率和计算效率都很低。

第二，从那些没有被包含的节点中，选出在距离数组当中有距离值最小的那个点，在更新操作过程中，需要扫描所有未被包含的节点进行比较更新。而没有被包

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于单源最短路径算法的城市地铁路线规划文献综述

文献综述

您可能感兴趣的文章

登录

注册

找回密码

文献综述

您可能感兴趣的文章