基于Python爬虫的精准扶贫信息系统文献综述-文献综述网

一、前言

随着互联网的高速发展，在互联网搜索服务中，搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中不可或缺的组成部分，是一种自动搜集互联网信息的程序,它负责从互联网中搜集网页，并将这些页面用于建立索引从而为搜索引擎提供支持。通过网络爬虫不仅能够为搜索引擎采集网络信息，而且可以作为定向信息采集器，定向采集某些网站显示的特定信息，如招聘信息，租房信息等。从网络爬虫的应用出发，探讨了网络爬虫在搜索引擎中的作用和地位，提出了网络爬虫的功能和设计要求。在对网络爬虫系统结构和工作原理所作分析的基础上，研究了页面爬取、解析等策略和算法，并使用Java实现了一个网络爬虫的程序，并对其运行结果做了分析。通过这一爬虫程序，可以搜集某一站点或多个站点的URL。连接外网后，可以爬取中国大部分大型主流门户的网站，如:百度，新浪，网易等。

而基于Python爬虫的精准扶贫信息系统，是指针对不同贫困地区环境，对不同贫困农户状况，运用科学有效程序对扶贫对象实施精准识别，精准帮扶，精准管理的治贫方式。爬虫就像是一直蜘蛛一样，而互联网是就像是一张大大的蜘蛛网一样。简单的说爬虫就是请求网站并提取数据的自动化程序。请求：我们打开浏览器输入关键词敲击回车，这就叫做是请求。我们做的爬虫就是模拟浏览器进行对服务器发送请求，然后获取这些网络资源。我们得到这些网络资源都是一些HTML代码，或者是一些文本文字。我们下一步做的工作就是在这些数据中提取出我们想要的东西。比如一个手机号。存在数据库或者文档里面。

借助Python技术，爬虫有用信息，使得精准扶贫政策正当有校实施。

二、国内外研究现状

作为搜索引擎技术核心元素之一，自1993年初 Matthew Grayrsquo;s Wandered 在麻省理工学院开发出有史记载的第一个网络爬虫以来，爬虫技术历经20多年的发展，技术已日趋多样。为满足不同用户多种多样的需求，创建开发了类型众多的爬虫系统。按照实现技术和其系统构成，爬虫系统主要可以分为以下几种：

一.通用网络爬虫

通用网络爬虫（General Purpose Web Crawler）也可称之为全站爬虫（Scalable Web Crawler），它通过一系列预设的初始链接开始，获取页面上所有链接，根据预设规则，提取链接，进入待爬取队列，进而不断访问网页下载网页或取链接。然后通过HTML解析技术，获取页面数据，提取所需信息并保存，与此同时将新获取的链接放入待爬取队列，直到达到系统预设指定条件为止。通用网络爬虫有两种常用的爬取策略

（1）深度优先策略

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于Python爬虫的精准扶贫信息系统文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章