基于网络爬虫的就业形势及趋势走向分析系统文献综述

 2022-03-14 20:15:34

文献综述

网络爬虫是一种可以依照提前设定好的程序规则自动抓取网络信息的程序或脚本。为爬虫提供了丰富的第三方库的Python语言,使得网络爬虫技术得到了阶段性的飞跃,提升了数据获取与汇总工作的效率,降低了人力物力的消耗。[1][2]

数据清洗,即数据预处理。直接从网上获取的数据有很多问题,并不适合直接进行分析,需要进行预处理。具体操作是通过对目标数据进行合并、清洗、变换和标准化处理,以满足后续建模分析的需要。在此过程中,可提高数据质量,从而提高数据分析效率。[3]

数据可视化是采用图表等方式对数据进行展示,有助于进行决策。数据分析是指运用一定的方法对收集到的数据进行分析,提取其中有用信息的过程。在庞大的第三方库支持下,Python能够为各个领域的数据处理分析工作提供支持。[4]

  1. 网络爬虫的工作原理及流程[1][2][5]

网络爬虫的主要工作通常可分为数据采集、数据整理、数据存储这三个模块。不同形式的网络爬虫流程基本相同:选取初始种子URL和等待URL,放入待抓取URL队列;读取并解析DNS;按网页抓取策略下载网页中所需内容;以数据库或文件形式存储数据;从待抓取URL队列中获取新的URL进行新一轮数据爬取,直到满足停止爬取的条件。

  1. 网络爬虫的技术类型[2][5]

1 通用网络爬虫

面向整个互联网,由初始种子URL根据不同算法对整个互联网网页进行大规模爬取,典型的应用是搜索引擎。但通用爬虫存在不少弊端:例如,返回的结果存在大量无用的网页;再如,由于多媒体的涌现,通用爬虫更难发现和获取信息。

2 聚焦网络爬虫

针对某种特定的内容或特征去爬取数据,且保证内容需求尽可能相关。可细分为积累式爬虫、增量式爬虫和深层网络爬虫。相对于通用爬虫来说针对性更强,一般用于专门的爬虫系统。爬取策略有很多种,包括广度优先爬取策略、深度优先爬取策略、大站优先爬取策略(网页数量多的站点优先爬取)、反链爬取策略(反向链接的网页数多的优先爬取)以及OPIC 策略、Partial 策略和 PageRank 策略等爬取策略。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。