基于多线程技术爬虫研发-以wos为例文献综述-文献综述网

文献综述

1、研究现状

随着互联网的蓬勃发展，网络上的信息呈现爆炸式增长。为了从如此浩瀚、巨大的资料库中快速精准地查找用户所需资料，同时尽可能忽略掉不相关的信息，搜索引擎技术应运而生。搜索引擎一般由搜集信息、整理信息、接受查询三个部分组成。其中核心部分之一搜集信息的部分就是通过网络爬虫来实现的。世界上第一个网络爬虫是由麻省理工学院的马休·格雷在1993年写的。后来随着因特网的发展，出现了商用级别的搜索引擎。比如Google和Bing。北大天网是国内研究高性能爬虫的先行者，其开发的爬虫系统能胜任10亿级别的网页数据。目前，大多数爬虫是用后台脚本类语言写的，其中Python是用的最多最广的，并且诞生了很多优秀的库和框架，如scrapy、BeautifulSoup、pyquery等。

2、发展趋势

信息聚合是互联网公司的基本需求。大数据时代到来，人们对数据有着更强烈的需求。近年来，靠爬虫聚合信息的创业公司不断涌现，例如去哪儿、今日头条、美丽说、蘑菇街等。这意味着随着数据时代和智能化时代到来，爬虫作为重要的数据来源，自身需要一些技术提升来适应时代的高可靠，大规模，高效率开发需求。

3、研究意义

一个采集速度快，数据更新及时的高可靠爬虫系统，不仅仅为搜索者提供基础数据，也可以为数据分析、挖掘提供基础数据，从而方便人们获得信息、知识。以web of science为例，由于权限的限制，大部分高校学生、教师只能在学校区域内访问。但如果事先进行数据爬取，即使人在外地，也能获取想要的信息。

4、文献综述

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

基于多线程技术爬虫研发-以wos为例文献综述

文献综述

您可能感兴趣的文章

登录

注册

找回密码

文献综述

您可能感兴趣的文章