基于python的搜索引擎开发文献综述-文献综述网

毕业论文课题相关文献综述

1.前言作为求职者，查询招聘信息是求职的重要一步，招聘信息往往内容丰富多样，时效性强。

然而随着互联网的不断普及与发展，网络上出现了越来越多样的信息，我们日常使用的通用搜索引擎渐渐无法满足人们的检索需求。

当用户需要检索招聘信息时，通用搜索引擎检索得到的数据中往往包含大量无效信息和过时信息，与用户的需要关联性弱，会极大的降低检索效率。

如何快速、准确的获取目标的求职信息称为急需解决的问题，为了解决这一问题，我们通过搭建面向求职者开发的搜索引擎，采用分布式爬虫的方式，帮助用户高效检索求职信息。

网络爬虫又称为网络机器人、网络蜘蛛、自动索引器，网络爬虫利用http协议检索web文档，是按照一定规则，自动抓取网页信息的程序或脚本。

网络爬虫依据一定的策略从万维网上下载网页，解析其中的数据进行分析，是搜索引擎的重要组成部分。

Scrapy是python的一个快速、高层次的屏幕抓取和web抓取框架，提供了多种类型爬虫的基类，用于抓取web站点并从页面中提取结构化的数据。

通过scrapy框架，可以方便地自定义爬虫的爬取规则。

Elasticsearch框架是一个基于lucene的搜索服务器。

提供了一个分布式的全文搜索引擎，基于restful web接口。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付