毕业论文课题相关文献综述
1.前言作为求职者,查询招聘信息是求职的重要一步,招聘信息往往内容丰富多样,时效性强。
然而随着互联网的不断普及与发展,网络上出现了越来越多样的信息,我们日常使用的通用搜索引擎渐渐无法满足人们的检索需求。
当用户需要检索招聘信息时,通用搜索引擎检索得到的数据中往往包含大量无效信息和过时信息,与用户的需要关联性弱,会极大的降低检索效率。
如何快速、准确的获取目标的求职信息称为急需解决的问题,为了解决这一问题,我们通过搭建面向求职者开发的搜索引擎,采用分布式爬虫的方式,帮助用户高效检索求职信息。
网络爬虫又称为网络机器人、网络蜘蛛、自动索引器,网络爬虫利用http协议检索web文档,是按照一定规则,自动抓取网页信息的程序或脚本。
网络爬虫依据一定的策略从万维网上下载网页,解析其中的数据进行分析,是搜索引擎的重要组成部分。
Scrapy是python的一个快速、高层次的屏幕抓取和web抓取框架,提供了多种类型爬虫的基类,用于抓取web站点并从页面中提取结构化的数据。
通过scrapy框架,可以方便地自定义爬虫的爬取规则。
Elasticsearch框架是一个基于lucene的搜索服务器。
提供了一个分布式的全文搜索引擎,基于restful web接口。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
