毕业论文课题相关文献综述
文 献 综 述 1.前言随着网络技术与新媒体技术的快速发展,互联网产生的数据也在快速增长,人们也越来越注重数据的意义,重视研究数据挖掘的价值。
传统的人工数据采集方法,因样本小、误差大等因素,已经无法满足高质量分析的需求,在信息迅速膨胀的时代,网络爬虫就备受人们追捧,成为当下信息采集数据挖掘的主要方式之一。
一些学者提出:互联网上60%的流量都是由网络爬虫带来的。
网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。
简单来说,网络爬虫就是根据一定的算法实现编程开发,主要通过URL实现数据的抓取和发掘。
传统的爬虫有百度、Google、必应等搜索引擎,这类通用的搜索引擎都有自己的核心算法。
但是,通用的搜索引擎存在着一定的局限性。
因此,为了得到准确的数据,定向抓取相关网页资源的主题网络爬虫应运而生。
主题网络爬虫是一个自动下载网页的程序,可根据设定的抓取目标有目的性地访问互联网上的网页与相关的URL,从而获取所需要的信息。
与通用爬虫不同,主题网络爬虫并不追求全面的覆盖率,而是抓取与某一特定内容相关的网页,为面向特定的用户提供数据资源。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
