基于Python的旅游网站数据爬虫研究文献综述

 2022-03-25 07:03

基于Python的旅游网站数据爬虫研究

互联网的飞速发展,使得网络中的信息量也变得越来越大。从庞大的互联网中快速准确的收集到我们需要的信息,是一个巨大的挑战。因此,网络爬虫技术在庞大的信息收集需求之下开始出现,和传统的人工搜集相比,网络爬虫可以迅速的精确的不间断的搜集到对我们有价值的信息。互联网中蕴含着大量的信息,有效的获取这些信息并进行利用就变成了一个不小的挑战。传统的人工收集信息的方式速度慢、非常容易出错,而网络爬虫程序,它是一种根据事先制定好的规则主动的搜集万维网中的数据的一种程序。我们上网用的搜索引擎采用的就是爬虫技术,用无数个爬虫每天爬取各种各样的网站,并把这些网站放到数据库中,等着我们去搜索。[1]

Python语言是高级语言,由Guido van Russum在阿姆斯特丹于1989年的圣诞节期间首次被设计完成,1991年第一次公开发行文本。它是一种解释性语言,你可以用它来创建网页应用、游戏和搜索引擎。多个领域都会见到Python的身影,如:云计算、web开发、科学运算、人工智能、金融量化交易等。同时,该语言具有独特的语法结构,拥有较强的可读性,具备互交性、结构简单、代码清晰、可移植、源代码已维护、可嵌入以及可拓展等特点,适合完成高层人物,几乎可以再所有操作系统中运行。若要使用Python语言来实现网络爬虫技术,应当充分利用Python语言简洁以及资源丰富的优势。如在研发网络爬虫系统的获取网络数据信息时,无需较为复杂的代码编辑器、调试器等工具,可使用Eclipse通过插件作为Python语言的开发工具。Python语言编写网络爬虫系统的优势:

(1)软件质量高。秉承了简洁、清晰的特点,拥有高度一致的编程模式,简单易学,容易上手。设计风格从始至终不做改变,可保证开发者在统一规则内设计出规范性的代码。如若出现错误代码,Python提供了合理的“退出机制”。

(2)开发速度快。Python不需要复杂的IDE,它可以简单到只用一个文本编辑器,对多数中小型应用进行开发。无需编译也无需调试,往往只需要几十行代码就可以开发出需要几百行C代码才能实现的功能。

(3)功能强大。为了实现更多的功能,Python内置了许多预编码的库工具。ScraPy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可运用到信息搜索、数据识别、存储历史数据等一系列程序中。同时,Python还有很多强大的框架帮助编程者实现更多功能。

(4)易于扩展。可通过C或者C 编写的模块进行拓展,也十分擅长做文本处理和字符串处理。[2]

网络爬虫是作为一种计算机程序,具有自动下载网页功能,可以在互联网里采集数据,满足科学计算、数据处理以及网页开发等多个方面的用途。网络爬虫有着通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以及深层网络爬虫等多种类型。[3]

目前有许多成熟的可通过Python进行调用的成熟的爬虫框架如Mechanize、pyquery、Scrapy等,这些库或者框架都有各自的优点,而Scrapy则是其中最突出的框架之一。Scrapy是一个基于Python语言的爬虫,Scrapy这个框架被开发出来是为了完成一些结构性的数据获取等功能,Scrapy可以应用在多种日常生活中常见的领域中。Scrapy最初的版本的功能是爬取一些页面,同时它也可以应用在如amazon associates web services等获取API所返回的数据中,或者作为通用的网络爬虫[4]。Scrapy的优点有以下几点:

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。