基于Python的新浪微博爬虫软件开发文献综述

 2022-05-31 22:17:31

基于Python的新浪微博爬虫软件文献综述

摘要:为了有效的从海量的微博之中获取有用的信息,通过对微博网页的分析,设计一款基于Python的新浪微博爬虫软件。通过模拟登录新浪微博,抓取微博中指定的用户的信息等内容;通过设定关键字筛选相关的微博内容。最后通过与mysql数据库连接将数据存入数据库中并且以txt文本的格式保存在电脑中。

关键词:Python;网络爬虫;新浪微博

  1. 前言

信息时代已经来临了,在过去的几十年里,互联网迅速的普及,每一天都有大量的数据通过互联网进行传递,这也使其成为世界上拥有最大规模的公共数据体系。随着网络的快速发展,互联网也成为了海量信息的载体,而社交网络就是其中的其中一个巨大载体,也吸引了许多研究人员加入相关的研究中,但这也造成了一种现象:每日都有大量的信息产生,并且这些信息的是杂乱无章的。因此,如何正确的获取这些数据便成为了重中之重。本程序是一个相对简单、快速、高效的信息微博获取程序,可通过不同的模式获取微博中需要的信息,通过这个程序,可以大大提高对信息获取的效率,降低信息收集的成本。

二、发展历程

能实现这样的这样的功能首先便是使用了python语言和网络爬虫。

Python 是由 Guido van Rossum 在 1989 年圣诞节期间开发的一种脚本语言。在 Python 之前,Guido 还参与设计了另一种教学语言ABC,这是一种为非专业开发者设计的教学语言。ABC 并未获得预想的成功,究其原因是语言的非开放性造成的,但是ABC语言易于使用的特点还是被Python继承了下来。同时,Python 也受到 Modula-3 的影响,Modula-3 是一种起源于 Alogo-60 的语言,主要设计特点是简单、安全和强大。Python 的第一次实现是在 Mac 上,Python 也受到了 Unix shell和 C(起源于 Alogo-60)语言的影响。

Python 1.0 发布与 1991 年,并没有像 java 引起巨大轰动。Python 2.0 发布于 2000 年,实现了完整的垃圾回收,而且支持 Unicode。Python 社区也逐步完善,对 Python 的发展和推广起到了非常重要的作用。到 2008 年,Python 3.0 正式发布,Python 已经成为一种集支持命令式程序设计、函数式编程、面向对象程序设计、面向侧面的程序设计、泛型编程多种编程范式于一身的脚本语言。

Python本身是功能相当的强大、语法简洁清晰的开源编程语言,几乎能够在市面上所有的操作系统上运行;也是高效率的完全面向对象的语言,能有效而简单地实现面向对象编程。Python 解释性语言的本质,再加上其简洁的语法和对动态输入的支持,使得它在大多数操作系统平台上都是一个较为理想的脚本语言,特别适用于快速的应用程序开发。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。