微博自杀信息爬取系统的设计与实现文献综述

 2022-08-10 09:08

一、微博自杀信息爬取系统的设计与实现

  1. 国内外研究现状

随着微博用户群的不断增长,基于微博数据的社交网络分析,用户行为分析等研究越来越受到重视。而在自杀成为我国一个巨大的问题的当下,已经有研究者通过微博数据对自杀行为进行了研究。

自杀是一种严重的心理问题,自杀死亡者在日常言语表达中往往都会流露自杀的意念。他们和无自杀意念的人在行为特征和语言特征上都存在着不小的差异。行为特征上,在同为较深程度使用微博的情况下,自杀死亡者的社交活跃度远小于无自杀意念者。语言特征上,自杀死亡者在代名词(如他,他们),特定人称代名词(如他,在下,他们),社会历程词(如家人,接纳),焦虑词(如挣扎,紧绷),消极情绪词(如担忧),悲伤词(如心痛),死亡词(如自杀)的使用上都会高于无自杀意念者。

而由于微博上网络数据的复杂以及庞大,如何获取更多的数据成了研究者的首要问题,在这种情况下,网络爬虫自然被关注到了。

网络爬虫是一种起源于搜索引擎按照一定规则自动抓取网络数据的程序。现今网络爬虫大体上可以分为四类,通用网络爬虫,聚焦网络爬虫,增量网络爬虫,Deep Web 爬虫。在这四种网络爬虫中,聚焦网络爬虫只需要爬行与主题相关的数据,最为适合对存在固定主题的数据进行爬取。

随着Web2.0/AJAX等技术成为主流,传统的习惯了DOM结构的网络爬虫程序已经不再合适,对JavaScript技术的交互分析和解释,动态DOM内容语义的抽取和分析成为网络爬虫的重点。如何实现对数据的解析是一个难题,往往两个差异性不是很大的网站,也需要爬虫工作者人工再次进行数据分析逻辑的编写,导致浪费了大量的时间和精力。因此,在智能逐渐得到发展的现今,网络爬虫的分析算法已经往智能解析的方向发展,虽然现在的智能解析算法还很粗糙,问题也比较多,但是这将是未来的发展方向之一。

在爬行策略上,聚焦网络爬虫现在大多采用最佳优先爬行策略,而该策略使用的网页分析算法则是当前研究者们研究的重点,网页分析算法是一个聚焦网络爬虫最重要的算法之一。为了避免重复爬取网页,去重算法也是一个重点,现今已经有了数种可用的去重算法。

由于网络数据的过于庞大,导致单个的网络爬虫难以满足需求,且采集到的大量数据的存储也成了一个问题,分布式技术可以大大提高网络爬虫的工作效率,采集到的数据也可以进行分布式的存放,解决了单个服务器空间有限的问题,因此现在大量的网络爬虫采用了分布式开发。

而大数据时代对于数据的需求导致网络爬虫广泛甚至过度的被使用,这也促使了反爬虫技术的发展,各种对于网络爬虫的限制技术都在反爬虫工作者们的手下诞生,爬虫工作者们在研究更好的爬虫技术的同时,也需要研究如何攻破反爬虫技术的阻碍。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。