基于网络爬虫的微博医药关键词数据获取研究文献综述

 2022-12-25 11:12

开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)

  1. 研究背景

众所周知,Twitter是微博平台的始祖,也是当下全世界规模最大的微博平台。在中国,新浪微博、腾讯微博等微博平台服务商的基本核心服务规则沿袭了Twitter公司最初的规定,而其中新浪微博的影响力要远远超过腾讯、网易、搜狐等服务商。截至2014年第四季度末,Twitter在全球月度平均活跃人数己达到2.88亿人次,而新浪微博的月度平均活跃人数也已经达到了1.76亿,日活跃用户达到了6000多万。微博吸引大众的魅力表现在以下几个方面:自媒体时代的重要平台、网络交友的重要渠道、获取信息的重要途径。微博成为国内重要的社会信息传播平台,各种官方机构在微博发布信息,人们也通过微博直接快速地就突发事件、公众人物、热门产品等各种热点话题表达观点,微博因此聚集了海量的信息,其潜在价值有待挖掘[1][2]

微博官方并没有提供相关接口给人们下载与微博相关的数据集, 并且微博的登录、浏览等操作都有较多复杂限制, 这给数据的采集带来了困难, 对普通的想获取相关数据的人员来说是个极大的挑战[3]。因此, 快速获得微博数据成为微博数据挖掘的一个核心。网络爬虫具有程序健壮性、自动性以及智能性强的特点,因此基于网络爬虫技术来获取微博数据,因其效率高、信息完整,逐渐成为获取微博信息的主要研究方向。实现医药相关关键词的数据获取和数据分析,可以根据用户行为来预测市场需求,为医药企业和机构提供有价值的参考信息。

随着微博平台中的微博应用越来越多,过度的 API 调用将会影响微博平台的整体性能,新浪微博对 API 的调用做出了限制。微博数据研究者为了保证微博爬虫的效率,将目光转向传统的网络爬虫成为大势所趋[4]

  1. 国内外研究现状

大数据时代的今天,对twitter或微博数据的研究越来越被重视且具有必要性。在国外,将twitter数据应用在医药领域的研究已经屡见不鲜,甚至应用至临床治疗等更加深入具体的领域。仅2018年一年就有诸多例子。如Francois R. Lamy等人利用挖掘twitter数据分析美国各州大麻合法化程度不一的状态下人们对一种新型大麻的关注趋势[5]。Junxiang Wang等人通过整合Twitter数据和疫苗不良事件报告系统(VAERS)信息开发组合分类方法,旨在识别流感疫苗后的潜在不良反应[6]。McGovern SK等人通过调查评估Twitter数据以了解公众对心肺复苏培训的看法和与CPR培训相关的障碍[7]

在我国,将数据挖掘技术应用至临床治疗或具体药物及病例的研究的则尚未兴起。目前,医疗信息的发布与交流、医药企业市场运营方式、医药相关话题的大众舆情等仍是该类研究的主要对象。杨敏分析了上市中药企业官方微博运营现状,并对其运营效率进行评价,探讨中药企业官方微博在运营过程中存在的问题和不足,对中药细分行业的企业官方微博进行总体研判,有针对性地提出中药企业官方微博运营策略,为中药行业内的企业官方微博建设和运营维护提供了参考依据[8]。安璐等人以'魏则西事件'为例,通过微博转发关系构建微博用户的社会关系网络,以可视化的方式分析突发公共卫生事件中各类利益相关者的情感状态和分布[9]。陈旭在新浪微博搜索引擎中对十位医生微博大V进行检索,了解十位医生的账号主体及来源、所处地域、粉丝数、互动率等指标并进行统计和整理,分析了医生群体开通微博对于医患沟通的影响[10]

可以看出,我国在该领域的研究尚有巨大的进步空间与前景,有待更进一步的发展。

  1. 课题研究内容
  2. 课题概述

本课题旨在利用网络爬虫技术爬取新浪微博医药相关关键词的检索结果,并对数据进行分析和处理。总结出一组医药热点事件关键词,用python编写的网络爬虫程序可爬取这些关键词在新浪微博的检索结果,检索结果存储在数据库中。将整合出数据的时空分布信息,以可视化形式呈现,从而得到能够供医药企业或相关机构进行参考的结果。

  1. 研究内容

首先,查阅文献、权威医药网站发布的信息及利用搜索引擎,总结归纳出一组时间范围为2018至2019年的医药热点事件关键词。其次,学习python语言,设计并编写网络爬虫程序。最后,将整合出数据的时空分布信息,以可视化形式呈现。

  1. 学习python语言

搭建开发环境,学习Python语言的基础语法和基本机制。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。