基于互联网数据的南京跨江出行舆情分析文献综述

 2022-02-13 06:02

全文总字数:6625字

1 前言

根据城市发展规律显示,多数沿江城市在发展到一定阶段后会选择跨江发展。国外跨江城市有伦敦、巴黎、首尔等,20世纪80年代末以后国内上海、杭州等城市也相继提出跨江发展战略并顺利实施,特别是近年来我国更多城市加入跨江城市行列[1]。南京地处国家大沿海与大沿江两大运输走廊交汇处,是长江流域四大中心城市,也是长江流域为数不多的跨江发展特大城市,跨江发展是城市发展的特殊形式,跨江交通则是其发展基础。其在城市空间扩张时,由于长江天堑的阻隔,空间生长前期主要集中在江南发展[2],跨江发展尤其是跨江交通使得江北发展有更多的新机遇。南京跨江发展萌芽于明朝时期,但近二十年来才真正进入全面发展时期,跨江交通的执行能力还无法适应急速增长的交通需求,尤其跨江出行极易产生拥堵和大规模延迟,造成严重的社会影响,因此需要进行互联网数据挖掘,发现城市居民基于出行数据的跨江出行主题并作情感分析,由此提出跨江交通的建议和改善措施。

自大数据诞生以来,各国致力于研究和探索数据来源,我国也推出多项相关政策,明确提出要全面推进大数据的发展与应用。2016 年以智慧城市为代表的“互联网 交通”项目在全国范围内开展,其中交通大数据是“互联网 交通”发展的重要依据[3]。不同于Web1.0时代的技术创新主导模式,Web2.0时代的互联网数据更注重以人为中心,数据更多来自于用户生产内容,其任务是内容结合与有机组织,在此过程中继续深化。近年来,文本挖掘成为数据挖掘的重要领域,主要应用在用户感知、情绪分析、热点话题识别信息提取等诸多方面[4],Web2.0时代的显著特征--去中心化、开放、共享为文本挖掘提供了新道路。此外,利用多源数据融合综合信息并分析,构建跨江出行属性模型[5]。在交通系统非结构化数据越来越多的背景下,结合多种数据挖掘方法研究有助于交管部门深入分析交通舆情,全面掌握城市交通问题,及时发现市民诉求的变化趋势,以制定有效的交通治理方案。

2 国内外研究现状

2.1 跨江交通出行

江苏省地理位置决定了其跨江发展模式,经张晨明、吕坚[6]等人研究位于南通和苏州之间的苏通桥发现,大桥通车后5年内,长三角经济发展稳定增长。此外,长江两岸的交通压力得到了很大的缓解,然而随着区域经济的快速发展,特别是毗邻国际金融、贸易和航运中心上海,苏通桥的交通需求急剧增加[6]。在余水仙等人的研究中,南京过江通道存在相同的问题。南京现有过江通道达27条(包括在建),但交通功能尚不完善,加上职住分离导致过江交通需求旺盛,尤其在高峰期间向心交通出行需求集中和潮汐现象加剧了过江通道的供需失衡与江南主城的交通负担[7]。由于跨江通道的局限性导致的交通问题造成了严重的社会影响。针对跨江交通组织问题,王昆等人通过对武汉跨江交通研究后建立了结构方程模型 (Structural EquationModeling, SEM),该模型融汇回归分析、路径分析、因子分析和方差分析的多变量复杂关系,分析多因多果的观测变量间的联系以及潜变量之间的关系,并模拟多因子的内在逻辑关系[8]。该模型通过挖掘基础交通数据并结合市民调查结果而建立,由此发现跨江交通问题,研究城市交通影响结果。同时也提出,市民情感分析和社会舆情分析是解决南京跨江交通出行问题的必要条件。

2.2 数据挖掘、处理与分析

随着Web2.0的兴起,社会媒体随之发生了巨大的变化,现在被广泛用于张贴和分享用户生成的信息、想法、意见、情感和其他形式的表达,并已成为共享信息的主要渠道之一。在交通领域,基于社交媒体的交通研究主要集中在交通事件检测、交通预测和交通情感分析。从社交媒体数据中提取和分析实时信息,使用数据挖掘、并行智能、并行学习和自然语言处理等技术的社交信号的交通或交通分析是许多领域的研究热点,引起了广泛的研究兴趣,例如国外Twitter、国内新浪微博等。Sasaki等人分析了利用Twitter检测交通信息的可行性,证明了利用Twitter检测列车状态信息的高潜力[10]。潘美瑜等人主要以新浪微博社交平台作为数据来源,对其进行语义分析、聚类分析、问题致因分析、情感特征、热度分析,最终开发出一套完整的以社交媒体文本为研究对象的交通网络舆情数据收集——数据分析——特征提取——情感分析的方法论[11],包括爬虫设计、数据清洗、关键词提取等进行交通问题的致因研究。赵晓航利用情感分析和主题分析的方法,探索危机事件中的微博舆情分析和治理的手段,例如主题词提取、情感分析、回归分析等分析工具,对危机传播过程中的舆情进行时序分析,探索其传播规律、舆情极化特点和受影响因素[12],并提出突发事件中政府对社会舆情研判的重要性。其中提到的文本情感分析就是对带有情感色彩的词语、句子以及文本进行分析、处理、归纳和处置的过程[13]。李扬[14]等人通过建立DS模型(情感极度-敏感度)来提取微博文本中关键词汇敏感度,即建立关键词与情感间的关联度,分析微博中敏感性与情感极度的关系。此外文档主题生成模型--LDA(Latent Dirichlet Allocation)[15][16]也为文本分析搭建了基础架构,该模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,可以用来识别大规模文档集或语料库中潜藏的主题信息,并采用词袋的方法--将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息,进行交通事故、交通风险、交通信号等的分析,该模型为优化交通组织和处理交通风险提供了新道路。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版