基于区块链的大数据溯源方法研究文献综述

 2022-07-24 01:07

文 献 综 述

大数据技术的发展和应用对国家的治理模式、企业的决策架构、商业的业务策略以及个人的生活方式都产生了深远影响[1],我们已经步入了大数据时代。但数据安全问题一直如影随形,在涉及到相关政府部门、金融机构时,数据被盗,数据污染等问题制约了该技术的广泛应用。如果相关安全问题再不得到解决,必将阻碍大数据产业未来向更广阔的领域发展。而区块链技术的出现让这一问题的解决有了希望,它是由各种技术与通讯协议组成的全新互联网架构,通过其加密分享、分布式账本等特征为数据的流通与共享提供新的方法与思路,与大数据技术形成互补[2],让大数据能够真正放心地流动起来。

  1. 数据溯源方法的相关研究

1.1数据流通与数据溯源

数据流通是数据价值实现的前提和基础,包括数据共享、数据公用和数据交易三种形式[3]。是指数据从最初收集的主体转移到另外一个主体的过程。这种情况下,数据脱离了原有使用场景,变更了使用目的。在数据流通的过程中,一般都是提供方和需求方直接对接,也有经过第三方平台的情况。以货币换取数据的行为称为数据交易。数据资源的流动性和可获取性是大数据应用和产业发展的基础。互联网开放 融合 创新发展的根本在于数据的深度融合和开放互联,而数据的融合和关联其根本在于数据流通 数据流通的方向决定着跨界领域和共享边界,因此,互联网 时代也可以称之为 数据流通时代 数据的流通和深度融合带来不同领域和产业的跨界协同 结构重置,以此形成空间思维和发展模式的创新革命,带来大众创新和万众创业的新格局[4]。从2014年至今,数据流通行业在我国从无到有,目前我国数据交易企业(机构)的数量已经超过30 家。但无论国内还是国外,数据流通行业的发展过程中始终是活力与风险并存。

数据溯源技术可以有效保障数据流通的安全,降低其中的风险。

目前,数据溯源还没有公认的定义。 Simmhan 等将数据溯源定义为从源数据到数据产品的衍生过程信息[5]; Buneman等在数据库领域将其定义为“数据及其在数据库间运动的起源” [6];Lanter 在 GIS 中将其定义为:数据溯源是对目标数据衍生前的原始数据以及演变过程的描述;Greenwood 等人对 Lanter 的定义进行拓展,认为数据溯源是一种元数据,用来记录工作流演变过程、标注信息以及实验过程等信息。戴超凡[7]等将数据溯源定义为记录原始数据在整个生命周期内( 从产生、传播到消亡)的演变信息和演变处理内容。在钱卫宁[8]的研究中认为数据溯源是指对于数据流程的管理,解决数据为什么是该状态,数据从哪来,和如何获得的问题。明华等认为,数据溯源强调的是一种溯本追源的技术,根据追踪路径重现数据的历史状态和演变过程,实现数据历史档案的追溯[9]

1.2数据溯源相关方法

目前,数据溯源追踪的主要方法有通过查看目标数据的标注(和信息一起传播的重要信息)来获得数据的溯源的标注法[10],以及通过逆向查询或逆向函数对查询求逆,由结果追溯到源数据的反向查询法[11],通用的数据追踪方法,双向指针追踪法,利用图论思想和专用查询语言追踪法,以及以位向量存储定位等方法[9]

数据溯源是有关源数据以及数据创建过程的信息,这些信息可以用来评估数据质量、对数据来源进行审计跟踪以及快速定位产生错误的位置等。目前数据溯源在数据库领域研究的比较多,但是在大数据领域的研究相对比较少。郝鹏飞[12]论文主要针对在现有的大数据模型分析平台下追溯结果数据的来源及产生过程的需求,对大数据平台下的基于 Oozie 模型工作流的数据溯源问题进行研究,并提出基于 DAG 的粗粒度数据溯源方法和基于标记的细粒度数据溯源方法,基于上述关键技术设计并实现了一个基于大数据平台的数据溯源系统[12]

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。