大数据背景下,各方对于数字化的呼声一浪高过一浪,“数据孤岛”成为亟待解决的难题之一。作为新型生产要素,数据共享难、流通难成为业内共识,目前通过一些安全技术手段如数据加密技术、数据脱敏技术可以起到一定保障,但并不适用于数据资产跨域流通的情况。
本文中,联通大数据安全团队基于运营商级别的安全保障体系实践,提出一种改进后的大数据流通共享安全方案,通过将数据加密技术、数据脱敏技术、数字水印技术和区块链技术等进行结合,实现对跨域流通共享的数据资产进行确权以及数据溯源,可大大提升数据流通和共享的安全性,确保数据在跨域传输后的安全合规使用。
大数据流通共享现状
大数据流通共享是指将企业、政府等信息系统中存储的大数据作为流通和共享对象,按照数据供需各方约定的规则、协议等,将数据从数据所有方向数据需求方提供分析使用的过程。流通共享分为原始数据和结果数据的流通共享,可分为三种不同的方式,如图1所示。
其中,方式三为结果数据的流通,结果数据的所有权应属于数据使用方。方式一和方式二的情况,流通的数据为原始数据,数据的所有权属于数据提供方。
存在的安全性问题
数据资产确权问题:由于数据采集源丰富、易于编辑的原因,使得在流通共享后无法清晰分辨数据的所有权。如S将其所有的原始数据传输给A后,A可以否认原始数据来自S。即使S的本地留存有数据传输的日志,但是中心化的记录存在被S修改的可能,因此无法从完全合规的层面确认数据资产的所有权。
数据泄露溯源问题:按照供需双方的协议约定,数据应当限制在一定范围内使用,并保证被有限次使用。但由于无法对需求方的使用进行安全管控,因此可能存在数据被二次售卖的情况。如A可以违背协议,将S的数据转售给其他厂商,造成数据无法追溯。
改进的流通共享方案
针对上述两个问题,我们提出了一种基于区块链技术的面向大数据的改进的流通共享方案。如图2所示,方案以区块链技术Hyperledger Fabric构建底层可信联盟链网络,数据供需方作为网络中的节点,把相关信息形成区块交易进行申请和提交,包括对区块进行验证及更新本地账本数据。方案中设有数据监管方角色的节点,对供需方之间的活动进行监管和公证。
方案中的数据传输分为链上和链下两部分。链上依赖于区块链的安全特性,提供数据信息的可信记录、查询和追溯,链下将依据供需双方的约定将数据从提供方发送至需求方。为了实现数据的安全流通和共享,链下传输的数据将采用加密或脱敏技术进行处理。同时为解决数据的确权和溯源的问题,采用数字水印技术将数据的供需双方的身份信息嵌入原始数据中,实现用户身份和数据资产的关联。通过水印提取并还原用户身份信息,能够达到了对数据所有权和使用权的鉴别,以及对数据使用的追溯。
本文提出的改进的大数据流通共享安全方案,通过基于区块链技术建设的基础网络,实现了数据提供方和需求方的可信关联,监管方作为区块链网络的背书节点,实现对数据流通共享活动的监管和证明。该方案在隐私和保密的要求下,通过引入了模糊哈希算法,增加对比链上链下模糊哈希值的相似度的处理,相比于仅使用确定性哈希值进行一致性校验,能够实现当链下数据发生修改时,溯源至链上对应数据的区块交易,进一步解决了数据确权问题,包括数据的所有权和使用权易。
作者简介:
裴超,联通大数据高级工程师,主要研究方向和关注领域:密码学、数据安全、网络与信息安全、芯片安全。
范东媛,联通大数据工程师,主要研究方向和关注领域:网络空间安全、大数据安全、数据安全管理。
倪明鉴,联通大数据高级工程师,主要研究方向和关注领域:人工智能、5G通信系统、数据安全。
RECOMMEND