首页 > 心得体会 > 学习材料 / 正文

隐私信息泄露属性深度跟踪方法仿真

2023-05-08 15:25:22 ℃

林立鑫，杨真

(1. 江西科技学院网络信息中心，江西南昌 330000；
2. 华东交通大学网络信息中心，江西南昌 330000)

目前，随着信息时代和互联网技术的不断发展，网络上的空间数据也逐渐走向多样化。用户可随意完成查询、传输、储存以及共享等操作，从海量数据中能够快速查找到目标信息。但越来越多的用户使用同时，也带来了众多安全隐患问题，由于用户的身份信息在后台中是公开展现的，很容易受到黑客入侵导致隐私信息泄漏，危害用户的财产和隐私安全。为防止此类事件的发生，需要在发生泄漏的第一时间追踪信息轨迹，在最大程度上降低泄漏影响。

在目前的网络信息泄漏跟踪研究领域中，应用最为广泛的有人工神经网络、深度学习、动态密钥以及小波包理论等方法。文献[1]提出一种基于多编队目标先后判定的隐私信息泄漏跟踪方法。引入了密度检测机制，在所有用户集中，选择几组身份信息完整和不完整的用户，利用杰森高斯分量算法计算二者之间的相似属性，通过模型概率进行实时状态更新，不断查找存在相同属性权重的位置点，完整跟踪。该方法只对公开信息用户具有效力，匿名用户的跟踪能力较差，实用性不强；
文献[2]设计了一种基于改进PSI协议的数据隐私保护跟踪方法。通过布谷鸟哈希和随机不经意传输扩展协议，将用户信息按照特征进行组合基因排列，判定序列中是否含有危险因子，对存在威胁点的数据实施跟踪。该算法所需运算量较大，需要信息采集、组合、排列以及检测等众多步骤组合完成，计算过程复杂且误差影响过大，跟踪精准度不高。

综合上述问题，提出一种基于动态密钥的隐私信息泄露深度跟踪仿真方法。考虑到用户特征量过多且较为复杂的因素，在进行跟踪前先对网络社区中用户个人隐私信息完成推测，实现初步的隐私判定，降低后续误差影响。构建泄漏跟踪模型，将用户信息看作单个算子，通过隐私表的对照和得到的隐私信息特征，对较大泄漏风险的算子进行状态跟踪。这种方法是从根源上查找泄漏点，通过特征对照在最大程度上降低泄漏的误判率，所需运算量较小且过程简单、易实现。

网络社区是由各个节点组成的群体结构，群体内节点之间的存在较强的隐私关联关系[3]，而社区的群与群之间的隐私关联又相对稀疏。将该关系具体定义为：设D2为网络中的所有社区；
i表示社区中的任意一个节点，i在社区中的占比度为

(1)

若社区中的节点i和节点j存在关联关系，那么，Bij=1；
反之，Bij=0，其中，Bij表示隐私关联度。

若节点i存在社区S2中，此时D2社区就包含与社区内S2节点存在连接关系的所有子集。在这种情况下，可将节点按照两个社区的隐私特征[4]关系，分为

(2)

其中

(3)

(4)

若

(5)

那么，子社区[5]S2集就为原始网络结构中隐私特征最强的社区结构。

若

(6)

那么，子社区S2集就为原始网络结构中隐私特征最弱的社区结构。

一般情况下，在社交网络中很多用户的个人信息都是公开的，因此，在进行隐私信息泄漏跟踪时，对用户的公开和非公开隐私信息进行推测是非常有必要，可以将其作为后续泄漏跟踪的基础判定，公开用户且隐私含量越高的用户，泄漏概率就越大。用社交用户β进行举例，其好友之间组成的网络关系为Gβ=(Cβ，Eβ)；
Cβ=Nβ为与用户β存在关联关系的集合；
Eβ={i，j：j∈Vβ}为用户β与好友之前的隐私关联集[6]合。将Gβ分为Gβ，β=1，2，…，N，其中，N表示总社区数量。社区Gβ内公开信息的用户为

(7)

式中，Aβ表示总用户数量；
Cβ表示公开信息；
|pubi|表示社区内所有公开信息的用户数量。

为了保障隐私信息推测方法的准确性，设定一个公开用户的保护阈值[7]θ，该值必须满足以下条件

Cβ>θ

(8)

对于社区Gβ内不公开的用户信息Eβ，β=1，2，…，M，计算得到

(9)

(10)

(11)

式中，μ表示非公开用户的保护阈值。将上述网络社区中的公开和非公开用户[8]信息关系运用可视图描述，便于理解，如图1所示。

从图1中可以看出，实线代表网络社区内的用户信息是公开的，允许被外界和内部用户访问；
虚线则代表网络社区内的用户信息是非公开的，只允许被好友和自身访问，存在密钥保护[9]。由此可看到，社区中用户1、用户2、用户3、用户4的个人信息是公开的，存在较高的泄漏风险，在满足保护阈值的前提下，可推测出与之关联的用户5、用户6也存在同种信息，存在一种关联关系。

图1 社区节点分布示意图

基于网络社区中用户个人隐私信息关联性的初步推测后，本节将采用动态密钥完成信息泄漏的精准跟踪。上述过程得到了网络中公开信息的用户隐私信息泄漏风险更高的特点，由此可得，这些用户的密钥保护安全性较低。建立一种由密钥算子组成的信息泄漏跟踪模型，计算非公开用户的密钥参数，以此作为模型算子[10]，可用U(ζ)来描述。其中，ζ表示用户的隐私信息表。根据用户之间的关联关系，将ζ看做初始值，将集合I、J看作参照值，得到以下关系

(12)

式中，ζ′表示ζ的对照组；
〈X，Y〉表示敏感数据集合；
〈Y，X〉表示特征属性集合。该公式可以反映用户的敏感属性[11]标识和特征标识，记录在ζ中的分布情况，并进行统计。

得到统计后的隐私数据，如果U(ζ)输出值为1，表明集合中信息出现泄露情况；
若U(ζ)输出值为0，则表明没有出现泄露情况，具体描述如下

(13)

式中，X0表示待跟踪数据集的总数；
Xi+1表示与X0存在特征关联[12]的数据集；
φ表示控制因子。若k=1，说明存在特征关联的数据集Xi+1中存在隐私泄露数据；
若k≠1，说明存在特征关联的数据集Xi+1中不存在隐私泄露数据。由此得到的隐私泄露情况只存在两种k=1和k≠1，而在实际应用中，可能取值很小时，即k≠1时也会发生隐私泄露现象，针对这种情况，本文采用密钥用户匿名原理[13]，将对取值进行调整使其更符合网络环境[14]，表达公式为

(14)

式中，ψ2表示匿名密钥阈值；
KX0、KXi、KXi+1、KXj分别表示在原始0点、i、i+1、j得到的用户往返位置信息，与ζ位置点进行排列[15]，即可求得用户隐私信息泄漏跟踪路径。

4.1 实验设置

为验证本文方法对隐私信息泄漏的有效性，选择Mobile web移动终端网络作为本次的实验平台，该平台中包含大量网络数据，容纳量较大、覆盖率较广。将所有数据聚类在一起，形成一种终端网络数据集，数据集中包括用户的位置数据、通信记录、传输记录以及浏览记录等。

为保证实验的准确性，采用更为系统的方式描述用户隐私信息通信行为，并将网络中用户所有行为类别进行聚类，方便数据查找和分析，整体聚类结果如图2所示。

在跟踪过程中可能出现覆盖通路、链路断连、源码错误等现象，会影响实验进程，实验前将对所有数据进行归一化管理，弱化现象出现的频率。每位用户在网络中的位置信息和数据验证过程为：通过位置数据集求解得到用户位置的权重矩阵B=(ω1，ω2，…，ωn)，为保证实验数据的统一性和易管理性，将对求解到的数值进行归一化操作处理，表达公式为

图2 用户浏览和通信行为聚类

(15)

式中，ωn表示用户隐私信息的权重值；
B表示权重数据集；
Nor表示经过归一化后的统一表示。

4.2 基于泄漏轨迹可视化的跟踪效果比对分析

本次实验将从整体隐私信息泄漏以及局部详细隐私信息泄漏进行泄漏跟踪。将研究方法与文献[1]提出的多编队目标无先验隐私信息跟踪方法、文献[2]提出的改进PSI协议的隐私跟踪方法进行对比分析，结果如表1所示。

表1 三种算法轨迹跟踪结果对比

针对表2中的不同方法对海量网络数据中的隐私信息泄漏跟踪结果进行具体验证。将对信息泄漏的轨迹点位置进行描述，并适当弱化无用的轨迹点便于更加直观详细地分析泄漏跟踪的效果。在可视化的轨迹视图中，对每个位置信息泄漏的严重程度进行标识，轨迹点越大，代表该位置泄漏越严重。以实验平台中的某个体用户为例，三种算法对其隐私信息泄漏的轨迹跟踪如图3所示。

从图3中可以看出，其中隐私泄露权重大小不一，泄漏点3、4、5点的泄漏权重是最高的，按照隐私大小的排列顺序来看，本文方法的跟踪轨迹是所有方法中最符合实际情况，轨迹中包含了所有泄漏位置点；
而另外两种方法只跟踪到了部分泄漏位置点，其中，泄漏点5、8、10点均未跟踪到，与测试结果表达不相符，跟踪误差和错误率较高。出现这种现象主要是因为，二者方法在进行泄漏跟踪时，过于注重隐私出现泄漏时的权重变化，忽略了隐私信息自身存在的噪声和冗余数据影响，这些数据都会导致信息出现伪泄漏现象，导致算法出现较大跟踪误差，跟踪轨迹与实际偏差较大。

图3 用户隐私信息泄漏权重轨迹可视化图

4.3 不同网络环境下隐私信息泄露跟踪误差对比

为进一步考察三种方法的泄漏跟踪能力，将分别在存在不干扰和存在干扰两种网络环境下进行实验，结果如图4、图5所示。

图4 不存在干扰环境下三种方法的相对误差

从图4、图5中可以看出，无论是在哪种环境下本文方法的泄漏跟踪相对误差均为最小，曲线分布最低且整体误差变动幅度不大；
相比之下，另外两种方法在存在干扰环境下的相对误差过大，曲线整体呈大幅度的上升趋势，随着数据量的增加，波动越来越大。说明，文献方法存在适应能力较差的问题，无法应对较强的噪声干扰，算法不具备管控能力。本文方法在各种环境下都能保证跟踪精度，是因为采用了特征标识，从根源上实施状态跟踪，通过特征查找在最大程度上降低误差。

图5 存在干扰环境下三种方法的相对误差

本文主要针对一些开放向的网络共享平台如社交网络、共享网络等来实现用户隐私信息泄漏跟踪，提出了一种基于动态密钥的隐私信息泄露深度跟踪方法。为了使算法更具备精准跟踪和高效查询的能力，在实施具体跟踪前，先根据用户属性对网络社区进行划分，预测社区中公开用户和非公开用户，得到公开用户隐私信息泄漏概率更高的特点，为后续跟踪做好充足准备。跟踪算法主要通过分析隐私用户密钥保护协议，建立一个跟踪模型，将得到的公开用户属性信息作为算子，通过不断的更新查找捕捉到泄漏位置点。下一步的工作展望是考虑在存在外界干扰攻击的情况下，实现跟踪泄漏并加以保护。

猜你喜欢密钥关联轨迹不惧于新，不困于形——一道函数“关联”题的剖析与拓展新世纪智能(数学备考)(2021年9期)2021-11-24密码系统中密钥的状态与保护*北京电子科技学院学报(2020年2期)2020-11-20轨迹读友·少年文学(清雅版)(2020年4期)2020-08-24轨迹读友·少年文学(清雅版)(2020年3期)2020-07-24“一带一路”递进，关联民生更紧当代陕西(2019年15期)2019-09-02TPM 2.0密钥迁移协议研究小型微型计算机系统(2018年9期)2018-10-26轨迹现代装饰(2018年5期)2018-05-26一种对称密钥的密钥管理方法及系统信息安全研究(2018年1期)2018-02-07奇趣搭配学苑创造·A版(2018年11期)2018-02-01进化的轨迹（一）——进化，无尽的适应中国三峡(2017年2期)2017-06-09

Tags：泄露仿真跟踪

上一篇：基于多任务学习的文本信息关联性抽取仿真
下一篇：基于时间自动机的工控系统网络安全研究