基于深度学习的Web站点指纹攻击技术文献综述

 2022-09-23 03:09

  1. 文献综述(或调研报告):

论文[1]概括了洋葱路由器的优缺点以及针对洋葱路由器进行攻击的网站指纹识别技术,其讨论了基于传统机器学习算法的网站指纹识别技术的不足,从而引入深度学习的概念,介绍三种主流的深度学习模型,并与应用于网站指纹识别技术中表现最好的机器学习算法CUMUL进行对比实验。而在论文[2]中,则介绍了生成对抗网络的概念以及如何生成对抗样本来抵御应用了机器学习的攻击:

  • Tor

洋葱路由器(The Onion Router, Tor)[1]是一种为互联网用户提供匿名性的通信工具。它是一个积极发展和安全的系统,能够确保用户的隐私浏览活动。为实现这个目的,洋葱路由器加密了通信的内容和路由信息,并通过随机分配的节点路由中继加密流量,使得只有一个节点知道其直接对等节点,但从不同时知道通信的起源和目的地。因此,洋葱路由器的架构可以防止互联网服务提供商和本地网络观察者识别用户访问的网站。

  • Website Fingerprinting:

网站指纹识别(Website Fingerprinting,WF)[1][4]技术对洋葱路由器的的攻击可以被看作是分类问题。首先,手动进行特征工程来选取流量痕迹的特征,然后通过基于当前机器学习的算法来分类特征从而解决这些问题。已经提出的方法可以实现正确识别91%-96%的网站。先前研究人员的工作显示,在一个含有100个网站站点,每个站点含有100条流量踪迹的集合中,寻找独特的特征对于准确识别网站而言至关重要。此外,这项任务对于网站攻击者来说可能代价高昂,因为他必须跟上网络协议中的变化。

  • CUMUL:

CUMUL[1][5]是基于具有径向基函数(Radial Basis Function, RBF)内核的支持向量机。CUMUL使用数据包长度的累积之和推导出支持向量机的特征。通过增加传出分组的长度并减去传入分组的长度,来计算累积和。但是,因为径向基函数核与上述基于编辑距离的支持向量机内核相比,期望特征向量具有相同的维度,所以它们从累积和中插入100个点。此外,它们还预先考虑总的传入和传出的数据包和字节数。结果他们用104个特征来表示流量实例。他们的评估表明,对100个网站攻击的成功率介于90%到93%之间。值得一提的是,他们的数据集是迄今为止最实际的数据集,包括具有受欢迎程度的网站的内页,例如Google搜索或Twitter链接。尽管他们的攻击成功率很高,但作者得出的结论是,在实际环境中应用时,网站站点指纹识别攻击不会扩展,因为攻击者需要在所有网站的大部分站点训练分类器。

  • SDAE:

多层降噪自动编码器(Stacked Denoising Autoencoder, SDAE)[1][6]的分类器——是一个由降噪自动编码器(DAE)组成的深度前馈神经网络。自动编码器(AE)是一种前馈网络,通过降维,专门用来进行特征学习。具有dropout功能的AE是降噪自动编码器(DAE),它能够更稳健地应对过拟合。将多个降噪自动编码器像积木一样堆叠起来,形成深度神经网络就是多层降噪自动编码器。SDAE堆叠DAE的表示层:第一个DAE的隐藏层用作下一个DAE的输入层,依此类推。链接几个DAE使模型能够从输入中分层提取数据,以学习不同抽象级别的特征,从而允许对输入数据的最显着特征进行分层提取并基于导出的特征进行分类,这使得SDAE成为网站指纹分析问题的很有前景的模型。

  • CNN:

卷积神经网络(Convolutional Neural Networks,CNN)[1][7],一种基于一系列卷积层和池化层的分类器。卷积层的可学习参数是核或滤波器。核在空间上应用于输入的小区域,从而实现稀疏连接,与全连接层相比,又减少了实际的参数学习。核的目的是学习底层特征集的各个部分,例如流量踪迹中的网站指纹。卷积层也用于特征提取,从第一层的低级特征开始,并在随着网络层数的加深构建更深层次的抽象概念。池化层对卷积层的输出来进行子采样操作,有助于数据表示能对输入的微小变化保持不变,从而允许在流量踪迹内找到网站指纹的最显著的识别部分。通过这种方式,CNN搜索基于分类的最重要的特征。此外,SDAE必须逐块预训练,而CNN则需要最少的预处理。

  • LSTM:

称为长短期记忆网络(Long Short-Term Memory,LSTM)[1][8]的分类器是一种具有增强的记忆能力的特殊类型的循环神经网络。它的设计允许学习数据的长期依赖性,使分类器能够解释时间序列。LSTM由一个个LSTM块串行连接组合而成。每个LSTM块内含一个记忆单元。LSTM能够从记忆单元内移除信息,也可以向单元添加信息,通过输入门、输出门、忘记门来调节这些操作。门由sigmoid神经网络层和逐点积组成,并由一组可学习的权重参数化。门可以学会仔细选择是否让信息通过,以便在必要时修改内部状态,忘记信息或产生输出。在本次实验中,LSTM的输入流量轨迹基本上是洋葱路由器单元的时间序列,这些系列中的时间动态预计会高度揭示所包含的网站指纹,从而揭示模型的选择。

  • GAN:

生成对抗网络(generative adversarial network, GAN)[2][3]是一种基于博弈理论的机器学习生成模型。该模型分为两个模块,一个是鉴别器(Discriminator),一个是生成器(Generator)。生成对抗网络框架需要同时训练鉴别器D和生成器G。简而言之,生成对抗模型就是两个模块相互竞争,互相博弈。具体流程为:有真实的数据和随机生成的噪声数据。噪声作为生成器的输入,生成器的训练目标就是把噪声数据模仿成真实数据。真实数据和生成器输出的伪造数据是鉴别器的输入,鉴别器的训练目标是将真实数据与伪造数据区分开来。可以看出生成对抗网络的总体目标是利用噪声数据生成与真实数据非常像的伪造数据.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。