物体识别深度网络逆向可视解释方法研究与实现文献综述

 2022-11-26 01:11

深度学习已经成功运用在计算机视觉、自然语言、语音、多媒体和跨媒体等相关的特定领域。但在人工智能决策过程中, 存在固有算法黑盒以及系统信息不透明的问题,造成决策结果正确却不可理解,从而阻碍了人工智能的发展。在自动驾驶、金融决策和医疗等“高风险”领域,使用深度学习进行重大决策时,通常需要明确算法所给出结果的依据[1]。2018 年欧盟通用数据保护条例(The EU General Data Protection Regulation, GDPR) [2] 生效, 强制规定人工智能算法具有可解释性。因此,使深度学习的“黑盒”透明化从而具有可解释性具有重要意义。

人工智能决策的可解释性在近年受到广泛的关注, 相关文献不断涌出。按照用户需求对当前的研究进行分类, 主要分为探索内部的视觉解释、外部扰动的探索解释、用户易于理解的知识解释和因果解释四类。其中视觉解释方法是探索神经元内部规律和原理最直接的方法,特征重要程度可视化展示是目前深入研究的解释技术,本课题主要研究可视化解释方法。

有些学者采用基于反向传播的解释方法,根据深度神经网络的反向传播机制, 将决策的重要性信号从输出层神经元逐层传播到输入层,以此获取输入样本的特征重要性。基于梯度的方法往往能生成细粒度的相关性映射, 获得显著图的视觉解释。Zeiler等[3]以模型各层的特征图作为输入, 利用反卷积技术获得可视化结果。Simonyan等[4]通过反向传播算法,将输入层梯度作为像素重要性, 获得感兴趣的解释性区域(Gradient)。之后Springenberg[5]提出通过GuideBP方法, 在反向传播时保留梯度与激活值均为正的部分。由于大多数深度神经网络采用 ReLU 函数进行非线性映射, 其负半轴为饱和区从而梯度均为零, 无法显示有效信息,因此 Sundararajan 等 [6]提出积分梯度(Integrated Gradients) 方法, 使用输入样本在基准图像上的相对梯度信息表示特征重要性, 使梯度消失造成的误导解释得以解决。由于上述方法生成的视觉显著图往往解释性较差, 质量较低,并存在较多随机噪声 [7], VarGrad [8] 方法采用噪声采样,对图像多幅加噪副本的解释进行算术平均和方差分析,降低了随机视觉噪声。分层相关传播LRP [9] 、DeepLift [10] 等非梯度的视觉解释方法利用自上而下的相关传播规则, 提高了显著图的质量。但这些方法中有许多都过于依赖来自输入图像的信息,并且实际上对模型的更改不敏感。此外,它们可能需要大量的辅助工具,例如特殊类型的层和单独的超参数训练。

有些学者采用类激活映射方法,这类方法采用激活映射的线性加权组合生成显著映射, 从而突出图像中的重要区域。文献[11]提出了一种类激活映射解释方法CAM,但其需要修改模型结构并重新训练, 局限性较大。改进方法 Grad-CAM [12] 和 Grad-CAM [13] 利用模型输出对于激活映射的梯度信息来计算权重,关注了对预测结果起到重要作用的类,增强了空间位置信息,比较灵活, 适用于多种CNN模型族,但激活图不突出且随机噪声多,解释精细度不高。继而 Guided Feature Inversion方法 [14] 通过两步优化策略优化权重,得到低噪的视觉解释, 但其优化过程速度慢于Grad-CAM 等方法。Huang 等[15]进一步将注意力机制、分割和模型相结合, 提高了模型的可解释性。

有些学者采用基于局部扰动的解释研究方法,其主要思路是通过扰动输入来观察模型的预测变化。LIME [16]根据要解释的预测值及其周围的样本, 构建局部线性模型或者其他代理模型。对于图像数据,LIME 输出连接的超像素以及权重, 权重系数反映了决策中特征的重要性。这个解释方法可以对图像、文本或表格数据分类进行解释。Fong等[17]提出 Mask 方法, 通过对输入图像部分进行区域遮挡, 找到令预测值下降最显著的遮挡模板,将其作为解释的显著图。Petsiuk 等[18]用多个随机抽样的遮挡模版与原图进行相乘, 根据不同模版得到的模型预测分数定义重要性。Ribeiro 等[19]针对 LIME 中线性模型无法确切获得覆盖度的缺点, 提出基于锚点解释(Anchor)的局部解释方法, 将预测结果和特征简化为if-then的规则以逼近待解释模型的局部边界。Cui等[20]提出CHIP解释方法, 通过控制网络某层的每个通道的输出状态得到通道重要性矩阵, 进而与特征图进行加权得到解释的显著图。由于上述方法无法处理特征依赖,且存在非线性局部边界问题,Guo等[21]提出了LEMNA方法,该方法无需访问模型内部状态或结构, 但其解释粗略, 进而 Wagner 等[22]提出了细粒度的视觉解释方法。SHAP [23] 框架整合了 LIME 等 6 种方法,使用博弈论中的Shapley Value作为预测特征贡献值的重要度测度。

还有的学者研究可解释的深度模型,认为可以使用深度模型来构建可解释性。许多最近的研究实现了通过其网络设计来解释的深层模型。例如,Zhang等[24]设计了一种正则化方法,该方法鼓励高层卷积层中的每个过滤器专注于特定的对象部分。Brendel等[25]提出了BagNet,它采用小的图像patches作为输入,将DNN的性能和灵活性与BoF模型的可解释性结合起来。BagNet可以自然地将决策归因于局部区域,从而有助于解释决策过程。Alvarez Melis和Jaakkola [26]提出将相关性分数分配给全局图像特征的基础。除上述方法外,我们也可以为可解释的模型设计新的网络体系结构。例如胶囊网络[27]将常用的标量激活替换为矢量,其中矢量被认为代表诸如对象或对象部分之类的实体。在[28]中,通过强制从卷积单元到最终预测的稀疏连接,进一步扩展了相关思想。

本课题针对深度模型的可解释性问题,拟选取代表性的state-of-the-art物体识别深度模型,进行逆向可视化分析,提取网络各层所关注的图像区域。针对特定的物体类别,基于混合高斯模型(GMM),对提取的图像关注区域进行统计分析,给出类物体视觉模式的数学定义与表达。通过实验验证和分析所定义的视觉模式的有效性。

[1]吴飞,廖彬兵,韩亚洪.深度学习的可解释性[J].航空兵器,2019,26(1):39-46. DOI:10.12132/ISSN.1673-5048.2018.0065.

[2] European Union. General Data Protection Regulation (GDPR)[EB/OL]. https://gdpr.eu/tag/gdpr/, 2018-05-25.

[3] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。