面向低功耗语音识别的可重构数据通路架构设计与实现文献综述

 2022-09-23 20:23:08

  1. 文献综述(或调研报告):

计算能效一直是制约高精度低功耗语音识别发展的瓶颈之一,特别是当神经网络技术运用于智能语音识别设备时,计算架构的能效问题成为首要考虑的关键点,因此在识别精度满足设计需求的条件下,更低功耗的智能语音识别架构和电路设计具有重要意义。近年来学术界对此进行了深入地探讨并取得了丰硕的成果。本文在对这些成果进行系统总结的基础上,简要评析了总体研究现状。

混合神经网络通常是需要大量并行计算和内存访问的高吞吐量算法。以LRCN为例,它在单个推理过程中需要几十兆字节的权重和数十亿次的运算,导致其在通用GPU或CPU平台[1]上的能效低于100 GOPS/W。为了提高性能和能效,有人提出了几种神经网络处理器[2]-[9]。然而,它们大多只关注卷积计算的优化。针对混合神经网络的三大特点,尹首一教授团队设计了一种混合神经网络处理器(叫做“Thinker”)[10]。

与传统的卷积神经网络相比,混合神经网络具有更多的非卷积操作,在总计算量中所占比例更高。同时,混合神经网络具有容错和可恢复的特点,使得某些层的量化精度较低时而精度损失很小[11]。由于混合神经网络固有的容错性,可以在一定算法精度损失的条件下将部分层量化至低位宽。针对这一特点,作者提出了位宽自适应优化技术。位宽调节是提高神经网络处理器[2]、[8]、[12]效率的有效方法。在[18]中,作者提出了一种基于查找表的可重构乘法器以支持4/8/16位乘法器。在[12]中,可以并行执行两个8位乘法。在[2]中,作者提出了一种子字并行MAC。在Thinker处理器中,设计者基于数字逻辑设计了位宽自适应计算单元,这具有较高的8 /16位运算效率和资源利用率。

每个PE有两个8 times; 16位乘法器,支持两种计算模式。如果PE配置字中的S11为0,则并行处理8 times; 16位乘法。否则,两个乘法器将组合为一个16 times; 16位乘法器来支持16位操作。在每种模式下,未使用的数据路径都被时钟锁定以降低功耗。

当权值的位宽小于8时,来自不同ConvNet 核或FCNet/RNN神经元的两个权重被串联为一个16位权重。高8位部分和低8位部分分别用两个乘法器上相同的16位输入数据相乘。每个乘法器的结果表示为一个包括一个保留的进位25位的字。然后将两个25位的结果连接为一个50位的字,并将S11设置为0把它发送出去。在这种模式下,由于两个操作是在两个单独的乘法器上执行的,所以输入数据中不需要保护带。与这种设计相比,[12]中的INT8优化需要至少9位保护带来分离两个8位乘法的结果。因此,这种设计在执行8位乘法时有更高的效率。

当权重的位宽大于8位时,这两个乘法器组合为一个16 times; 16位乘法器。两个乘法器的结果被发送到shift和add单元(如图红线框所示)。高25位的结果在零填充的情况下偏移了8位。然后加上低25位的部分。通过将S11设置为1,输出结果。与[2]相比,Thinker的乘法器全部采用8位模式或16位模式。因此,这种设计具有较高的资源利用率。

Michael Price提出了一种用于语音自动识别(ASR)和语音活动检测(VAD)的数字电路结构[13],它具有更高的精度、可编程性和可扩展性。他们的ASR架构是为了最小化芯片外的内存带宽,而这是系统功耗的主要部分。一个32个并行执行单元的SIMD处理器有效地评估了用于ASR的前馈深度神经网络(NNs),使用稀疏量化权矩阵格式限制了内存的使用。作者认为VAD应该优先考虑精度而不是面积和功率,并介绍了一种VAD电路,该电路使用神经网络对22.3- uW功耗下的调制频率特性进行分类。该65纳米测试芯片可以实时执行多种ASR任务,词汇量从11个单词到14.5万个单词不等,全芯片功耗从172 uW到7.78 mW不等。

香港大学的韩伟等提出了一种新的用于语音识别的提取MFCC的算法[14]。与传统算法相比,新算法降低了53%的计算功耗。仿真结果显示新算法的识别准确率达到了92.93%,与传统算法94.43%的识别准确率相比仅仅降低了1.5%。但是,新算法执行时所需要逻辑门的数量仅为MFCC算法的一半,这使得新算法在硬件执行方面非常高效。

周淑昌等人提出了一种利用低位宽参数梯度训练低位宽权值和低激活度卷积神经网络的方法DoReFa-Net[15]。该方法特别之处在于,在向后传递过程中,参数梯度被随机量化为低位宽数,然后再传播到卷积层。由于前/后遍历期间的卷积现在可以分别在低位宽权重和激活/梯度下运行,DoReFa-Net可以使用位卷积内核来加速训练和推理。此外,由于位卷积可以在CPU、FPGA、ASIC和GPU上高效实现,DoReFa-Net为在这些硬件上加速低位宽神经网络的训练开辟了道路。我们在SVHN和ImageNet数据集上的实验证明,DoReFa-Net可以达到与32位数据集相当的预测精度。例如,从AlexNet派生的DoReFa-Net具有1位权值,2位激活参数,可以使用6位梯度从零开始训练,在ImageNet验证集上获得46.1%的top-1精度。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。