基于谱估计的揉弦识别分析文献综述

 2022-09-27 02:09

文献综述(或调研报告):

基本流程

颤音是广泛存在于乐器演奏与音乐制作中的技巧[1],在适当的情况下加入颤音可以起到增强情感表达的作用。揉弦是颤音在弦乐器所独有称谓,演奏者通过手部的颤动在演奏音符中添加颤音以增加其色彩。最早期对音高颤音的研究追溯到上世纪30年代,研究主要针对速率(rate),幅度(extent)和时长(duration)三个参数。而颤音在音频中的识别的研究却在近几十年,并进展缓慢。其基本流程如下图所示:对于原始音频进行基频提取得到音高曲线,然后通过得到的基频曲线进行特征提取并判决是否为颤音并提取其中的三个参数。颤音提取算法需要基于时域与频域分辨率高且结果误差小的基频提取算法,可以大大提高颤音提取的质量与鲁棒性。但实际上依然有可能有密度与质量都不理想的基频曲线的情况,此时很难通过后期特征提取得到较好的颤音概率。下述将分别介绍颤音识别几个部分的相关工作,并对本课题将使用到的算法进行简介。

基频提取

本课题中所述所有基频提取算法,仅针对于单音音频,即在所有时刻只有一个单独音被弹响,与之相对的复音情况不在讨论范围内。

传统方法主要基于最简单的短时傅里叶变换STFT,常数Q变换CQT等频谱变换的方式得到想要的基频结果。由于基频结果理论上是一个连续的值,但受制于数字信号的离散性,音乐信号的时变性以及不确定性原理,STFT等变换方法难以在时域和频域上同时与直接得到基频提取需要的精度要求;此外,由于乐器自身存在的谐波特性,峰的选择一样是个难以解决的问题,基于自相关及其变种的方法经常会出现八度误差,即所得到的结果是实际基频值频率的整数倍或者一半的情况,该问题出现各种类型基频提取算法中。除变换算法外,还有基于FMAM解调的思路进行频谱处理:[21]使用无线电的带通滤波方法,虽然那个得到较高的时频域的精度,但难以在普遍带噪的情况下实现;[7]提出对于频谱斜率的估计来做频谱插值,以提高频谱的分辨率,并已经用于颤音识别中。

较早的可得到满足基频提取要求的算法为[4]中所描述的YIN算法,该算法利用谐波为基频整数倍特性以及自差分来缓解类线性强度变化等一系列技巧来提高结果准确度。该方法较于早期许多方法基于周期信号的自相关特性ACF,有着显著的性能提升;YIN的概率版本PYIN[2],通过将原本的固定门限改为概率结果并结合了在时域上使用了Viterbi算法进一步提高性能,缓解八度误差。该方法为当前传统方法中效果最好的,大多数的单音音频识别任务和数据集制作中大多采用该算法;此外还有采用其他性质进行基频提取的算法,如基于三角波形的基频提取算法(SWIPE)[5],性能在YIN与PYIN之间;除了传统的信号处理方法,CREPE[3]算法提出了一种基于卷积神经网络的单音基频提取方案,以1024点的原始音频信号作为输入,采用了6个卷积层进行计算最终得到从C1到B7共360个取值的近似输出结果,该方法在准确度与抗噪性上均超过了现有的传统方法,但由于基于数据驱动的方法,泛化效果有待长期验证。

颤音识别

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

免费ai写开题、写任务书: 免费Ai开题 | 免费Ai任务书 | 降AI率 | 降重复率 | 论文一键排版