一、研究背景及意义
随着人们进入信息时代,人们的生活、学习、工作领域也越来越智能化。作为人和这些领域沟通的关键接口,语音信号处理技术自然引起了人们的足够重视。该技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术。通过该技术人们可以不通过键盘的输入过程而直接通过语音进行操作,并且语音技术的应用已经成为一个具有竞争性的新兴高技术产业。如今,语音技术相关产品已经成为了我们生活的一部分,它的作用越来越被重视,人们对当前语音技术的提高也是越来越期待。
语音信号处理是语音学与数字信号处理技术相结合的交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些领域的进步。 语音信号处理的目的就是要得到某些语音特征参数以便高效地传输或储存;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等。
近年来,随着对大量在线音乐数据的自动分析,组织和检索的需求已经爆炸,从多种混合音中分离出单个乐器声音的问题开始引起人们关注。这个问题的解决方案需要高效的音频编码,准确的基于内容的分析,和音乐信号的复杂操作。
作为高科技应用领域的研究热点,语音信号处理技术从理论研究到实际应用已经走过了几十个春秋并且取得了长足的进步。它正在与办公、交通、金融、保安、商业、旅游等行业的语音咨询与管理等各种实际应用领域相接轨。可见,语音信号处理技术的研究将是一项挑战性的工作。
只有将语音信号分析表示成其本质特性的参数,才能有可能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于识别的模版或者知识库。
根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。时域分析简单直观,清晰易懂,运算量小,物理意义明确。语音中最重要的感知特性反应在其功率谱中,相位变化只起到很小的作用,所以更为有效的是围绕频域来进行的。常用的频域分析方法有带通滤波器组方法、傅里叶变换法、线性预测分析法。频谱分析具有如下优点:时域波形容易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性,另外,频谱有非常明显的声学特性,利用频域分析获取的语音特征具有实际的物理意义,如共振峰参数,基音周期参数等。倒谱域是将对数功率谱进行反傅里叶变换后得到,进一步将声道特性和激励特性有效的分开,因此可以更好的解释语音信号的本质特征。
语音信号分析有模型分析法和非模型分析法。模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数,有共振峰分析和线性预测分析法。除此之外为非模型分析法,如:时域分析法,频域分析法,同态分析法等。
贯穿语音信号分析全过程的是“短时分析技术”,其特性随时间变化,所以是一个非稳态过程。虽然语音信号具有时变特性,但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的相应,这种肌肉运动频率相对于语音频率来说是相对缓慢的,因而在一个短时间范围内,其特性基本保持不变,及相对稳定,所以可以将其看作一个准稳态过程。
在信号处理中,特征参数提取的地位非凡。特征参数是信号的压缩版替身,处理语音信号就是要对提取的特征进行研究。只有掌握了每种参数的提取和处理,才能依据这些参数来进行后续的研究。语音信号的参数有很多,但基音周期是其中最重要、最具代表性的特征参数之一。
