本书是作者继1978年版经典
教材《语音
信号数字处理》之后的又一著作,全书除有简练精辟的
基础知识介绍外,系统介绍了近30年来语音
信号处理的新
理论、新方法和在应用上的新进展。全书共14章,分四部分:第一部分介绍语音信号处理基础知识,主要包括
数字信号处理基础、语音产生机理、(人的)听觉和听感知机理和声道中的声传播原理;第二部分介绍语音信号的时频域表示和
分析;第三部分介绍语音参数估
计算法;第四部分介绍语音信号处理的应用,主要包括语音编码、语音和音频信号的频域编码、语音合成、语音识别和自然语言理解。
读者对象:本书可供高等院校
通信、电子、信息、计算机等专业作为研究生和本科生教材,也可以供有关科研和工程
技术人员参考,是一本既有系统的基础理论讲解、又有
最新研究前沿介绍并密切结合应用发展的教材。
前言:
前言
70多年来,语音信号处理一直是一个活跃的并不断发展的领域。最早的语音处理系统是模拟系统,如20世纪30年代由Homer Dudley及其同事们在Bell实验室开发的Voder(语音演示记录器)系统,该系统可通过手工操作合成出语音,并于1939年在纽约世博会上展出;同一年代同样在Bell实验室Homer Dudley还开发出了通道声码器或称为声音编码器;20世纪40年代在Bell实验室Koenig及其同事们开发出了声音语谱图系统,该系统可以在时域和频域展示语音的时变特征;另外20世纪50年代在全世界很多研究实验室都开发出了早期语音单词识别系统。
数字信号处理(DSP)起源于20世纪60年代,在DSP应用的广泛领域中语音处理是其早期发展的驱
动力。在此期间,先驱研究者们如MIT Lincoln实验室的Ben Gold和Charlie Rader,Bell实验室的Jim Flanagan、Roger Golden和Jim Kaiser,他们开始研究数字滤波器的
设计和应用方法,并用于语音处理系统的模拟仿真。随着1965年Jim Cooley和John Tukey的快速傅里叶变换(FFT)技术的面世,以及之后FFT在快速卷积和谱分析方面的广泛应用,模拟技术的束缚和局限逐渐被打破,数字语音处理随之产生并展现出一种清晰的面貌。
本书的作者(LRR和RWS)从1968年至1974年在Bell实验室一起密切地工作,期间DSP领域发生了很多基础性的进展。当RWS 1975年离开Bell实验室并在Georgia Tech任学术职位,数字语音处理领域已经蓬勃发展,于是我们觉得写一本关于语音信号数字处理的方法和系统教材的时机到了。到1976年我们相信数字语音处理的理论发展得已经足够完备,精心撰写一本教材不但可以作为传授数字语音处理基础知识的教材,还可以作为将来语音处理实际应用系统设计的参考书。1978年Prentice-Hall出版了这本教材《语音信号数字处理》。采用这本教材,RWS在其新职位上,开设了第一门数字语音处理的研究生课程,期间LRR仍在Bell实验室从事数字语音处理基础研究工作。(LRR在AT&T Bell实验室和AT&T实验室工作了40年,之后2002年他也加入学术界,在Rutgers大学和California大学Santa Barbara分校任教。RWS在Georgia Tech工作了30年,于
2004年加入了Hewlett Packard实验室。)
1978年出版的教材的目标是呈现语音的基础科学和一系列数字语音处理方法,用以构建强大的语音信号处理系统。从大的方面来讲,我们达到了最初的目标。这本教材按我们的预想服务了30多年,令我们高兴的是,直到今天它仍然广泛应用于本科生和研究生的语音信号处理课的教学中。然而,根据我们过去20年来教授语音处理课程的经验来看,原书的基础尚可,但其中的很多素材已经和当代语音信号处理系统脱钩,对当前很多研究热点方向也没有涉及。这本新书正是我们改正这些弱点的一个尝试。
在着手处理统一数字语音处理现行理论和实践这样艰巨的任务时,我们发现原书中很多内容还是正确和相关的,所以我们有一个很好的起点来开始这本新书。进一步,我们从语音处理的科研和教学实际经验中了解到,1978年的教材的组织
材料虽然基本不错,但它已经不适合用来理解当代的语音处理系统。针对这些弱点,我们采用了新的框架来组织新书的材料,对比原书有两大框架上改变。首先,新书中包含了已有的数字语音处理知识体系结构概念。这种体系的第一层是关于语音基础科学和工程方面的基础知识;第二层是集中在语音信号的各种表示。原书主要侧重了这两层,但是一些关键的主题有所缺失。第三层是操作、处理和抽取语音信号中信息的各种算法,这些算法是基于前面两个底层的科学和技术知识。顶层(也就是第四层)是语音处理算法的各种应用,以及处理语音
通信系统中问题的技术。
我们努力沿着这种体系结构(第1章中被称为语音金字塔(语音堆))来展现新书的材料。为了达到这样目的,在第2~5章中,我们集中在金字塔底层构建一个坚实的基础,包括语音产生和感知基础知识、DSP基础知识回顾,以及声学、语音学、语言学、语音感知、声道中声音传播的讨论等。在第6~9章,我们了解如何通过基本信号处理原理对数字语音信号不同的(短时)表示(构成了语音金字塔的第二层)。在第10章,我们展示了如何设计可靠和稳健的语音算法来估计感兴趣的语音参数,(构成了语音金字塔第三层的基础)。最后,在第11-14章,我们展示了如何利用语音金字塔前面几层的知识设计和实现各种语音应用(构成了语音金字塔的第四层)。
新书在结构和行文上另外一个主要的变化是为了尽可能的方便教学,我们在呈现材料时同时侧重学习新思想的三个方面,即理论、概念和实现。于是对于本书介绍的每一个基本概念,都用很容易理解的DSP概念进行理论阐释;类似地,为了加深理解,每一个新概念都提供了简单的
数学解释和精心准备的例子及插图;最后,基于教学中对基础知识的理解,针对每一个新概念的实现都提供了可实现特定的语音处理操作的MATLAB参考代码(通常包含在每一章当中),每章
习题中配备了具有详尽文档作为作业的MATLAB习题。我们还在教学网站上提供了解决所有MATLAB习题所需的材料,包括一些特定的MATLAB代码、访问简单数据库、访问一系列的语音文件等等。最后我们提供了几种语音处理系统结果的音频演示。通过这种方式,读者可以获得各种语音信号操作处理后语音质量方面的直观感觉。
更具体地讲,这本新书的组织如下。第1章大体介绍语音处理的领域,并对贯穿本书主题相关的应用领域进行了简要的讨论。第2章简要回顾了DSP中概念,侧重于与语音处理系统中密切相关的几个关键概念:
1. 从时域到频域的转换(通过离散时间傅里叶变换方法);
2. 理解采样在频域的影响(也即时域的混叠);
3. 理解采样在时域的影响(包括降采样和升采样),以及在频域的混叠和镜像。
在回顾DSP技术的基础之后,我们在第3章和第4章中转到了对语音产生和感知基础的讨论。这两章,与第2章和第5章一起,构成了语音金字塔的底层。从这里,我们开始讨论语音产生的声学理论,对不同的语音发音我们导出了一系列声学语音模型,并展示了语言学和语用学如何与语音发声学一起相互作用生成语音信号及其在语言上的解释。从讨论语音在人耳中如何处理开始,到声音转换为通往大脑的听感知神经通路中的神经信号结束,我们通过分析语音感知过程,完成了潜藏在语音通信背后的基础过程的讨论。我们简要地讨论了几种在一些语音处理应用中可能嵌入语音感知知识到听感知模型的方法。接着,在第5章,我们讨论了关于人类声音在声道中传播问题的基础知识。我们展示了和声道相似的均匀无损声管具有共振结构,以此阐明了语音中的共振(共振峰)频率。我们展示了如何通过适当“终端模拟”数字系统表示一系列级联声管的传播特性。该“终端模拟”数字系统具备了特定的激励函数、对应不同长度和面积声管的特定系统响应,以及对应声音在口唇端传输的特定辐射特征。
本书接下来的四章介绍主要四种数字语音信号的表示(语音金字塔的第二层),每章介绍一种。首先在第6章,我们从语音产生的时域模型开始,并逐步展示如何通过简单基于时域测量方法估计模型中基本的时变属性。在第7章,我们展示了短时傅里叶分析概念如何以一种简单而一致的方式应用于语音信号,以至于可以实现一种完全透明(无失真)的分析/合成系统。取决于要进一步处理信息的性质,我们展示了两种短时傅里叶分析/合成系统的解释,两者都有着广泛的应用。在第8章,我们描述了语音的同态(倒谱)表示,其中我们用到了卷积信号(如语音)可以转换为一系列加性分量这一性质。基于语音信号可以表示为激励信号和声道系统的卷积认识,我们容易明白语音信号非常适合这种分析。最后在第9章,我们涉及线性预测分析的理论和实践,线性预测是语音信号的一种模型表示,当前的语音采样可以通过先前p个语音采样的线性组合建模表示,通过寻找最优线性预测器(最小均方误差)的系数,实现在给定一段时间内最优的匹配语音信号。
第10章,代表语音金字塔的第三层,涉及到使用前面章节介绍的信号处理的表示和语音信号的基础知识,作为测量或估计语音信号性质和属性的基础。这里我们展示了短时(对数)能量、短时过零率、短时自相关函数这些测量值如何用来估计基本的语音属性,例如分析的信号段是语音还是静音(背景信号),语音段是浊音还是清音,浊音语音段的基音周期(基音频率),语音段的共振峰(声道共振),等等。对于许多语音属性,我们展示了四种语音表示的每一种都可以作为估计语音属性的高效算法的基础使用。与此相似,我们还展示了如何基于四种语音表示中的两种测量法来估计共振峰。
第11~14章代表语音金字塔的顶层(语音应用),涉及到几种主要的语音和音频信号处理技术应用。这些应用是深入理解语音和音频技术的成果,它们代表了人们几十年来研究如何最好地综合各种语音表示和测量方法,使每一种语音应用都能给出最好性能。我们讨论语音应用的目标是给读者如何构建这些应用提供一种感觉,它们在不同比特率和不同应用场景性能如何。具体来讲,第11章涉及语音编码系统(包括开环和闭环系统);第12章涉及基于利用了人们熟知的感知掩蔽准则最小编码感知误差的音频编码系统;第13章涉及构建用于口语对话系统中的文语转换语音合成系统;第14章处理语音识别和自然语言处理系统,以及它们在一系列面向任务的场景中的应用。我们在这些章的目标是提供最新的例子,但不求全面覆盖。关于这些应用每一个领域已经有很多教材出版了。
在学生具有基本DSP基础的前提下,这本书的材料可以作为一个学期的语音处理课程来讲授。在我们自己的教学实践中,我们重点强调第3~11章,并选取其他章节的部分材料进行授课,使学生对音频编码、语音合成和语音识别系统的也有一定的认识。为了辅助教学过程,每章都配有一套有代表性的课后习题,用于强化每章所讨论的思想。如前所述,成功完成一定比例合理的课后习题对理解语音处理的数学和理论概念非常重要。然而,也正如读者看到的一样,很多的语音处理是经验性的,这一点是由其本质决定的。于是我们包含了一系列MATLAB习题(或者作为正文或者作为习题的一部分)来强化学生对语音处理基本概念的理解。我们也提供了教学网站(http://www.pearsonhighered /Rabiner.com)并在随着更新材料,包括所需的语音文件、数据库和解决MATLAB习题的MATLAB代码,以及一系列语音处理概念的演示。
致谢
目录:
Contents
Preface
CHAPTER 1 Introduction to Digital SpeechProcessing 1
1.1 The SpeechSignal 3
1.2 The SpeechStack 8
1.3 Applicationsof Digital SpeechProcessing 10
1.4 Commentonthe References 15
1.5 Summary 17
CHAPTER 2 Reviewof Fundamentalsof DigitalSignalProcessing 18
2.1 Introduction 18
2.2 Discrete-Time Signals and Systems 18
2.3 Transform Representation of Signals and Systems 22
2.4 Fundamentalsof DigitalFilters 33
2.5 Sampling 44
2.6 Summary 56
Problems 56
CHAPTER 3 Fundamentalsof Human SpeechProduction 67
3.1 Introduction 67
3.2 The ProcessofSpeechProduction 68
3.3 Short-TimeFourierRepresentationofSpeech 81
3.4 AcousticPhonetics 86
3.5 DistinctiveFeaturesof thePhonemesof American English 108
3.6 Summary 110
Problems 110
CHAPTER 4 Hearing,Auditory Models,and SpeechPerception 124
4.1 Introduction 124
4.2 The SpeechChain 125
4.3 Anatomy andFunctionof theEar 127
4.4 The Perception of Sound 133
4.5 Auditory Models 150
4.6 Human SpeechPerceptionExperiments 158
4.7 MeasurementofSpeechQualityand Intelligibility 162
4.8 Summary 166
Problems 167
CHAPTER 5 Sound Propagationinthe HumanVocalTract 170
5.1 The AcousticTheoryofSpeechProduction 170
5.2 LosslessTube Models 200
5.3 Digital Models forSampled SpeechSignals 219
5.4 Summary 228
Problems 228
CHAPTER 6 Time-DomainMethods for SpeechProcessing 239
6.1 Introduction 239
6.2 Short-TimeAnalysisofSpeech 242
6.3 Short-TimeEnergyand Short-TimeMagnitude 248
6.4 Short-TimeZero-Crossing Rate 257
6.5 The Short-TimeAutocorrelation Function 265
6.6 The Modied Short-TimeAutocorrelation Function 273
6.7 The Short-TimeAverage Magnitude DifferenceFunction 275
6.8 Summary 277
Problems 278
CHAPTER 7 Frequency-DomainRepresentations 287
7.1 Introduction 287
7.2 Discrete-TimeFourierAnalysis 289
7.3 Short-TimeFourierAnalysis 292
7.4 SpectrographicDisplays 312
7.5 OverlapAddition Methodof Synthesis 319
7.6 Filter Bank SummationMethodof Synthesis 331
7.7 Time-DecimatedFilter Banks 340
7.8 Two-ChannelFilter Banks 348
7.9 Implementationof theFBS Method Usingthe FFT 358
7.10 OLARevisited 365
7.11 Modicationsof theSTFT 367
7.12 Summary 379
Problems 380
CHAPTER 8 TheCepstrumand Homomorphic SpeechProcessing 399
8.1 Introduction 399
8.2 HomomorphicSystems forConvolution 401
8.3 HomomorphicAnalysisofthe SpeechModel 417
8.4 Computingthe Short-TimeCepstrumand ComplexCepstrum of Speech 429
8.5 HomomorphicFilteringofNatural Speech 440
8.6 CepstrumAnalysisofAll-Pole Models 456
8.7 CepstrumDistanceMeasures 459
8.8 Summary 466
Problems 466
CHAPTER 9 Linear Predictive Analysisof SpeechSignals 473
9.1 Introduction 473
9.2 Basic Principles of Linear Predictive Analysis 474
9.3 Computationofthe Gainfor theModel 486
9.4 FrequencyDomainInterpretationsof Linear PredictiveAnalysis 490
9.5 Solutionofthe LPCEquations 505
9.6 The Prediction ErrorSignal 527
9.7SomePropertiesofthe LPCPolynomial A(z) 538
9.8 RelationofLinear Predictive Analysisto LosslessTube Models 546
9.9 Alternative Representationsof theLPParameters 551
9.10Summary 560Problems 560
CHAPTER10Algorithms for Estimating SpeechParameters 578
10.1 Introduction 578
10.2 MedianSmoothing and SpeechProcessing 580
10.3 Speech-Background/SilenceDiscrimination 586
10.4 ABayesianApproach toVoiced/Unvoiced/Silence Detection 595
10.5 Pitch Period Estimation(Pitch Detection) 603
10.6 Formant Estimation 635
10.7Summary 645Problems 645
CHAPTER11DigitalCodingof SpeechSignals 663
11.1 Introduction 663
11.2 Sampling SpeechSignals 667
11.3 AStatisticalModelfor Speech 669
11.4 Instantaneous Quantization 676
11.5 AdaptiveQuantization 706
11.6 QuantizingofSpeechModelParameters 718
11.7 GeneralTheoryof DifferentialQuantization 732
11.8 Delta Modulation 743
11.9 DifferentialPCM (DPCM) 759
11.10 Enhancements forADPCM Coders 768
11.11 Analysis-by-Synthesis SpeechCoders 783
11.12 Open-Loop SpeechCoders 806
11.13 Applicationsof SpeechCoders 814
11.14Summary 819Problems 820
CHAPTER12Frequency-DomainCodingof SpeechandAudio 842
12.1 Introduction 842
12.2 HistoricalPerspective 844
12.3 Subband Coding 850
12.4 AdaptiveTransform Coding 861
12.5 APerception ModelforAudioCoding 866
12.6 MPEG-1AudioCoding Standard 881
12.7 OtherAudioCoding Standards 894
12.8Summary 894Problems 895
CHAPTER13Text-to-SpeechSynthesis Methods 907
13.1 Introduction 907
13.2 Text Analysis 908
13.3 Evolutionof SpeechSynthesis Methods 914
13.4 Early SpeechSynthesis Approaches 916
13.5 UnitSelection Methods 926
13.6 TTS Future Needs 942
13.7 Visual TTS 943
13.8Summary 947Problems 947
CHAPTER14Automatic SpeechRecognition andNatural Language Understanding 950
14.1 Introduction 950
14.2 Basic ASRFormulation 952
14.3 Overall SpeechRecognition Process 953
14.4 Buildinga SpeechRecognition System 954
14.5 The DecisionProcessesinASR 957
14.6 Step3:The Search Problem 971
14.7 SimpleASR System: IsolatedDigit Recognition 972
14.8 Performance Evaluationof SpeechRecognizers 974
14.9 SpokenLanguage Understanding 977
14.10 Dialog Managementand SpokenLanguage Generation 980
14.11 User Interfaces 983
14.12 MultimodalUserInterfaces 984
14.13Summary 984Problems 985
Appendices
A SpeechandAudioProcessing Demonstrations 993
B SolutionofFrequency-DomainDifferentialEquations 1005
Bibliography 1008
Index 1031