语音信号处理(C++版)
作者:梁瑞宇,赵力,王青云 著
出版时间: 2018年版
内容简介
梁瑞宇、赵力、王青云等编著的《语音信号处理(C++版十三五普通高等教育规划教材)》介绍了语音信号处理的基础、原理、方法和应用,并且给出一些语音信号处理关键算法的C++函数。全书共分12章。第1章介绍了语音信号处理的发展历程和相关研究方向;第2~4章介绍了语音信号处理的一些基础理论、方法和参数;第5~12章按语音信号处理的研究方向,分别介绍了语音增强、说话人识别、语音识别、语音信号情感处理、语音合成与转换、声源定位、语音隐藏和语音编码的基础理论和算法原理。在附录中,介绍了本书涉及的C++类库及引入的函数库,并且以基于Visual Studio的语音录放程序为例,详细介绍了基于MFC的语音处理框架及程序实现。
本书可作为计算机和通信与信息系统等学科相关专业的高年级本、专科学生和研究生的教材用书或教学参考用书,也可作为从事语音信号处理的科研工程技术人员的辅助读物和参考用书。
目录
前言
第1章 绪论
1.1 语音信号的发展历程
1.2 语音信号处理的研究方向
1.3 本书结构
第2章 语音信号处理的基础知识
2.1 语音的产生与感知
2.1.1 人类发音系统
2.1.2 人类听觉系统
2.1.3 听觉感知特性[c]
2.2 语音产生的数学模型
2.2.1 激励模型
2.2.2 声道模型
2.2.3 辐射模型
2.2.4 数学模型与实现[c]
2.3 语音的常用参数
2.3.1 强度与响度[c]
2.3.2 频率与音高
2.3.3 音色与音质
2.4 语音信号的数字化
2.5 语音信号的表征
2.5.1 时域表示
2.5.2 频谱表示
2.5.3 语谱图
2.6 思考与复习题
第3章 语音信号分析方法
3.1 概述
3.2 语音信号预处理
3.2.1 分帧与加窗[c]
3.2.2 消除趋势项和直流分量
3.2.3 预加重与去加重
3.3 语音信号的时域分析[c]
3.3.1 短时能量及短时平均幅度
3.3.2 短时过零率
3.3.3 短时自相关
3.3.4 短时平均幅度差
3.4 语音信号的频域分析
3.4.1 短时傅里叶变换
3.4.2 功率谱估计
3.4.3 短时谱的临界带特征矢量
3.5 语音信号的倒谱分析
3.5.1 同态信号处理的基本原理
3.5.2 复倒谱和倒谱[c]
3.5.3 美尔倒谱系数[c]
3.6 语音信号的线性预测分析
3.6.1 线性预测分析的基本原理
3.6.2 线性预测方程组的求解[c]
3.6.3 线性预测相关参数
3.6.4 线谱对分析
3.6.5 线性预测系数与线谱对参数的互换[c]
3.7 思考与复习题
第4章 语音信号特征提取技术
4.1 概述
4.2 端点检测[c]
4.2.1 双门限法
4.2.2 自相关法
4.2.3 谱熵法
4.2.4 比例法
4.2.5 谱距离法
4.3 基音周期估计[c]
4.3.1 信号预处理
4.3.2 自相关法
4.3.3 平均幅度差函数法
4.3.4 倒谱法
4.3.5 简化逆滤波法
4.3.6 基音检测后处理
4.4 共振峰估计[c]
4.4.1 倒谱法
4.4.2 线性预测法
4.5 思考与复习题
第5章 语音增强
5.1 概述
5.2 基础知识
5.2.1 人耳感知特性
5.2.2 语音特性
5.2.3 噪声特性
5.2.4 语音质量评价标准
5.3 谱减法
5.3.1 基本原理[c]
5.3.2 改进算法
5.4 维纳滤波法
5.4.1 基本原理
5.4.2 改进算法
5.5 自适应滤波器法
5.5.1 最小均方误差滤波器[c]
5.5.2 归一化最小均方误差滤波器
5.5.3 自适应陷波器[c]
5.5.4 干扰抑制
5.6 基于听觉掩蔽效应的语音增强方法
5.6.1 听觉掩蔽阈值计算
5.6.2 感知滤波器方法
5.7 思考与复习题
第6章 说话人识别
6.1 概述
6.2 说话人识别原理及系统结构
6.2.1 预处理
6.2.2 说话人识别特征的选取
6.2.3 特征参量评价方法
6.2.4 模式匹配方法
6.2.5 说话人识别中判别方法和阈值的选择
6.2.6 说话人识别系统的评价
6.3 应用VQ的说话人识别系统
6.3.1 系统模型
6.3.2 VQ基本原理
6.3.3 失真测度
6.3.4 系统的设计与实现[c]
6.4 应用GMM的说话人识别系统
6.4.1 系统模型
6.4.2 GMM概述
6.4.3 GMM的参数估计
6.4.4 GMM樽刑的问颢
6.5 尚需进一步探索的研究课题
6.6 思考与复习题
第7章 语音识别
7.1 概述
7.2 语音识别原理与系统构成
7.2.1 基本构成
7.2.2 前端处理
7.2.3 关键组成
7.3 基于动态时间规整的语音识别系统
7.3.1 系统构成
7.3.2 动态时间规整[c]
7.3.3 算法的改进
7.4 基于隐马尔可夫模型的语音识别系统
7.4.1 隐马尔可夫模型概述
7.4.2 隐马尔可夫模型的定义
7.4.3 隐马尔可夫模型的基本算法
7.4.4 基于隐马尔可夫模型的孤立字(词)识别
7.4.5 算法的改进策略
7.5 性能评测
7.5.1 评测方法及指标
7.5.2 其他因素
7.6 系统总结
7.7 思考与复习题
第8章 语音信号情感处理
8.1 概述
8.2 情感理论与情感诱发实验
8.2.1 情感的心理学理论
8.2.2 实用语音情感数据库的建立
8.2.3 情感语料的诱发方法
8.2.4 情感语料的主观评价方法
8.3 情感的声学特征分析
8.3.1 情感特征提取
8.3.2 特征降维算法[c]
8.4 实用语音情感的识别算法研究
8.4.1 K近邻分类器[c]
8.4.2 支持向量机
8.4.3 人工神经网络
8.5 应用与展望
8.6 思考与复习题
第9章 语音合成与转换
9.1 概述
9.2 帧合成技术
9.3 经典语音合成算法
9.3.1 线性预测合成法[c]
9.3.2 共振峰合成法[c]
9.3.3 基音同步叠加技术
9.4 语音信号的变速和变调[c]
9.5 文语转换系统
9.6 语音转换及其研究方向
9.7 思考与复习题
第10章 声源定位
10.1 概述
10.2 双耳听觉定位原理及方法
10.2.1 人耳听觉定位原理
10.2.2 人耳声源定位线索
10.2.3 声源估计方法
10.3 传声器阵列模型
10.3.1 窄带阵列信号处理模型
10.3.2 传声器阵列信号模型
10.4 房间回响模型[c]
10.5 基于传声器阵列的声源定位方法
10.5.1 基于最大输出功率的可控波束形成算法
10.5.2 基于到达时间差的定位算法[c]
10.5.3 基于高分辨率谱估计的定位算法[c]
10.6 总结与展望
10.7 思考与复习题
第11章 语音隐藏
11.1 概述
11.2 信息隐藏基础
11.3 语音信息隐藏算法
11.3.1 低比特位编码法[c]
11.3.2 回声隐藏算法[c]
11.3.3 其他算法
11.4 常用评价指标
11.5 总结与展望
11.6 思考与复习题
第12章 语音编码
12.1 概述
12.2 理论依据
12.3 主要性能指标
12.4 波形编码
12.4.1 脉冲编码调制[c]
12.4.2 自适应预测编码
12.4.3 自适应差分脉冲编码调制
12.5 参数编码
12.5.1 LPC参数的变换和量化
12.5.2 LPC-10编码器
12.5.3 LPC-10编解码器的缺点及改进
12.6 语音信号的混合编码
12.7 研究展望
12.8 思考与复习题
附录
附录A MFC类模板及引入的函数库说明
A.1 std::vector简介
A.2 std::complex简介
A.3 FFTW函数库简介
附录B 基于MFC的语音录放原理与程序实现
B.1 MFC消息机制
B.2 基于MFC的语音录放原理
B.3 基于MFC的语音录放程序实现
附录C 书中涉及的C++函数说明
参考文献