声纹识别是生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认,声纹识别就是把声信号转换成电信号,再用计算机进行识别,不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。

除了指纹识别、人脸识别和虹膜识别,声纹识别也属于生物识别的一种,被广泛应用于智能产品、金融和刑侦等领域。什么是声纹识别?声纹识别即运用声音来识别人的身份,声纹识别的原理在于把声信号转换成电信号在进行对比识别。声纹识别原理是什么?声纹识别的优缺点是什么呢?

什么是声纹识别  第1张

什么是声纹识别

声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别的过程包括:语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。

声纹识别原理

声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。这也使得声纹识别也可以称为身份认证的一种方式。

声纹识别的优点

  1. 声纹提取方便,可在不知不觉中完成,因此使用者的接受程度也高;
  2. 获取语音的识别成本低廉,使用简单,一个麦克风即可,在使用通讯设备时更无需额外的录音设备;
  3. 适合远程身份确认,只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录;
  4. 声纹辨认和确认的算法复杂度低;
  5. 配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐。

声纹识别的缺点

当然,声纹识别的应用有一些缺点,比如同一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取等等

声纹识别匹配模式

声纹识别技术的关键在于对各种声学特征参数进行处理,并确定模式匹配方法,主要的模式匹配方法包括:

模板匹配方法

利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务)。

最近邻方法

训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的 K 个,据此进行识别,通常模型存储和相似计算的量都很大。

神经网络方法

有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好。

VQ 聚类方法(如 LBG)

效果比较好,算法复杂度也不高,和 HMM 方法配合起来更可以收到更好的效果。

多项式分类器方法

有较高的精度,但模型存储和计算量都比较大。

此外还有概率统计方法、动态时间规整方法、矢量量化方法等等。