智能語音技術(shù)是以“語音”為研究對象,對語音語義進行識別、理解以及生成,使機器具備自然語言處理能力,并且利用其核心技術(shù)賦予機器“聽覺”、“理解能力”以及“語言能力” 。
智能語音“三步曲”
智能語音技術(shù)涉及多類型學科,其核心技術(shù)包括語音識別(ASR)、聲紋識別(VPR)、自然語言處理(NLP)、語音合成(TTS)、語音去噪等關(guān)鍵技術(shù) 。
智能語音技術(shù)
【聲紋識別通識篇 人工智能應用技術(shù)之智能語音技術(shù)】聲紋識別
聲紋與指紋相似,每個人在說話過程中所蘊含的語音特征和發(fā)音習慣幾乎是獨一無二的,基于這些特征(參數(shù))所建立的語音模型稱為聲紋 。
聲紋識別( ,VPR)是根據(jù)待識別語音的聲紋特征識別該段語音所對應的說話人的過程 。
聲紋識別技術(shù)常常用于說話人辨認( )和說話人確認( ) 。
說話人辨認( )是判斷某段語音是若干人中的哪一個所說的,是“多選一”問題 。
說話人確認( )是確認某段語音是否是指定的某個人所說的,是“一對一判別”問題 。
說話人辨認和說話人確認
聲紋識別發(fā)展歷程
第一階段
人工分析階段(從17世紀60年代開始) , 以語音作為身份認證的手段,至到1945年 , Bell實驗室首次提出“聲紋”的概念 。
第二階段
基于專家知識與模板匹配階段(從20世紀60年代~80年代),1969年首次提出用倒譜技術(shù)進行聲紋特征識別,并取得較好的效果 , 同時Bell實驗室提出基于模板匹配和統(tǒng)計方差分析的說話人識別 。
第三階段
基于混合高斯的識別模型階段(從20世紀90年代~21世紀初) , GMM簡單、靈活、有效、較好的魯棒性,迅速成為主流技術(shù),將說話人識別研究帶入一個新的階段 。
第四階段
基于深度學習與端到端學習階段(從21世紀初~至今),基于深度學習和端到端的相關(guān)方法應用到說話人識別中微弱信號檢測人工智能,取得了不俗的成效,并逐漸工程化和實用化階段推進 。
聲紋識別流程
聲紋識別和語音識別在原理上相同 , 都是通過對采集到的語音信號進行分析和處理,提取相應的特征或建立相應的模型,然后據(jù)此做出判斷 。但二者提取的特征和建立的模型是不同的 。
聲紋識別建立的是每個人的個性特征 , 而語音識別則是側(cè)重于對話者所表述的內(nèi)容進行識別 。
聲紋識別主要分為兩個階段,一個是注冊語音階段,另一個是測試語音階段 。
聲紋識別流程
對說話人預留充足的語音;
對不同說話人提取聲學特征;
根據(jù)每個說話人的語音特征訓練得到對應的說話人模型;
將全體說話人模型集合在一起組成系統(tǒng)說話人聲紋模型庫 。
對識別語音進行相同的特征提取過程;
將語音特征與說話人模型庫進行比對,得到對應說話人模型的相似性打分;
根據(jù)識別打分判別得到識別語音的說話人身份 。
由此,可以看出聲紋識別主要就是“特征”、“模型”、“比對”三大核心 。
特征
MFCC/PLP/FBank等短時頻譜特征、D- 、Deep 、 、 等 。
模型
GMM-UBM、JFA聯(lián)合因子分析、GMM-UBM i-、-UBM i-、DNN i-、End-to-End等 。
比對
SVM、(CDS)、LDA、PLDA等 。
聲紋識別結(jié)果
聲紋識別作為生物識別技術(shù)的一種,同樣應用覆蓋場景很多 , 如公共安全、金融、社保、電話銀行、智能門禁等領(lǐng)域都有廣泛的應用前景 。您是否對語音識別感興趣呢?歡迎一起交流探討 。
最后,引用《禮記·大學》的一段話:“古之欲明明德于天下者 , 先治其國;欲治其國者,先齊其家;欲齊其家者,先修其身;欲修其身者,先正其心;欲正其心者,先誠其意;欲誠其意者,先致其知微弱信號檢測人工智能 , 致知在格物 。物格而后知至,知至而后意誠,意誠而后心正 , 心正而后身修,身修而后家齊,家齊而后國治 , 國治而后天下平 。” 。
本文到此結(jié)束,希望對大家有所幫助 。
- mfg是生產(chǎn)日期還是保質(zhì)期怎么識別 ?mfg是生產(chǎn)日期還是保質(zhì)期
- 生長點都“不正?!?,辣椒產(chǎn)量能高嗎?!快看看怎么識別和預防!
- 京東分期付款需要人臉識別嗎?需要什么條件?
- 圖像識別概述
- 人工智能圖像識別的瓶頸是什么?
- 京東二手手表真假鑒別指南:怎樣識別京東上的二手手表是否正品?
- 一年營收約20億元 ?3d人臉識別公司排名
- 85.人工智能——PyQt+圖像文字識別
- 如何區(qū)分拼多多真假貨?專家教你識別拼多多賣假貨坑點
- 學華為云微認證 輕松玩轉(zhuǎn)AI智能聲音識別
