第一篇:DSP語音信號處理
目 錄
第一章 緒
論.........................................................................................................1
1.1課程設(shè)計的目的及意義..................................................................................1 1.2設(shè)計要求..........................................................................................................1 1.3 研究內(nèi)容.........................................................................................................1
第二章 語音信號處理理論基礎(chǔ)........................................................................3
第三章
系統(tǒng)方案論證.....................................................................................5 第四章
GUI設(shè)計實現(xiàn).....................................................................................6
4.1 圖形用戶界面概念.........................................................................................6 4.2用戶界面設(shè)計..................................................................................................6
4.2.1 GUI設(shè)計模板........................................................................................6 4.2.2 GUI設(shè)計窗口........................................................................................6 4.2.3 GUI設(shè)計窗口的基本操作....................................................................6 4.2.4 語音的錄入與打開................................................................................9 4.3課程設(shè)計的軟件實現(xiàn)....................................................................................9
4.3.1語音信號的短時譜.................................................................................9 4.3.2 自相關(guān)方法估計語音信號的聲道參數(shù)..............................................10 4.3.3 基音周期檢測......................................................................................12 4.4 GUI實驗箱操作界面設(shè)計............................................................................14 第五章 心得體會..................................................................................................15 參考文獻...................................................................................................................16
摘
要
語音信號處理是研究數(shù)字信號處理技術(shù)和語音信號進行處理的一門學科,是一門新型的學科,是在多門學科基礎(chǔ)上發(fā)展起來的綜合性技術(shù),它涉及到數(shù)字信號處理、模式識別、語言學。語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號處理的一門學科。處理的目的是要得到一些語音參數(shù)以便高效的傳輸或存儲;或者是通過處理的某種運算以達到某種用途的要求。語音信號處理又是一門邊緣學科。如上所訴,它是“語言語音學”與“數(shù)字信號處理”兩個學科相結(jié)合的產(chǎn)物。
語音信號處理屬于信息科學的一個重要分支,大規(guī)模集成技術(shù)的高度發(fā)展和計算機技術(shù)的飛速前進,推動了這一技術(shù)的發(fā)展。在數(shù)字音頻技術(shù)和多媒體技術(shù)迅速發(fā)展的今天,傳統(tǒng)的磁帶語音錄放系統(tǒng)因體積大、使用不便、放音不清晰而受到了巨大挑戰(zhàn)。本次課程設(shè)計提出的體積小巧,功耗低的數(shù)字化語音存儲與回放系統(tǒng),可以有效的解決傳統(tǒng)的語音錄放系統(tǒng)在電子與信息處理的使用中受到的限制。
本文提出了語音信號處理課程建設(shè)的實驗環(huán)節(jié)中的一些考慮,作為專業(yè)課程的學習,實驗內(nèi)容不能僅僅停留在驗證性實驗上,還應(yīng)增加實驗延伸的設(shè)計要求,是學生加深對理論分析認識的同時,強調(diào)培養(yǎng)學生的實際動手能力和知識綜合運用能力。從而提高語音信號的教學和實驗的質(zhì)量。實驗內(nèi)容采用MATLAB編程實現(xiàn),不僅易于語音信號處理的實現(xiàn),更易引導(dǎo)學生完成實驗延伸的設(shè)計。
第一章 緒
論
1.1課程設(shè)計的目的及意義
在我們的現(xiàn)實生活中從磁帶、錄像帶到CD、VCD、DVD;從黑白電視機、彩色電視機、高清晰度電視機到具有數(shù)字信號處理功能的電視機;從留聲機、錄音機到語音信箱;現(xiàn)在正出在模擬信息到數(shù)字信息的變革之中,傳統(tǒng)的磁帶語音錄放系統(tǒng)因其體積大,使用不便,在電子與信息處理的使用中受到許多限制。
雖然,目前廣播電視系統(tǒng)尚未實現(xiàn)真正的數(shù)字化,相信在不久的將來,真正的數(shù)字電視、數(shù)字收音機、數(shù)字收錄機將進入家庭。所以,研究音頻信號的數(shù)字化存儲、處理和回放系統(tǒng)有著很重要的現(xiàn)實意義。
通過設(shè)計語音信號實驗箱可以對語音信號實現(xiàn)各種形式的變換,因此學會對語音信號的處理,也可自行研究將此語音處理技術(shù)應(yīng)用到現(xiàn)實生活中。
語音信號處理的一門比較實用的電子工程的專業(yè)課程,語音是人類獲取信息的重要來源和利用信息的重要手段,通過語言相互傳遞信息是人類最重要的基本功能之一,語音是人類特有的功能,它是創(chuàng)造和記載幾千年來人類文明史的根本手段,是人類最重要、最有效、最常用和最方便的交換信息的形式。
語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進行處理的一門學科,它是一門新興的學科,同時又是綜合性的多學科領(lǐng)域剛也涉及面很廣的交叉學科。
1.2設(shè)計要求
(1)學會MATLAB的使用,掌握MATLAB的程序設(shè)計方法;(2)掌握在windows環(huán)境下語音信號的采集方法;(3)掌握數(shù)字信號處理的基本概念,基本理論和基本方法;(4)掌握MATLAB設(shè)計方法;
(5)學會用MATLAB對信號進行分析和處理。
1.3 研究內(nèi)容
1.理論依據(jù)
根據(jù)設(shè)計要求分析系統(tǒng)功能,掌握設(shè)計中所需理論(采樣頻率、采樣位數(shù)的
概念,采樣定理; 時域信號的FFT分析;數(shù)字濾波器設(shè)計原理和方法,各種不同類型濾波器的性能比較),闡明設(shè)計原理。2.信號采集
采集語音信號,并對其進行FFT頻譜分析,畫出信號的時域波形圖和頻譜圖。3.構(gòu)造受干擾信號并對其進行FFT頻譜分析
對所采集的語音信號加入干擾噪聲,對語音信號進行回放,感覺加噪前后聲音的變化,分析原因,得出結(jié)論。并對其進行FFT頻譜分析,比較加噪前后語音信號的波形及頻譜,對所得結(jié)果進行分析,闡明原因,得出結(jié)論。4.數(shù)字濾波器設(shè)計
根據(jù)待處理信號特點,設(shè)計合適數(shù)字濾波器,繪制所設(shè)計濾波器的幅頻和相頻特性。5.信號處理
用所設(shè)計的濾波器對含噪語音信號進行濾波。對濾波后的語音信號進行FFT頻譜分析。畫出處理過程中所得各種波形及頻譜圖。
對語音信號進行回放,感覺濾波前后聲音的變化。比較濾波前后語音信號的波形及頻譜,對所得結(jié)果和濾波器性能進行頻譜分析,闡明原因,得出結(jié)論。6.設(shè)計圖形用戶界面
設(shè)計處理系統(tǒng)的用戶界面,在所設(shè)計的系統(tǒng)界面上可以選擇濾波器的參數(shù),顯示濾波器的頻率響應(yīng),選擇信號等。
第二章 語音信號處理理論基礎(chǔ)
語音采集原理是,人耳能聽到的聲音是一種范圍為20Hz—20kHz,而一般語音頻率最高為3.4kHz。語音的采集是指語音聲波信號經(jīng)麥克風和高頻放大器轉(zhuǎn)換成有一定幅度的模擬量電信號,然后再轉(zhuǎn)換成數(shù)字量的全過程。
本次設(shè)計的基本原理是對語音的錄音和放音進行數(shù)字化控制。其中,關(guān)鍵技術(shù)在于:為了增加語音存儲時間,提高存儲器的利用率,采用了非失真壓縮算法對語音信號進行壓縮后再存儲,而在回放時再進行解壓縮;同時,對輸入語音信號進行數(shù)字濾波以抑制雜音和干擾,從而確保了語音回放的可靠質(zhì)量。
通過設(shè)計一個GUI實驗箱,并添加相應(yīng)的控制控件,添加一個聲音文件,通過MATLAB編程,使其通過各種按鈕實現(xiàn)語音信號處理的各種功能,最后做成一個完整的語音信號處理實驗箱。
語音檢測算法是現(xiàn)在語音信號處理研究的一個熱點。近些年來,語音信號處理技術(shù)伴隨著人們對通訊技術(shù)升級的需求得到了迅猛的發(fā)展。IP電話已經(jīng)走向大規(guī)模產(chǎn)業(yè)化應(yīng)用,并以其低廉的成本和滿意的話音質(zhì)量成為通訊供應(yīng)商競爭的利器,大有取代傳統(tǒng)電話的趨勢。語音識別技術(shù)也已經(jīng)實現(xiàn)了與說話者無關(guān)的大詞匯量連續(xù)語音識別,并試圖從試驗研究走向商用。說話者識別技術(shù)作為一個新一代的門禁安防技術(shù)也已經(jīng)出現(xiàn)商業(yè)應(yīng)用。很多單工的通訊設(shè)備可以通過語音檢測技術(shù)的應(yīng)用實現(xiàn)收發(fā)狀態(tài)的自動轉(zhuǎn)換而以比較小的代價達到雙工設(shè)備的功能。語音檢測技術(shù)作為這些語音處理算法中的核心預(yù)處理單元,成為這些技術(shù)能否走向成熟商業(yè)應(yīng)用的關(guān)鍵技術(shù)之一。實際通訊環(huán)境中會遇到各種不同類型、不同強度的噪聲。它們各自在時域或頻域中有互不相同的特點,沒有一致的統(tǒng)計參數(shù)。語音信號本身也是一個時變的復(fù)雜信號。不同的語言,不同的音位(語音中的最小發(fā)聲單位)各不相同。
總之,實際中的噪聲和語音信號都是復(fù)雜的時變信號。如果不是面向特定背景噪聲的應(yīng)用,通過尋找噪聲的共同特征以構(gòu)建一個噪聲信號與語音信號的區(qū)分函數(shù)是不現(xiàn)實的。語音信號處理本身是一個涉及到傳統(tǒng)數(shù)字信號處理、統(tǒng)計信號處理、模式識別與建模、發(fā)聲學、語音語言學等多學科的綜合技術(shù)。論文在前人研究的基礎(chǔ)上,從語音信號的形制機理出發(fā),對語音信號中的基本成分—輕音和濁音的特征進行了深入的研究。Source-Filter模型在語音信號建模中有著廣泛的應(yīng)用,論文在基于Source-Filter模型求取語音信號的LPC譜中發(fā)現(xiàn),語音的短時穩(wěn)定性(short time stationary)在LPC譜中有著不同于噪聲信號的鮮明體現(xiàn),從而提出了基于音位共振峰軌跡跟蹤的語音檢測新方法。論文對新算法與國際電信聯(lián)盟(ITU)的G729B推薦語音檢測標準算法進行了對比驗證,證明在強背景噪聲環(huán)境下新算法的性能有20%左右的提高。同時新算法也體現(xiàn)出比G729B更
強的背景噪聲適應(yīng)能力。在算法的實現(xiàn)中,局部大能量的噪聲會形成LPC譜中的局部極大值點,它具有類似語音共振峰的特征。為了消除噪聲極大值點對音位共振峰軌跡跟蹤的不良影響,論文提出了一個共振峰的形態(tài)判別標準—音位共振峰的幅值峰谷比原則,并通過大量的試驗研究確定了峰谷比的優(yōu)化量值。試驗證明,此方法是剔除局部噪聲極值點的有效方法。論文工作將新算法在一個基于TI TMS320C6711的數(shù)字信號處理器平臺上實時實現(xiàn)。在實現(xiàn)過程中,使用了幅值、步長的分段擬合和插值算法,大大降低了復(fù)雜數(shù)學函數(shù)的運算時間,滿足了算法了實時性要求。
第三章
系統(tǒng)方案論證
在進行模擬/數(shù)字信號的轉(zhuǎn)換過程中,當采樣頻率fs.max大于信號中最高頻率fmax的2倍時,則采樣之后的數(shù)字信號完整的保留了原始信號中的信號,一般實際應(yīng)用中保證采樣頻率為信號最高頻率的5—10倍;采樣定理又稱奈奎斯特定理。
一、采樣頻率是指計算機每秒鐘采集多少個聲音樣本,是描述聲音文件的音質(zhì)、音調(diào)、衡量聲卡、聲音文件的質(zhì)量標準。采樣頻率越高,即采樣的間隔時間越短,則在單位時間內(nèi)計算機得到的聲音樣本數(shù)據(jù)就越多,對聲音波形的表示也就越精確,采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特理論,只有采樣頻率高于聲音信號最高頻率的2倍的時候,才能把數(shù)字信號表示的聲音還原成為原來的聲音,這就是說采樣頻率是衡量聲卡采集、記錄和還原聲音文件的質(zhì)量標準。
二、采樣位數(shù)即采樣值或取樣值,用來衡量聲音波動變化的參數(shù),是指聲卡在采集和播放聲音文件時候使用數(shù)字聲音信號的二進制為數(shù)。采樣頻率是指錄音設(shè)備在一秒鐘內(nèi)對聲音信號的采樣次數(shù),采樣頻率越高聲音的還原就越真實越自然。
三、采樣位數(shù)和采樣頻率對于音頻接口來說是最為重要的兩個基本指標,也是選擇音頻接口的兩個重要標準。無論采樣頻率如何,理論上來說采樣的位數(shù)決定了音頻數(shù)據(jù)最大的力度范圍。每增加一個采樣位數(shù)相當于力度范圍增加了6dB。采樣位數(shù)越多則捕捉到的信號越精確。對于采樣率來說你可以想象它類似于一個照相機。顯然采樣率越高,計算機提取的聲音越多,對于原始的還原也越加精確。
第四章
GUI設(shè)計實現(xiàn)
4.1 圖形用戶界面概念
圖形用戶界面或圖形用戶接口是指采用圖形方式顯示的計算機操作環(huán)境由用戶接口。與早期計算機使用的命令行界面相比,圖形界面對于用戶來說更為簡便易用。
GUI是MATLAB提供的圖形用戶界面開發(fā)環(huán)境,提供了一系列用于創(chuàng)建圖形用戶界面的工具,從而簡化界面布局和編程工作。
4.2用戶界面設(shè)計
4.2.1 GUI設(shè)計模板
在MATLAB主窗口中,選擇File菜單中的New菜單項,再選擇其中的GUI命令,就會顯示圖形用戶界面的設(shè)計模板。
MATLAB為GUI設(shè)計一共準備了四個模板,分別是Blank GUI、GUI with Uicontrols、GUI with Axes and Menu、Modal Question Dialog。
當用戶選擇不同的模板時,在GUI設(shè)計模板界面的右邊就會顯示出與該模板對應(yīng)的GUI圖形。
4.2.2 GUI設(shè)計窗口
在GUI設(shè)計模板中選中一個模板,然后單擊OK按鈕,就會顯示GUI設(shè)計窗口,選擇不同的GUI設(shè)計模式時,在GUI設(shè)計窗口中顯示的結(jié)果是不一樣的。
GUI設(shè)計窗口由菜單欄、工具欄、空間工具欄以及圖形對象設(shè)計區(qū)等部分組成。GUI設(shè)計窗口的菜單欄有File、Edit、View、Layout、Tools和Help六個菜單項,使用其中的命令可以完成圖形用戶界面的設(shè)計操作。
4.2.3 GUI設(shè)計窗口的基本操作
(1)前面板的設(shè)計:在GUI設(shè)計窗口創(chuàng)建圖形對象后,通過雙擊該對象,就會顯示該對象的屬性編輯器。如下圖所示。例如,創(chuàng)建一個Push Button對象,并設(shè)計該對象的屬性值。
圖4-1 按鈕屬性編輯器
通過以上的按鈕屬性編輯器可以根據(jù)個人情況對按鈕的名稱、顏色、大小等方面的屬性進行修改,使按鈕在視覺上變的更加完美。
(2)按鈕功能的實現(xiàn):在GUI設(shè)計窗口創(chuàng)建按鈕后,通過右鍵單擊按鈕,選擇View callbacks下的callback對相應(yīng)的按鈕進行編程,使按鈕實現(xiàn)相應(yīng)的功能,如下圖所示對按鈕的響應(yīng)功能進行設(shè)置。
圖4-2 按鈕功能編輯器
進入到按鈕程序編輯窗口,通過編程即可實現(xiàn)按鈕的相應(yīng)功能,如下圖:
圖4-3 按鈕的編程實現(xiàn)界面
通過對各個按鈕控件的修改,和對m文件程序的添加就完成對GUI窗口的設(shè)計,最后得到的圖形化操作界面如下圖所示:
圖4-4 圖形化操作界面
4.2.4 語音的錄入與打開
在MATLAB中,[y,fa,bits]=wavread(‘Blip’,[N1 N2]);用于讀取語音,采樣值放在向y中,fs表示采樣頻率,bits表示采樣位數(shù)。[N1 N2]表示讀取從N1點到N2點的值。
Suond(x,fs,bits);用于對聲音的回放,向量y則就代表了一個信號也就是說可以像處理一個信號表達式一樣處理這個聲音信號。
4.3課程設(shè)計的軟件實現(xiàn)
4.3.1語音信號的短時譜
周期性聲門波可表示為:
(4-1)其中,g[n]是聲門波的單周期的波形,p[n]是間隔為P的周期采樣序列。當u[n]通過線性非時變聲道,且該聲道的單位沖擊響應(yīng)為h[n]時,聲道輸出為:
(4-2)為了觀察一段語音,需要降生到輸出乘以一個一時刻τ 為中心的窗函數(shù) w[n,τ] ,即得到:
(4-3)
這段語音信號的頻域表達式為:
即語音信號的譜包絡(luò)為
(4-4)
語譜圖就是現(xiàn)實時變頻譜幅度特征的圖形表達式為:
(4-5)
將語音信號短時譜程序?qū)懭氲組ATLAB中得到單色語譜圖的波形如下:
圖4-5 語音信號單色語譜圖
4.3.2 自相關(guān)方法估計語音信號的聲道參數(shù)
由均方預(yù)測誤差最小的得到正則方程:
其中,在最佳解時的誤差為
在自相關(guān)法中式4-6,式4-8變?yōu)?/p>
(4-10)由式4-9和式4-10可列出方程組式4-11 10
(4-6)(4-7)(4-8)(4-9)
(4-11)
解方程組式4-9求出線性預(yù)測系數(shù),通過誤差式4-11可求出增益G
(4-12)
加窗后信號頻譜圖如下:
圖4-6 加窗后信號頻譜圖
通過以上的方法,改變參數(shù)分別求得4極點模型頻率響應(yīng)和6極點模型頻率響應(yīng),6極點波形如下圖所示:
圖4-7 六極點波形圖
最后通過以上方法用一個函數(shù)分別實現(xiàn)以上三個功能,三個波形顯示在一個界面,通過觀察圖形,查看它們之間的分別。三者比較所得到的波形如下:
圖4-8 三者比較波形圖
4.3.3 基音周期檢測
數(shù)據(jù)為濁音語音信號speech1_10k(10000樣點/秒)用25ms的漢明窗對語音信號speech1_10k進行加窗處理,并畫出所得到的加窗信號的自相關(guān)函數(shù),再用根據(jù)中心消波法及三電平中心消波法原理改進程序,最后對比中方法基音檢測的效果并分析結(jié)果。
實驗原理及方法
相關(guān)檢測原理:對于離散的數(shù)字語音信號序列x(n),如果周期N,則自相關(guān)函數(shù)也是同周期的周期函數(shù)。即:x(n)=x(n+N)。清音信號沒有周期性,他的自相關(guān)函數(shù)也沒有周期。濁音新海具有準周期性。自相關(guān)基音檢測正是利用這一性質(zhì)對語音信號進行基音檢測的。
中心消波法檢測原理:中心消波處理是使用如下圖所示的中心消波函數(shù)進行處理的:
圖4-9 中心消波檢測圖
三電平消波法原理:為了減少自相關(guān)計算中的乘法運算,可以把上述中心消
波以后的信號y(n)的自相關(guān)用兩個信號的互相關(guān)代替,其中一個信號是y(n)另一個信號是對y(n)進行三電平量化產(chǎn)生的結(jié)果。且這個信號有三種可能的取值,因而這里的互相關(guān)計算只需要做加減法,而這個互相關(guān)序列的周期性與y(n)的自相關(guān)序列是近似相同的。
三電平法對語音信號處理得到的波形如下:
圖4-10 三電平法波形圖
中心消波法得到的波形如下圖:
圖4-11 中心消波法波形圖
4.4 GUI實驗箱操作界面設(shè)計
通過對各個控件的編程和對參數(shù)的設(shè)計,最后得到的GUI實驗箱操作界面如下圖所示,通過界面上的各個按鈕即可實現(xiàn)相應(yīng)的功能。
圖4-12 GUI實驗箱操作界面
第五章 心得體會
通過本次課程設(shè)計完成了對語音信號的讀取與打開,與課題的要求十分相符;初略的完成了界面的設(shè)計,但也存在相當?shù)牟蛔悖_到了打開語音文件,顯示已定波形。語音信號處理時語音學與數(shù)字信號處理技術(shù)相結(jié)合的交叉學科,將語音當做一種特殊的信號,即一種“復(fù)雜向量”來看待。也就是說,體現(xiàn)了數(shù)字信號處理技術(shù)。
本次課程設(shè)計時希望將數(shù)字信號處理技術(shù)應(yīng)用與某一實際領(lǐng)域,這里就是指對語音的處理。作為存儲與計算機中的語音信號,其本身就是離散化了的向量,我們只需要將這些離散的量提取出來美酒可以對其進行處理了。
本次課設(shè),用到了處理數(shù)字信號的強有力工具MATLAB,通過MATLAB李的幾個命令函數(shù)的調(diào)用,很輕易的在實際化語音與數(shù)字信號的理論之間搭了一座橋。
最后,還利用了MATLAB的另一強大功能——GUI界面設(shè)計。設(shè)計出了一個建議的用戶應(yīng)用界面,可以讓人實現(xiàn)界面操作。
通過本次課程設(shè)計讓我更加了解了語音信號處理在現(xiàn)實中的強大的應(yīng)用空間,同時查閱了很多相關(guān)的資料,應(yīng)用MTALAB軟件來完成,熟練掌握了MATLAB軟件,本次課程設(shè)計要求用GUI設(shè)計模塊,查閱了很多資料,更加深刻的陸奧了了這方面知識。
本次課程設(shè)計,我明白了理論的學習需要在實踐中才能得到鞏固。在課程設(shè)計中,只有動手慢慢研究,才能真正了解MATLAB軟件平臺中可以直接設(shè)計數(shù)字濾波器的各個函數(shù)的調(diào)用,對設(shè)計GUI實驗箱的所有函數(shù)的運用有了比較好的認識。
通過這個課程設(shè)計,我學到了很多MATLAB和語音信號的知識,提高了自己在語音信號設(shè)計方面的知識能力,動手能力和思維能力都得到了一定的提升,希望自己以后可以更多的繼續(xù)學習這一門課程設(shè)計方面的知識。
參考文獻
[1]陳懷琛.MATLAB及在電子信息課程中的應(yīng)用【M】.北京電子工業(yè)出版社.2008.1 [2]張文.基于MATLAB的語音信號的濾波域?qū)崿F(xiàn)【M】.山西電子技術(shù).2008.2 [3]徐靖濤.基于MATLAB的語音信號分析與處理【M】.重慶科技學院學報.2008.1 [4]張威.MATLAB基礎(chǔ)與編程入門【M】.西安電子科技大學出版社,2006. [5]周淵,王炳和,劉斌勝.基于MATLAB的噪聲信號采集和分析系統(tǒng)的設(shè)計【J】.噪聲控制.2004(7):52-54.
[6]張雄偉,陳量,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用【M】.北京:機械工業(yè)出版社.2003
第二篇:DSP語音信號處理
摘
要
語音信號處理是研究數(shù)字信號處理技術(shù)和語音信號進行處理的一門學科,是一門新型的學科,是在多門學科基礎(chǔ)上發(fā)展起來的綜合性技術(shù),它涉及到數(shù)字信號處理、模式識別、語言學。語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號處理的一門學科。處理的目的是要得到一些語音參數(shù)以便高效的傳輸或存儲;或者是通過處理的某種運算以達到某種用途的要求。語音信號處理又是一門邊緣學科。如上所訴,它是“語言語音學”與“數(shù)字信號處理”兩個學科相結(jié)合的產(chǎn)物。
語音信號處理屬于信息科學的一個重要分支,大規(guī)模集成技術(shù)的高度發(fā)展和計算機技術(shù)的飛速前進,推動了這一技術(shù)的發(fā)展。在數(shù)字音頻技術(shù)和多媒體技術(shù)迅速發(fā)展的今天,傳統(tǒng)的磁帶語音錄放系統(tǒng)因體積大、使用不便、放音不清晰而受到了巨大挑戰(zhàn)。本次課程設(shè)計提出的體積小巧,功耗低的數(shù)字化語音存儲與回放系統(tǒng),可以有效的解決傳統(tǒng)的語音錄放系統(tǒng)在電子與信息處理的使用中受到的限制。
本文提出了語音信號處理課程建設(shè)的實驗環(huán)節(jié)中的一些考慮,作為專業(yè)課程的學習,實驗內(nèi)容不能僅僅停留在驗證性實驗上,還應(yīng)增加實驗延伸的設(shè)計要求,是學生加深對理論分析認識的同時,強調(diào)培養(yǎng)學生的實際動手能力和知識綜合運用能力。從而提高語音信號的教學和實驗的質(zhì)量。實驗內(nèi)容采用MATLAB編程實現(xiàn),不僅易于語音信號處理的實現(xiàn),更易引導(dǎo)學生完成實驗延伸的設(shè)計。
第一章 緒論
1.1選題背景
在我們的現(xiàn)實生活中從磁帶、錄像帶到CD、VCD、DVD;從黑白電視機、彩色電視機、高清晰度電視機到具有數(shù)字信號處理功能的電視機;從留聲機、錄音機到語音信箱;現(xiàn)在正出在模擬信息到數(shù)字信息的變革之中,傳統(tǒng)的磁帶語音錄放系統(tǒng)因其體積大,使用不便,在電子與信息處理的使用中受到許多限制。
雖然,目前廣播電視系統(tǒng)尚未實現(xiàn)真正的數(shù)字化,相信在不久的將來,真正的數(shù)字電視、數(shù)字收音機、數(shù)字收錄機將進入家庭。所以,研究音頻信號的數(shù)字化存儲、處理和回放系統(tǒng)有著很重要的現(xiàn)實意義。
通過設(shè)計語音信號實驗箱可以對語音信號實現(xiàn)各種形式的變換,因此學會對語音信號的處理,也可自行研究將此語音處理技術(shù)應(yīng)用到現(xiàn)實生活中。
1.2課題意義
語音信號處理的一門比較實用的電子工程的專業(yè)課程,語音是人類獲取信息的重要來源和利用信息的重要手段,通過語言相互傳遞信息是人類最重要的基本功能之一,語音是人類特有的功能,它是創(chuàng)造和記載幾千年來人類文明史的根本手段,是人類最重要、最有效、最常用和最方便的交換信息的形式。
語音信號處理是研究用數(shù)字信號處理技術(shù)對語音信號進行處理的一門學科,它是一門新興的學科,同時又是綜合性的多學科領(lǐng)域剛也涉及面很廣的交叉學科。
第二章 課程設(shè)計要求及系統(tǒng)原理
2.1 課程設(shè)計基本要求
(1)學會MATLAB的使用,掌握MATLAB的程序設(shè)計方法;
(2)掌握在windows環(huán)境下語音信號的采集方法;
(3)掌握數(shù)字信號處理的基本概念,基本理論和基本方法;
(4)掌握MATLAB設(shè)計方法;
(5)學會用MATLAB對信號進行分析和處理。
2.2 系統(tǒng)基本原理
語音采集原理是,人耳能聽到的聲音是一種范圍為20Hz—20kHz,而一般語音頻率最高為3.4kHz。語音的采集是指語音聲波信號經(jīng)麥克風和高頻放大器轉(zhuǎn)換成有一定幅度的模擬量電信號,然后再轉(zhuǎn)換成數(shù)字量的全過程。
本次設(shè)計的基本原理是對語音的錄音和放音進行數(shù)字化控制。其中,關(guān)鍵技術(shù)在于:為了增加語音存儲時間,提高存儲器的利用率,采用了非失真壓縮算法對語音信號進行壓縮后再存儲,而在回放時再進行解壓縮;同時,對輸入語音信號進行數(shù)字濾波以抑制雜音和干擾,從而確保了語音回放的可靠質(zhì)量。
通過設(shè)計一個GUI實驗箱,并添加相應(yīng)的控制控件,添加一個聲音文件,通過MATLAB編程,使其通過各種按鈕實現(xiàn)語音信號處理的各種功能,最后做成一個完整的語音信號處理實驗箱。
第三章 設(shè)計方案論證
3.1 設(shè)計理論依據(jù)
3.1.1采樣定理:
在進行模擬/數(shù)字信號的轉(zhuǎn)換過程中,當采樣頻率fs.max大于信號中最高頻率fmax的2倍時,則采樣之后的數(shù)字信號完整的保留了原始信號中的信號,一般實際應(yīng)用中保證采樣頻率為信號最高頻率的5—10倍;采樣定理又稱奈奎斯特定理。
3.1.2采樣頻率:
采樣頻率是指計算機每秒鐘采集多少個聲音樣本,是描述聲音文件的音質(zhì)、音調(diào)、衡量聲卡、聲音文件的質(zhì)量標準。采樣頻率越高,即采樣的間隔時間越短,則在單位時間內(nèi)計算機得到的聲音樣本數(shù)據(jù)就越多,對聲音波形的表示也就越精確,采樣頻率與聲音頻率之間有一定的關(guān)系,根據(jù)奈奎斯特理論,只有采樣頻率高于聲音信號最高頻率的2倍的時候,才能把數(shù)字信號表示的聲音還原成為原來的聲音,這就是說采樣頻率是衡量聲卡采集、記錄和還原聲音文件的質(zhì)量標準。
3.1.3采樣位數(shù)與采樣頻率
采樣位數(shù)即采樣值或取樣值,用來衡量聲音波動變化的參數(shù),是指聲卡在采集和播放聲音文件時候使用數(shù)字聲音信號的二進制為數(shù)。采樣頻率是指錄音設(shè)備在一秒鐘內(nèi)對聲音信號的采樣次數(shù),采樣頻率越高聲音的還原就越真實越自然。
采樣位數(shù)和采樣頻率對于音頻接口來說是最為重要的兩個基本指標,也是選擇音頻接口的兩個重要標準。無論采樣頻率如何,理論上來說采樣的位數(shù)決定了音頻數(shù)據(jù)最大的力度范圍。每增加一個采樣位數(shù)相當于力度范圍增加了6dB。采樣位數(shù)越多則捕捉到的信號越精確。對于采樣率來說你可以想象它類似于一個照相機。顯然采樣率越高,計算機提取的聲音越多,對于原始的還原也越加精確。
第四章 圖形用戶界面設(shè)計
4.1 圖形用戶界面概念
圖形用戶界面或圖形用戶接口是指采用圖形方式顯示的計算機操作環(huán)境由用戶接口。與早期計算機使用的命令行界面相比,圖形界面對于用戶來說更為簡便易用。
GUI是MATLAB提供的圖形用戶界面開發(fā)環(huán)境,提供了一系列用于創(chuàng)建圖形用戶界面的工具,從而簡化界面布局和編程工作。
4.2用戶界面設(shè)計
4.2.1 GUI設(shè)計模板
在MATLAB主窗口中,選擇File菜單中的New菜單項,再選擇其中的GUI命令,就會顯示圖形用戶界面的設(shè)計模板。
MATLAB為GUI設(shè)計一共準備了四個模板,分別是Blank GUI、GUI with Uicontrols、GUI with Axes and Menu、Modal Question Dialog。
當用戶選擇不同的模板時,在GUI設(shè)計模板界面的右邊就會顯示出與該模板對應(yīng)的GUI圖形。
4.2.2 GUI設(shè)計窗口
在GUI設(shè)計模板中選中一個模板,然后單擊OK按鈕,就會顯示GUI設(shè)計窗口,選擇不同的GUI設(shè)計模式時,在GUI設(shè)計窗口中顯示的結(jié)果是不一樣的。
GUI設(shè)計窗口由菜單欄、工具欄、空間工具欄以及圖形對象設(shè)計區(qū)等部分組成。GUI設(shè)計窗口的菜單欄有File、Edit、View、Layout、Tools和Help六個菜單項,使用其中的命令可以完成圖形用戶界面的設(shè)計操作。
4.2.3 GUI設(shè)計窗口的基本操作
(1)前面板的設(shè)計:在GUI設(shè)計窗口創(chuàng)建圖形對象后,通過雙擊該對象,就會顯示該對象的屬性編輯器。如下圖所示。例如,創(chuàng)建一個Push Button對象,并設(shè)計該對象的屬性值。
圖4-1 按鈕屬性編輯器
通過以上的按鈕屬性編輯器可以根據(jù)個人情況對按鈕的名稱、顏色、大小等方面的屬性進行修改,使按鈕在視覺上變的更加完美。
(2)按鈕功能的實現(xiàn):在GUI設(shè)計窗口創(chuàng)建按鈕后,通過右鍵單擊按鈕,選擇View callbacks下的callback對相應(yīng)的按鈕進行編程,使按鈕實現(xiàn)相應(yīng)的功能,如下圖所示對按鈕的響應(yīng)功能進行設(shè)置。
圖4-2 按鈕功能編輯器
進入到按鈕程序編輯窗口,通過編程即可實現(xiàn)按鈕的相應(yīng)功能,如下圖:
圖4-3 按鈕的編程實現(xiàn)界面
通過對各個按鈕控件的修改,和對m文件程序的添加就完成對GUI窗口的設(shè)計,最后得到的圖形化操作界面如下圖所示:
圖4-4 圖形化操作界面
4.2.4 語音的錄入與打開
在MATLAB中,[y,fa,bits]=wavread(‘Blip’,[N1 N2]);用于讀取語音,7
采樣值放在向y中,fs表示采樣頻率,bits表示采樣位數(shù)。[N1 N2]表示讀取從N1點到N2點的值。
Suond(x,fs,bits);用于對聲音的回放,向量y則就代表了一個信號也就是說可以像處理一個信號表達式一樣處理這個聲音信號。
第五章 課程設(shè)計的軟件實現(xiàn)
5.1 部分函數(shù)語法格式
讀wav文件: x=wavread(‘filename’)數(shù)組a及b中元素相乘: a.*b 創(chuàng)建圖形窗口命令: figure 繪圖函數(shù): plot(x)坐標軸: axis([xmin xmax ymin ymax])坐標軸注解: xlabel(‘?’)ylabel(‘?’)圖例注解: legend(‘?’)一階高通濾波器: y=filter([1-0.09375],1,x)分幀函數(shù): f=enframe(x,len,inc)x為輸入語音信號,len指定了幀長,inc指定幀移,函數(shù)返回為nXlen的一個矩陣,每一行都是一幀數(shù)據(jù)。
5.2語音信號處理的相關(guān)函數(shù)
5.2.1語音信號的短時譜:
周期性聲門波可表示為:
(5-1)其中,g[n]是聲門波的單周期的波形,p[n]是間隔為P的周期采樣序列。當u[n]通過線性非時變聲道,且該聲道的單位沖擊響應(yīng)為h[n]時,聲道輸出為:
(5-2)為了觀察一段語音,需要降生到輸出乘以一個一時刻τ 為中心的窗函數(shù) w[n,τ] ,即得到:
(5-3)
這段語音信號的頻域表達式為:
(5-4)
即語音信號的譜包絡(luò)為
語譜圖就是現(xiàn)實時變頻譜幅度特征的圖形表達式為:
(5-5)
將語音信號短時譜程序?qū)懭氲組ATLAB中得到單色語譜圖的波形如下:
圖5-1 語音信號單色語譜圖
5.2.2 自相關(guān)方法估計語音信號的聲道參數(shù):
由均方預(yù)測誤差最小的得到正則方程:
(5-6)
其中,(5-7)
在最佳解時的誤差為
(5-8)
在自相關(guān)法中式5-6,式5-8變?yōu)?/p>
(5-9)
(5-10)由式5-9和式5-10可列出方程組式5-11
(5-11)
解方程組式5-9求出線性預(yù)測系數(shù),通過誤差式5-11可求出增益G
(5-12)
加窗后信號頻譜圖如下:
圖5-2 加窗后信號頻譜圖
通過以上的方法,改變參數(shù)分別求得4極點模型頻率響應(yīng)和6極點模型頻率響應(yīng),6極點波形如下圖所示:
圖5-3 六極點波形圖
最后通過以上方法用一個函數(shù)分別實現(xiàn)以上三個功能,三個波形顯示在一個界面,通過觀察圖形,查看它們之間的分別。三者比較所得到的波形如下:
圖5-4 三者比較波形圖
5.2.3 基音周期檢測
數(shù)據(jù)為濁音語音信號speech1_10k(10000樣點/秒)用25ms的漢明窗對語音信號speech1_10k進行加窗處理,并畫出所得到的加窗信號的自相關(guān)函數(shù),再用根據(jù)中心消波法及三電平中心消波法原理改進程序,最后對比中方法基音檢測的效果并分析結(jié)果。
實驗原理及方法
(1)自相關(guān)檢測原理:對于離散的數(shù)字語音信號序列x(n),如果周期N,則自相關(guān)函數(shù)也是同周期的周期函數(shù)。即:x(n)=x(n+N)。清音信號沒有周期性,他的自相關(guān)函數(shù)也沒有周期。濁音新海具有準周期性。自相關(guān)基音檢測正是利用這一性質(zhì)對語音信號進行基音檢測的。
(2)中心消波法檢測原理:中心消波處理是使用如下圖所示的中心消波函數(shù)進行處理的:
圖5-5 中心消波檢測圖
(3)三電平消波法原理:為了減少自相關(guān)計算中的乘法運算,可以把上述中心消波以后的信號y(n)的自相關(guān)用兩個信號的互相關(guān)代替,其中一個信號是y(n)另一個信號是對y(n)進行三電平量化產(chǎn)生的結(jié)果。且這個信號有三種可能的取值,因而這里的互相關(guān)計算只需要做加減法,而這個互相關(guān)序列的周期性與y(n)的自相關(guān)序列是近似相同的。
三電平法對語音信號處理得到的波形如下:
圖5-6 三電平法波形圖
中心消波法得到的波形如下圖:
圖5-7 中心消波法波形圖
5.3 GUI實驗箱操作界面設(shè)計
通過對各個控件的編程和對參數(shù)的設(shè)計,最后得到的GUI實驗箱操作界
面如下圖所示,通過界面上的各個按鈕即可實現(xiàn)相應(yīng)的功能。
圖5-8 GUI實驗箱操作界面
第六章 心得體會
通過本次課程設(shè)計完成了對語音信號的讀取與打開,與課題的要求十分相符;初略的完成了界面的設(shè)計,但也存在相當?shù)牟蛔悖_到了打開語音文件,顯示已定波形。語音信號處理時語音學與數(shù)字信號處理技術(shù)相結(jié)合的交叉學科,將語音當做一種特殊的信號,即一種“復(fù)雜向量”來看待。也就是說,體現(xiàn)了數(shù)字信號處理技術(shù)。
本次課程設(shè)計時希望將數(shù)字信號處理技術(shù)應(yīng)用與某一實際領(lǐng)域,這里就是指對語音的處理。作為存儲與計算機中的語音信號,其本身就是離散化了的向量,我們只需要將這些離散的量提取出來美酒可以對其進行處理了。
本次課設(shè),用到了處理數(shù)字信號的強有力工具MATLAB,通過MATLAB李的幾個命令函數(shù)的調(diào)用,很輕易的在實際化語音與數(shù)字信號的理論之間搭了一座橋。
最后,還利用了MATLAB的另一強大功能——GUI界面設(shè)計。設(shè)計出了一個建議的用戶應(yīng)用界面,可以讓人實現(xiàn)界面操作。
通過本次課程設(shè)計讓我更加了解了語音信號處理在現(xiàn)實中的強大的應(yīng)用空間,同時查閱了很多相關(guān)的資料,應(yīng)用MTALAB軟件來完成,熟練掌握了MATLAB軟件,本次課程設(shè)計要求用GUI設(shè)計模塊,查閱了很多資料,更加深刻的陸奧了了這方面知識。
本次課程設(shè)計,我明白了理論的學習需要在實踐中才能得到鞏固。在課程設(shè)計中,只有動手慢慢研究,才能真正了解MATLAB軟件平臺中可以直接設(shè)計數(shù)字濾波器的各個函數(shù)的調(diào)用,對設(shè)計GUI實驗箱的所有函數(shù)的運用有了比較好的認識。
通過這個課程設(shè)計,我學到了很多MATLAB和語音信號的知識,提高了自己在語音信號設(shè)計方面的知識能力,動手能力和思維能力都得到了一定的提升,希望自己以后可以更多的繼續(xù)學習這一門課程設(shè)計方面的知識。
附 錄
1.源程序代碼:
參考文獻
[1] 劉慶華 陳紫強《基于MATLAB和DSP的語音信號處理課程的建設(shè)》 電氣電子教學學報 2006 10(3):124-128 [2] 張力 《MATLAB在語音信號處理輔助教學中的應(yīng)用》 電氣電子教學學報 2005 27卷2期:96-99 [3] 鄧立新 楊震《信息技術(shù)融入“語音信號處理”課程的教學實踐》電氣電子教學學報 2005 27卷5期:13-16 [4] 胡航,《語音信號處理》 哈爾濱工業(yè)大學出版社 2005年2月,第二版:135-137 [5] 張平,《MATLAB基礎(chǔ)與應(yīng)用》 北京航空航天大學出版社 2007,第二版:85-92 [6] 謝德芳 《數(shù)字信號處理》 北京科學出版社 2005,第一版
[7] 張雄偉 《現(xiàn)代語音處理技術(shù)及應(yīng)用》 機械工業(yè)出版社 2006,第二版 [8] 吳家安 《語音編碼技術(shù)及應(yīng)用》 機械工業(yè)出版社 2006 第一版 [9] 劉幺和 宋庭新 《語音識別與控制應(yīng)用技術(shù)》 科學出版社 2008 第二版
[10] 李昌立 吳善培 《數(shù)字語音編碼實用教程》 人民郵電出版社 2004 第一版
[11] 姚天仁 《數(shù)字語音處理》 華中科技大學出版社 1992 第二版 [12] 朱敏雄 《計算機語音技術(shù)(修訂版)》 北京航空航天大學出版社 2002 第一版
[13] 王炳錫 《語音編碼》 西安電子科技大學出版社 2002 第一版
第三篇:語音信號處理實驗報告要求
實驗一:
1.簡述本次試驗的目的,關(guān)于基音周期的理論;
2.使用相關(guān)法的同學,給出程序的同時要說明所使用語音段的長度(短時平穩(wěn)性),解釋怎樣在matlab中實現(xiàn)三電平削波(for...end循環(huán)和if elseif else end判決的使用)。給出清濁音兩組截取后的語音信號波形圖、三電平削波后的信號圖、自相關(guān)計算后的信號圖。然后根據(jù)自相關(guān)信號圖上最大峰值和次峰值之間的間隔點數(shù),計算出基音周期和基音頻率;
3.使用倒譜法的同學,要解釋分幀后加窗的方法,給出清濁音其中各一幀的語音信號波形圖,和計算后的倒譜圖。并根據(jù)倒譜圖上對應(yīng)基音周期處的峰值的位置,給出基音周期。4.使用簡化逆濾波的同學,要說明切比雪夫2型低通濾波器的使用方法(cheby2、freqz兩個函數(shù)的使用方法、參數(shù)意義),給出低通濾波后的信號波形圖、5倍抽取后的波形圖、自相關(guān)計算后信號波形圖、5倍插值后的信號波形圖,根據(jù)濁音內(nèi)插后的信號圖上最大峰值和次峰值之間的間隔點數(shù)計算基音周期;5.比較所選用的兩種方法的結(jié)果。
實驗二:
1.給出倒譜法的程序,解釋漢明窗寬度的選取要求(書上有簡單解釋),解釋怎樣實現(xiàn)倒譜窗的matlab編程方法和倒譜窗寬度的選取(男女生有一定的差別),給出加窗后的信號波形圖、對數(shù)譜圖、倒譜圖、加窗后的信號頻譜圖,給出三個共振峰的估值。
2.給出LPC譜估計程序,不同LPC階數(shù)時的LPC譜圖,在n=?時,學生自己估計的前三個共振峰的值。
實驗三:
給出錄音的內(nèi)容,判斷結(jié)果。解釋端點檢測的原理、MFCC系數(shù)的說明和DTW算法的簡單原理(參考書上都有比較詳細的解釋)。識別的結(jié)果的表格和識別的結(jié)果正確率(正確的數(shù)目,錯誤的數(shù)目,正確率)。考慮一下識別錯誤的原因(錄音的效果?端點檢測算法的可靠性?DTW算法的可靠性?等)
第四篇:專業(yè)英語7語音信號處理
1、演講的目的是溝通。有幾種方法表征語音通信的潛力。一個高度量化的方法是香農(nóng)信息論思想的引入。根據(jù)信息變換理論,語音可以表示其消息內(nèi)容或信息。語音特征的另一種表征方式是信號承載的消息信息,i.e.(注:i.e.意思是:即,也就是),如聲波。雖然信息論思路在先進的通信系統(tǒng)中發(fā)揮了重要作用,但它是基于波形的語音表示,或一些在實際應(yīng)用中一直是最有用的參數(shù)模型。
2、在考慮語音通信的過程中,開始在大腦中思考消息在揚聲器中的一些抽象的表示形式是有幫助的。雖然產(chǎn)生語音的過程是復(fù)雜的,但該消息中的信息最終被轉(zhuǎn)換成聲學信號。在言語產(chǎn)生的過程中消息的信息可以被認為存在許多不同的表示方式。例如,該消息信息首先被轉(zhuǎn)換成一組能控制發(fā)音機制的神經(jīng)信號(即,運動舌頭,嘴唇,聲帶等)。發(fā)音器官的運動響應(yīng)于這些神經(jīng)信號來完成一系列的手勢,其結(jié)果是在原始消息中包含的信息的音響波形。
3、信息雖然連通但講話本質(zhì)上是一個離散的性質(zhì)的信息,i.e.,即,它可以被有限集合中元素串聯(lián)的符號表示,每一個聲音的符號可以被分類,被稱為音素。每種語言都有它自己的獨特的音素,編號通常在30至50之間。例如英語可以表示為一組約42個編號的音素。
4、信息理論關(guān)注的中心問題是傳達信息的速率。講話的信息率可以通過發(fā)音器官物理上的運動速度粗略估計,人類講話的平均速率每秒約10個音素。如果每個音素表示一個二進制數(shù),那么6位數(shù)字代碼足以代表所有的英語音素,設(shè)平均增長率為每秒10音素,并且忽略任何相鄰音素的組合,我們得到了一個大約60比特/秒的平均信息語速。換句話說,書面講話包含的信息相當于60位/秒正常講話率。當然一個“真正”的語音信息內(nèi)容的下界是大大高于這個速度的,上述估計確實需要考慮一些因素,如說話者的身份和情感狀態(tài),說話的速率,聲音的響度,等。
5、在語音通信系統(tǒng)中,語音信號的傳輸、存儲、和處理有許多方法。技術(shù)問題導(dǎo)致各種表示形式的語音信號的產(chǎn)生。一般來說,有兩個主要的問題存在于任何一個系統(tǒng)中:一是保護消息內(nèi)容的語音信號。另一個是語音信號便于傳輸和存儲的表示形式。或者以一種靈活的形式表示,這樣修改后不會對語音信號所表示的消息內(nèi)容產(chǎn)生嚴重退化的影響。
6、語言信號必須這樣表示,信息內(nèi)容能被聽眾容易的提取,或自動被機器提取。
語音信號的表示形式(而不是消息的內(nèi)容)可能需要從500到1百萬比特每秒以上的提取速度。這些表示形式的設(shè)計和實現(xiàn),信號處理的方法發(fā)揮基礎(chǔ)性作用。
7、一般的信息處理問題可用圖3-22描繪的框圖表示。在語音信號的情況下,說話者就是信源。一般測量或觀察聲波的尺寸。
8、涉及信號處理,首先根據(jù)一個給定的模型獲得信號,利用運用程序?qū)π盘栠M行一些更高層次的變換,以便把該信號轉(zhuǎn)換成一個更方便的形式。在這個過程中的最后一步是報文信息的提取和利用。本步驟可以由人類聽眾或由機器自動進行。例如,一個系統(tǒng),其功能是自動識別揚聲器從一個給定的發(fā)言者發(fā)出的語音信號,該語音信號可能使用一個隨時間變化的頻譜表示。
9、因此,語音信號處理涉及兩個任務(wù)。一,這是語音信號的波形或參數(shù)一般表示形式的獲取手段;二,信號處理在轉(zhuǎn)換的過程中提供函數(shù)幫助,這是信號一般性質(zhì)的替代形式,但更適合特定的應(yīng)用程序。
10、我們將探索數(shù)字技術(shù)在語音信號處理中的作用。數(shù)字信號處理涉及離散信號的獲取與表示,伴隨變換理論,涉及和數(shù)控程序的實施用來處理離散信號的表示。數(shù)字信號的處理目的類似于模擬信號的處理。因此,在語音通信的上下文中單獨挑出數(shù)字信號處理技術(shù)做特別考慮是合理的。可以列舉一些很重要的原因。首先,最重要的大概是一些極其復(fù)雜的信號處理功能可以用數(shù)字技術(shù)來實施的事實。此外,語音信號處理中常用的算法本質(zhì)上是離散時間信號處理系統(tǒng)。它們大多不適合作為近似的模擬系統(tǒng)來觀察,的確在許多情況下沒有可用的模擬實施方案。
11、數(shù)字信號處理技術(shù)在語音處理問題中被首次運用,仿真復(fù)雜的模擬系統(tǒng)。最初的觀點來看,模擬系統(tǒng)可以在計算機上進行模擬,避免為了試驗參數(shù)選擇和其他設(shè)計考慮系統(tǒng)建設(shè)的必要性。數(shù)字仿真模擬系統(tǒng)的首次應(yīng)用,需要大量的處理時間。在1960年代中期,一次數(shù)字信號處理的革命發(fā)生了。主要的主要催化劑是發(fā)展快速的計算機和突飛猛進的數(shù)字信號處理技術(shù)理論。因此,數(shù)字信號處理系統(tǒng)具有的優(yōu)點使得年輕一代有能力來模擬模擬系統(tǒng)的情況變得明朗。目前計算機語音處理系統(tǒng)在實驗室中實現(xiàn),他們作為一個數(shù)字系統(tǒng),可以作為實施特殊用途的數(shù)字硬件或?qū)S玫挠嬎銠C系統(tǒng)進行精確模擬。
12、除理論發(fā)展外,伴隨數(shù)字硬件的發(fā)展數(shù)字處理技術(shù)的優(yōu)點進一步加強以致于超過模擬系統(tǒng)。數(shù)字系統(tǒng)非常可靠和緊湊。集成電路技術(shù)已經(jīng)發(fā)展到可以把極其
復(fù)雜的系統(tǒng)實現(xiàn)在單個芯片上。邏輯運算的速度足以滿足許多信號處理功能所需的巨大數(shù)量的計算,可以實現(xiàn)實時語音采樣率。
13、在語音通信系統(tǒng)中使用數(shù)字技術(shù)有另外的原因。如,如果使用合適的編碼,在非常嘈雜的信道,數(shù)字形式的語音信號能可靠地傳輸。語音信號的數(shù)字形式與其他形式的數(shù)據(jù)的相同。因此,可以使用一個通信網(wǎng)絡(luò)同時傳輸話音和數(shù)據(jù),除解碼外沒有必要區(qū)分它們。在安全方面語音信號的傳輸需要數(shù)字表示,它具有明顯的優(yōu)勢超過了模擬系統(tǒng)。為了保密,對信息比特進行加擾,最終能在接收器解讀。這些和許多其他的原因,數(shù)字技術(shù)正在被越來越多地應(yīng)用于語音通信問題。
14、考慮應(yīng)用數(shù)字信號處理技術(shù)來處理語音通信問題,專注于三個主題它是非常有幫助的:語音信號的數(shù)字表示形式,實施先進的處理技術(shù)和很大程度上依賴于數(shù)字信號處理的應(yīng)用程序類。
第五篇:語音信號處理與識別
信號系統(tǒng)課程設(shè)計報告
歐陽光亮
2012029020025
語音信號處理與識別
目的:理解時域和頻域尺度變換基本概念,掌握信號時頻域分析方法,正確理解采樣定理,準確理解濾波器的概念。內(nèi)容:
(1)使用Matlab中wavrecord命令錄制一段3秒的語音信號,使用wavplay命令播放,錄制命令和播放命令中的采樣頻率設(shè)置成相同和不同兩種情況,對觀察到的現(xiàn)象進行分析并結(jié)合課本中的知識對該現(xiàn)象進行解釋;(2)使用不同的采樣頻率錄制一段3秒的語音信號,畫出信號的時域波形和頻譜;找到語音信號的主要頻譜成分所在的帶寬;觀察并分析不同采樣頻率對波形和頻譜的影響;尋找聲音信號不出現(xiàn)明顯失真的最低采樣頻率;(3)錄制一段男生的語音信號和一段女生的語音信號,對兩段音頻信號進行混合,設(shè)計濾波器將混合的語音信號分開成單獨的男聲和女聲信號,如果分離效果不好,對原因進行解釋。
Matlab命令:wavrecord, wavplay, wavwrite, wavread, save, load, fft, fftshift, filter, plot, subplot, figure.過程:(1)相同:
fs1=16000;
%取樣頻率 fs2=16000;
%播放頻率 duration=5;
%錄音時間
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是總的采樣點數(shù)
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav
不同:
fs1=16000;
%取樣頻率 fs2=8000;
%播放頻率 duration=5;
%錄音時間
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是總的采樣點數(shù)
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');現(xiàn)象:第二次播放時,聲音明顯失真。
理由:采樣頻率和播放頻率不一樣時聲音信號會失真。(2)
fs1=16000;
%取樣頻率 fs2=16000;
%播放頻率 duration=5;
%錄音時間
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是總的采樣點數(shù)
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;
wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');
wav=wavread('E:matlabrecord3.wav');Fs=16000;n=length(wav);f=(0:n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)
采樣頻率為1600010.5y/幅度0-0.5-101234x/t采樣頻率為16000567x 1084600500400y/幅度***400060008000x/f***16000
fs1=8000;
%取樣頻率 fs2=8000;
%播放頻率 duration=5;
%錄音時間
fprintf('Press any key to start %g seconds of recording...n',duration);
pause;
fprintf('Recording...n');
y=wavrecord(duration*fs1,fs1);
%duration*fs 是總的采樣點數(shù)
fprintf('Finished recording.n');
fprintf('Press any key to play the recording...n');
pause;wavplay(y,fs2);wavwrite(y,fs1,'E:matlabrecord3.wav');
wav=wavread('E:matlabrecord3.wav');Fs=8000;n=length(wav);f=(0:n-1)*16000/n;mag=abs(fft(wav));subplot(2,1,1);plot(wav);subplot(2,1,2);plot(f,mag)wavplay(wav,8000)
采樣頻率為8000hz1 0.5y/幅度0-0.5-1 00.511.52x/s采樣頻率為8000hz2.533.5x ***0500y/幅度***00x/hz***16000
由圖可知:語音信號的主要頻譜成分所在的帶寬為(0—1200hz),帶寬為1200hz。
當采樣頻率較小時,頻譜圖上顯示帶寬較大,波形較稀松。
最低采樣頻率應(yīng)為,聲音信號的最高頻率的兩倍,由圖可知為2400hz。(3)女聲:
wav1=wavread('E:matlabrecord1.wav');wav2=wavread('E:matlabrecord2.wav');wav=wav1+wav2;fp1=800;fp2=1500;fp=[fp1,fp2];fr1=650;fr2=1900;fr=[fr1,fr2];Fs=16000;ap=1;as=40;[n,fn]= buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)
混合400300y/幅度***060008000x/頻率女聲***16000400300y/幅度 2001000 ***00f/hz***160000.20.1y/幅度0-0.1-0.201234x/t567x 1084
男聲:
wav1=wavread('E:matlabrecord1.wav');wav2=wavread('E:matlabrecord2.wav');wav=wav1+wav2;fp1=200;fp2=600;fp=[fp1,fp2];fr1=100;fr2=1000;fr=[fr1,fr2];Fs=16000;ap=3;as=40;[n,fn]= buttord(fp/(Fs/2),fr/(Fs/2),ap,as,'z');[b,a]=butter(n,fn);Y1=filter(b,a,wav);Y=fft(Y1);mag=abs(Y);n=length(wav);f=(0:n-1)*16000/n;subplot(3,1,1);mag1=abs(fft(wav));plot(f,mag1)subplot(3,1,2);plot(f,mag);subplot(3,1,3);plot(Y1);wavplay(Y1,16000)
混合頻譜圖200150y/幅度***30004000x/hz男聲頻譜圖***040y/幅度***8000x/hz男聲時域圖***160000.040.02y/幅度0-0.02-0.0401234x/s567x 1084
分離效果不佳,原因:男女聲頻率有很多重疊的地方。