Presentation is loading. Please wait.

Presentation is loading. Please wait.

VI. Brief Introduction for Acoustics

Similar presentations


Presentation on theme: "VI. Brief Introduction for Acoustics"— Presentation transcript:

1 VI. Brief Introduction for Acoustics
[參考資料] 王小川, “語音訊號處理”,全華出版,台北,民國94年。 T. F. Quatieri, Discrete-Time Speech Signal Processing: Principle and Practice, Pearson Education Taiwan, Taipei, 2005.  L. R. Rabiner and R. W. Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978.  張智星教授 網頁  P. Filippi, Acoustics : Basic Physics, Theory, and Methods, Academic Press, San Diego, 1999.

2  6-A 聲音的相關常識 197 人耳可以辨識頻率:20Hz ~ 20000Hz 說話:150~2000Hz
> 20000Hz: 超音波 (ultrasound) < 20Hz: 次聲波 (infrasound) 波長較長 -> 傳播距離較遠,但容易散射 波長較短 -> 衰減較快,但傳播方向較接近直線

3 198  一般聲音檔格式: (1) 取樣頻率 22050Hz (2) 單聲道或雙聲道 (3) 每筆資料用8個bit來表示  電腦中沒有經過任何壓縮的聲音檔: *.wav Q: What is the data size of a song without compression?  數位電話取樣頻率:8000Hz

4 聲音在空氣中傳播速度 : 每秒 340 公尺 (15°C 時)
所以,人類對3000Hz 左右頻率的聲音最敏感 (一般人,耳翼到鼓膜之間的距離: 2.7公分) 附: (1) 每增加 1°C,聲音的速度增加 0.6 m/sec (2) 聲音在水中的傳播速度是 1500 m/sec 在鋁棒中的傳播速度是 5000 m/sec

5 200 20000Hz 5000Hz 1000Hz 200Hz annoyance curve lower bound for hearing 20Hz 0dB 80dB 110dB

6  dB: 分貝 10log10A 每增加 10dB,音強增加10倍;每增加3dB ,音強增加2倍; 所幸,內耳的振動不會正比於聲壓  人對於頻率的分辨能力,是由頻率的「比」決定 對人類而言,300Hz 和 400 Hz 之間的差別,與 3000Hz 和 4000 Hz 之間的差別是相同的

7  6-B Music Signal 202 電子琴 Do 的頻率:低音 Do: 131.32 Hz 中音 Do: 261.63 Hz
音樂每增加八度音,頻率變為 2 倍 每一音階有12個半音 增加一個半音,頻率增加 21/12 倍 ( 倍) Do 升Do Re 升Re Mi Fa 升Fa So 升So La 升La Si Hz 262 277 294 311 330 349 370 392 415 440 466 494

8 203 音樂通常會出現「和弦」(chord) 的現象 除了基頻 f0 Hz 之外,也會出現 2f0 Hz, 3f0 Hz, 4f0 Hz , ….. 的頻率 frequency (Hz)

9 204 為什麼會產生和弦? 因為聲音信號是一個 periodic signal,但是不一定是 sinusoid A non-sinusoid signal with the period of 1/330 seconds can be expressed as:

10  6-C 語 音 處 理 的 工 作 205 (1) 語音編碼 (Speech Coding)
(2) 語音合成 (Speech Synthesis) (3) 語音增強 (Speech Enhancement) 前三項目前基本上已經成功 (4) 語音辨認 (Speech Recognition) 音素  音節  詞  句  整段話 (5) 說話人辦認 (Speaker Recognition) (6) 其他:語意,語言,情緒  人耳可以辨識頻率:20Hz ~ 20000Hz 一般人,耳翼到鼓膜之間的距離: 2.7公分 共振:1/4波長

11  6-D 語音的辨認 206 音素  音節  詞  句  整段話 音素:相當於一個音標 (1) Spectrum Analysis
Time-Frequency Analysis (2) Cepstrum (3) Correlation for Words

12 ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
 6-E 子音和母音 ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 母音: ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ ㄧ ㄨ ㄩ 單母音: a, e, i, o, u ㄚ ㄛ ㄜ ㄝ ㄦ ㄧ ㄨ ㄩ 雙母音:ㄞ ㄟ ㄠ ㄡ 母音 + 濁音:ㄢ ㄣ ㄤ ㄥ 子音: ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ

13 漢語拚音 b p m f d t n l g k h j q x 通用拚音 c s 漢語拚音 zh ch sh r z c s a o e ai ei ao 通用拚音 jh 漢語拚音 ou an en ang eng er i, y u, w yu, iu 通用拚音

14 母 音: 依唇型而定 子 音: 在口腔,鼻腔中某些部位將氣流暫時堵住後放開 在頻譜上: 子音的能量小,頻率偏高,時間較短,出現在母音前 母音的能量大,頻率偏低,時間較長,出現在子音後或獨立出現

15

16

17 發音模型 (線性非時變近似) X(z) = R(z)H(z)G(z)Ep(z) R(z) :嘴唇模型, H(z): 口腔模型, G(z):聲帶模型 Ep(z):輸入(假設為週期脈衝)

18  分析一個聲音信號的頻譜: 用Windowed Discrete-Time Fourier Transform 或稱作 Short-Time Discrete Fourier Transform  Discrete-time Fourier transform Windowed discrete-time Fourier transform 強調 n = m 附近的區域

19 典型的聲音頻譜: 頻譜上,大部分的地方都不等於0。 出現幾個 peaks 值 可以依據 peaks 的位置來辨別母音 G(m, f) f F1 F2 F3 F4

20 母音 peaks 處的頻率 (Hz): 原則上: (1) 嘴唇的大小,決定F1 (2) 舌面的高低,決定 F2  F1 男聲 女聲 F1 F2 F3 900 1200 2900 1100 1350 3100 560 800 3000 730 3200 1090 790 1250 500 2100 600 2400 3300 310 2300 360 3500 370 540 3400 460 820 3700 300 350 2600 580 1500 760 1700

21  雙母音: ㄞ (ai), ㄟ (ei), ㄠ (ao), ㄡ (ou) 頻譜隨時間而改變,一開使始像第一個母音,後變得像另一個母音 ㄞ 的頻譜 的 peaks位置 900 310 Time F3 2900 F2 1200 F1

22  6-F 語意學的角色 以「語意學」或「機率」來補足語音辨識的不足 例如:經過判定,一個聲音可能是 ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ
ㄅㄧ ㄖㄢ ㄆㄧ ㄖㄢ ㄅㄧ ㄌㄢ ㄆㄧ ㄌㄢ 這個聲音是「必然」的機率比較大。 ㄅㄛ ㄅㄛ ㄆㄛ ㄆㄛ 可能是「伯伯」,也可能是「婆婆」,看上下文  儲存詞庫  當前主流的語音辨識技術: Mel-Frequency Cepstrum + 語意分析 + Machine Learning (人工智慧的一種)

23 附錄七:論文英文常見的文法錯誤 (1) *** transform, *** equation, *** method, *** algorithm 在論文當中,當成是可數名詞,而非專有名詞 (除非是所有格的形態)。 可數名詞單數時,前面要要冠詞 (a 或 the) Fourier transform is important for signal processing. (錯誤) The Fourier transform is important for signal processing. (正確) A Fourier transform is important for signal processing. (正確) Fourier transforms are important for signal processing. (正確) I have written the Matlab program of Parks-McClellan algorithm (錯誤) I have written the Matlab program of the Parks-McClellan algorithm (正確) (2) 若是所有格的形態,不必加冠詞 I have written the Matlab program of the Parks-McClellan’s algorithm (錯誤) I have written the Matlab program of Parks-McClellan’s algorithm (正確)

24 (3) 論文視同正式的文件,對 not, is, are 不用縮寫
they’re (錯誤) they are (正確) he’s (錯誤) he is (正確) aren’t (錯誤) are not (正確) don’t (錯誤) do not (正確) can’t (錯誤) cannot (正確) (4) Suppose, assume 後面要加關係代名詞 Suppose x is a large number. (錯誤) Suppose that x is a large number. (正確) (5) 每一個子句都有一個動詞,而且只有一個動詞

25 (6) In this paper, in this section, in this chapter 開頭的句子,應該用現在式,而非未來式
In this paper, the fast algorithm of DCT will be introduced. (錯誤) In this paper, , the fast algorithm of DCT is introduced. (正確) (7) 在 conclusion 當中回顧文章一內容,用過去式 (8) 敘述所引用的論文的內容,用過去式 In [10], the number theoretic transform was proposed. (9) time domain, frequency domain 前面也加冠詞 in time domain (錯誤) in the time domain (正確) (10) 不以 “this paper”, “section *”, “Ref. [*]” 當主詞用 This paper describes several concepts. (錯誤) In this paper, several concepts are described. (正確) Ref. [1] proposed the method. (錯誤) In Ref. [1], Parks and McClellan proposed the method. (正確)

26 (11) 提及某個 equation 時,直接括號加數字即可
  in equation (3) (錯誤) in (3) (正確)  提及某個 section, table, or figure 時,前面不加冠詞,而且常用大寫 in the section 4 (錯誤) in Section 4 (正確) in the table 5 (錯誤) in Table 4 (正確) (12) 寫科技論文不是寫文學作品,不要用高明、漂亮、但沒有保握的文法。  儘量用簡單而有把握的文法。 (13) 科技論文英文講求「長話短說」,儘量用精簡的文字來表達意思 (14) 用字儘量避免重覆

27 F = ma. (15) Equations 也當成是文章的一部分,所以通常也要加標點符號
The formula of Newton’s 2nd law is F = ma. 要加標點符號 (16) 解釋 parameters 和 symbols 時,用 where 當關係代名詞 x = 10t where x is the location of the object and t is time. (17) 很重要的論文,投稿至國際學術期刊,又對自己的英文文法沒有十足的把握時 可以用網路上的論文編修服務,來修改文法上的錯誤 例如 editage,李國鼎科技發展基金會,柯泰德,牛津學社,華樂絲,艾思特等等……. 本系以及台大語言中心也經常有英文論文寫作相關的訓練課程,有志將來在學術界奮鬥的同學,可以多參與相關的課程


Download ppt "VI. Brief Introduction for Acoustics"

Similar presentations


Ads by Google