Tải bản đầy đủ - 0 (trang)
1 Biểu diễn tín hiệu tiếng nói

1 Biểu diễn tín hiệu tiếng nói

Tải bản đầy đủ - 0trang

Với x[n] tín hiệu vào, y[n] tín hiệu ra, w[n] hàm cửa số, h[n] thường là đáp ứng xung

của hệ thống ( nếu xét các biến trên trong một hệ thống cụ thể)

Biến đổi fourier trong khoảng thời gian hữu hạn:



Nếu ta có n cố định thì:



Hai biểu thức trên có ý nghĩa chỉ khi Xn(e^jw) là biến đổi fourier của tín hiệu liên tục

bên ngồi cửa sổ w[n] hoặc = 0.

Có các loại cửa số là: chữ nhật,hanning, hamming, tam giác…

Discrete of fourier transform

Do biến đổi discrete time fourier transform là biến đổi từ tín hiệu vơ hạn nhưng trong

thực tế tín hiệu là hữu hạn nên ta phải dùng đến phép biến đổi DFT

Tín hiệu vào x[n] rời rạc hữu hạn



7



Với M>=N và những điểm lớn hơn N đều là khơng ta được tín hiệu trong miền tần số

X[k]

Biến đổi sang miền cepstral

Mục đích nghiên cứu phép nhân chập. ( giúp tìm formant ) tìm các đặc tính của tín

hiệu tiếng nói tạo ra.

Ta có x1*x2= X1.X2=X(z) trong miền Z

Lấy logarithm của X(z) ta được

Ký hiệu các X1,X2,x1,x2 tương tự X(z) mũ phía trên.

Nếu X ˆ (z) là giá trị duy nhất hợp lệ của biến đổi z thì

ta có:

Chuyển trang biến đổi fourier z=e^-jw

Suy ra



Biến đổi fourier ngược ta được:



C[n] chính là biến đổi cepstrum.

Với trường hợp biến đổi fourier là DFT ta thấy:



Ứng dụng vào trong tín hiệu tiếng nói

Mơ hình tín hiệu tiếng nói:

Âm hữu thanh:



Âm vơ thanh:



8



Từ mơ hình ta phân tích phép nhân chập bằng cách nhân cepstrum với một cửa sổ

phù hợp:

Với e D∗ là đặc trưng của hệ thống chuyển đổi sang phép nhân chập.



Hệ thống nhận dạng tiếng nói sử dụng cách biểu diễn tín hiệu như một tập các hệ số

cepstral



2.2



Trích chọn đặc trưng MFCC



2.2.1 Tổng quan về MFCC



Hình 4: Tính 39 MFCC từ tín hiệu vào

Tín hiệu tiếng nói dạng sóng âm được xử lý chuyển thành tín hiệu điện tương

tự, tín hiệu này được chuyển sang dạng tín hiệu số qua hai bước lấy mẫu và lượng

tử hóa (q trình lấy mẫu phải thỏa mãn tiêu chuẩn Nyquist) rồi sau đó được đưa

vào hệ thống nhận dạng tiếng nói.

Trong hệ thống nhận dạng tín hiệu tiếng nói sẽ được phân tích thơng qua

q trình trích chọn đặc trưng để lấy ra các đặc trưng của tiếng nói đưa vào hệ

thống nhận dạng. Ở đây chúng ta sử dụng phương pháp trích chọn đặc trưng MFCC

gồm có các cơng đoạn được biểu diễn trên hình.

Đầu ra của MFCC là 39 đặc trưng, 12 hệ số ceptral (hệ số MFCC),12 deltas ceptral,

12 deltas deltas cepstral, 1 energy, 1 delta energy, 1 delta delta energy

2.2.2 Pre-emphasis

Do cấu trúc đặc biệt của môi trường thanh quản nên mức năng lượng (cường

độ sóng) ở tần số cao suy giảm hơn so với tần số thấp mà ở tần số cao thông tin về

Formant có nhiều giá trị cho acoustic model làm tăng độ chính xác của nhận dạng

phone do đó ta cần làm tăng energy của tín hiệu ở tần số cao, quá trình này được

gọi là preemphasis

Pre-emphasis sử dụng một bộ lọc nhận tín hiệu ở đầu vào và đầu ra là tín

hiệu mong muốn :

Đầu vào: x[n]

Đầu ra: y[n] = x[n] + αx[n-1] với 0,9≤α≤1

H(z) = 1 – αz^-1

9



2.2.3 Cửa sổ hóa

Tín hiệu tiếng nói là non-stationary signal do đó các thuộc tính thống kê

khơng phải là hằng số thay vào đó với giả thuyết tín hiệu là stationary trong một

khoảng thời gian đủ ngắn ta có sẽ có được những đại lượng đặc trưng thống kê coi

như không đổi Do đó ta có thể lấy được những đặc trưng riêng biệt của một

subphone trong một thời gian ngắn.

Để trích được tín hiệu trong khoảng thời gian ngắn ta sử dụng một cửa sổ

nhỏ và tín hiệu được tríc ra bởi cửa sổ này gọi là frame. Trên toàn bộ đoạn tín hiệu

chúng ta sẽ trích thành T frame. Đặc trưc của q trình trích rút này là bộ 3 tham số:

độ rộng frame, hình dạng cửa sổ, frameshift.

Ta sẽ lấy T frame từ tín hiệu, mỗi frame này sẽ có độ ơng trong khoảng 20-40

ms trung bình là 30ms, lấy liên tiếp các frame sao cho frameshift cách nhau chừng

10ms. Ta lấy ra mỗi frame từ tín hiệu bằng cách nhân với các hàm cửa sổ

y[n]=w[n]s[n]

Thông thường sử dụng cửa sổ hamming

2𝜋𝑛

0,54



0,46

cos

(

);0 ≤ 𝑛 ≤ 𝑁 − 1

w[n] = {

𝑁

Với N là số mẫu trong frame



0



Mỗi frame được đặc trưng bởi một bộ thông số và bộ thông số này chính là một

quan sát đầu vào ot của HMM



Hình 5: quá trình nhân với hàm cửa sổ

10



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

1 Biểu diễn tín hiệu tiếng nói

Tải bản đầy đủ ngay(0 tr)

×