Tải bản đầy đủ - 0 (trang)
Chương 1: Tổng quan về nhận dạng tiếng nói

Chương 1: Tổng quan về nhận dạng tiếng nói

Tải bản đầy đủ - 0trang

+) Với : G(z): bộ phận nguồn tạo tiếng nói (Pharynx, soft plate,Larynx..)

V(z): tuyến âm (Miệng)

R(z): Tán xạ môi trường truyền

Mơ hình tồn điểm cực AR: T(z)=G(z)*V(z)*R(z) = α/A(z)

2𝐾+1

A(z) = 1 + ∑𝑖=0 𝑎𝑖 ∗ 𝑧 −𝑖

Xử lý tiếng nói

Xử lý tiếng nói là nghiên cứu tiếng nói của con người dưới dạng tín hiệu và

các phương pháp xử lý những tín hiệu này

Các phần của xử lý tiếng nói:

+ Nhận dạng tiếng nói (speech recognition): mục đích phân tích và xử lý

tiếng nói dưới dạng tín hiệu chuyển nội dung thành đầu vào máy tính một

cách có ngữ nghĩa.

+ Nhận dạng người nói (speaker recognition)

+Tăng chất lượng tiếng nói.

+ Mã hóa tiếng nói: mã hóa dữ liệu tiếng nói (sau khi tiếng nói đã được lấy

mẫu và lượng tử hóa) giúp truyền tiếng nói trong q trình truyền tin ( để nén

dữ liệu, chống nhiễu, sửa sai…)

+ Tổng hợp tiếng nói: tạo ra tiếng nói một cách nhân tạo

+ Phân tích giọng nói

+ Định vị nguồn âm

1.2



1.3

Nhận dạng tiếng nói

1.3.1 Lịch sử của nhận dạng tiếng nói

Lịch sử của nhận dạng tiếng nói đã trải qua năm thế hệ:

Thế hệ 1: Bắt đầu từ năm 30-50 thế kỷ trước sử dụng phương thức ad hoc (trong

mạng máy tính????) nhận dạng âm, bộ từ với số lượng nhỏ.

Thế hệ 2: năm 50-60 sử dụng phương thức acoustic-phonetic để nhận dạng âm vị

(phonemes) , âm tiết, từ vựng, số.

Thế hệ 3: từ năm 60-80 sử dụng phương pháp nhận dạng mẫu để nhận dạng ,

lượng tử hóa các vecter (thương theo 8bit, 16bit) để giảm dung lượng. nhận dạng

các bộ từ vựng vừa và nhỏ.

Thế hệ 4: từ những năm 80- 2000: sử dụng phương pháp thống kê với mơ hình

markov ẩn (hidden markov model) mơ phỏng tính chất thống kê của tín hiệu tiếng

nói, và một số phương pháp khác …

Thế hệ 5: hiện nay đang phát triển sử dụng các giải pháp xử lý song song để tang

độ tin cậy, kết hợp các phương pháp acousticphonetic và HMM để phát hiện, sửa

chữa ngoại lệ ngơn ngữ.

1.3.2 Tình hình phát triển nhận dạng tiếng nói

Các phương thức được sử dụng phổ biến:

Hidden markov model:

Dynamic time warping

Neural network

Deep neural network

Ứng dụng

Trong các hệ thống thông minh sử dụng điều khiển giọng nói

4



Trong quân sự

Trong y tê: kiểm tra tổn thương thanh quản…

Trong công nghệ thông tin: trợ lý ảo ….

Trong giáo dục: giúp xây dựng phần mềm học ngôn ngữ

1.3.3 Nhập dạng tiếng nó tự động ASR

Giao tiếp ngơn ngữ nói giữa người và máy:



Hình 2: Mơ hình giao tiếp tiếng nói người và máy

Tiếng nói của con người được đưa vào máy thơng qua q trình nhận

dạng(recognition) và chuyển thành các đoạn văn bản, từ những đoạn văn bản máy

học cách hiểu nghĩa và tạo thành tiếng nói từ văn bản đó thơng qua q trình tổng

hợp tiếng nói (synthesis)

Kiến trúc của nhận dạng tiếng nói tự động automatic speech recognition



Hình 3: Kiến trúc ASR

ARS chuyển đổi từ tín hiệu tiếng nói thành từ hoặc câu có nghĩa.

- Hệ thống nhận dạng tiếng nói liên tục chia tiếng nói liên tục thành các

lớp nhận dạng với mục đích ghi chép

5



-



-



 Lớp ghi chép có mục tiêu nhận dạng từ

 Lớp hiểu có mục tiêu hiểu nghĩa các câu

Q trình hoạt động của ARS

 Quá trình nhận dạng : các vector đặc trưng được đem ra so

sánh với các mẫu tham khảo sau đó hệ thống tính tốn độ

tương đồng (dùng likelihood) của các vector đặc trưng với mẫu

tham khảo.(thuật toán Viterbi) vector nào có độ tương đồng cao

nhất chính là vector kết quả nhận dạng (vector này thường là

đặc trưng của một phone)

 Quá trình huấn luyện: xây dựng các vector đặc trưng sau đó sử

dụng các vector đó là tham số đầu vào để thực hiện nhận dạng.

các vector đặc trưng được đưa vào hệ thống để ước lượng

tham số của mẫu tham khảo, mẫu tham khảo mô phỏng một từ

đơn âm hoặc 1 đơn vị tiếng nói (phonetic)

Phương pháp để trích trọn đặc trưng phổ biến là mạch lọc mel kết hợp

với biến đổi phổ mel sang miền cepstral (MFFC)



Chương 2: Xử lý tín hiệu tiếng nói

2.1



Biểu diễn tín hiệu tiếng nói



Tín hiệu tiếng nói trong miền thời gian liên tục rất khó để máy tính và các thiết

bị điện tử có thể sử dụng vậy nên ta phải rời rạc hóa nó bằng cách lấy mẫu và

lượng tử hóa nó lúc đó máy tính mới có thể xử lý được. Nhưng để khảo sát trong

miền thời gian việc kháo sát và xử lý là rất khó khan do đó phải sử dụng them khách

miền khác. Ta sẽ xem sé việc chuyển đổi sang hai miền là miền tần số và miến

cepstral.

Biến đổi sang miền tần số:

Discrete time fourier transform

Tín hiệu vào x[n]



Mặc dù x[n] rời rạc nhưng X(e^jw) là liên tục và tuần hoàn trên miền phổ

Phép nhân chập:



Nhân chập với hàm cửa sổ w[n]:

6



Với x[n] tín hiệu vào, y[n] tín hiệu ra, w[n] hàm cửa số, h[n] thường là đáp ứng xung

của hệ thống ( nếu xét các biến trên trong một hệ thống cụ thể)

Biến đổi fourier trong khoảng thời gian hữu hạn:



Nếu ta có n cố định thì:



Hai biểu thức trên có ý nghĩa chỉ khi Xn(e^jw) là biến đổi fourier của tín hiệu liên tục

bên ngồi cửa sổ w[n] hoặc = 0.

Có các loại cửa số là: chữ nhật,hanning, hamming, tam giác…

Discrete of fourier transform

Do biến đổi discrete time fourier transform là biến đổi từ tín hiệu vơ hạn nhưng trong

thực tế tín hiệu là hữu hạn nên ta phải dùng đến phép biến đổi DFT

Tín hiệu vào x[n] rời rạc hữu hạn



7



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Chương 1: Tổng quan về nhận dạng tiếng nói

Tải bản đầy đủ ngay(0 tr)

×