Tải bản đầy đủ
Hình 2.2: Mô tả không gian màu HSV

Hình 2.2: Mô tả không gian màu HSV

Tải bản đầy đủ

22

như “thuộc tính của cảm giác trực quan theo đó một vùng xuất hiện để phát ra nhiều
hoặc ít ánh sáng”. Khi độ bão hoà được đặt đến 0, Hue không được xác định. Trục giá
trị biểu diễn ảnh cấp xám.
Không gian màu HSV có thể được lượng hoá dễ dàng, hue là đặc điểm quan
trọng nhất của màu, thành phần này nhận được lượng hoá tốt nhất. Trong vòng tròn
hue, các màu chính đỏ, xanh lục, và xanh lơ được tách bởi 1200 . Các màu phụ, yellow,
magenta, và cyan, cũng được tách bởi 1200 và 600 cách xa hai màu chính gần nhất.
Lượng hoá màu chung nhất của không gian màu HSV thành 162 bin, ở đây hue
nhận 18 bin và độ bão hoà và giá trị nhận 3 bin. Khi hue được chia ra thành 18 bin, mỗi
màu chính và màu phụ được biểu diễn bởi ba phần nhỏ.

2.1.3.3. Không gian màu CMY
Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ
màu trắng thay vì thêm vào từ màu đen như hệ thống màu RGB. CMY là viết tắt của
Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính
tương ứng với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp
thu màu xanh lục, Yellow hấp thu màu xanh dương. Do đó, tạo ra sự phản ánh tương
ứng như khi in ảnh được chiếu sáng với ánh sáng trắng. Hệ thống dưới dạng âm tính vì
mã hóa theo dạng hấp thụ màu. Có một số mã hóa như sau trắng (0,0,0) vì không có
ánh sáng trắng được hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng
đều được hấp thụ.
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB.
Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm
của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà
con người cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh dựa vào
nội dung.

2.1.3.4. Các không gian màu YUV và YIQ
Các không gian màu YUV và YIQ được phát triển cho truyền hình vô tuyến.
Không gian màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một

23

mặt phẳng quay 330 của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel
và là kênh duy nhất được sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho
YIQ là các thành phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299),
G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận
thức. Khi các không gian màu YUV và UIQ được lượng tử hoá, mỗi trục được lượng
tử hoá với cùng độ chính xác.

2.1.3.5. Các không gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ.
Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của
R(0:212671), G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không
gian màu XYZ là không đồng nhất nhận thức. Trong lượng tử hoá không gian màu
XYZ, mỗi trục được lượng tử hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là
đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh
U và V là các thành phần màu. Vậy, khi U, và V được đặt bằng 0, kênh L biểu diễn
một ảnh cấp xám.
Trong lượng tử hoá không gian LUV, mỗi trục được lượng tử hoá với cùng độ
chính xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng tử hoá thường
được sử dụng 8 (23), 27 (33), 64 (43), 125 (53) bin.

2.1.3.6. Hệ thống màu L*a*b
Mô hình L*a*b được đề cử bởi CIE cho việc lượng hóa sự khác biệt của màu
sắc trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi
được ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng. Đây là hệ
thống màu có sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng có khả năng lớn
cho việc tìm kiếm dựa vào nội dung.

2.1.4. Lượng tử hóa màu và lược đồ màu


Lượng tử hoá màu

24

Lượng tử hóa màu là quá trình làm giảm số màu sắc được sử dụng để mô tả
ảnh. Việc lượng tử hóa màu trong không gian màu RGB được thực hiện bằng cách
chia khối hình lập phương lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện
cho một màu đơn. Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục
Red, Green, Blue mỗi trục thành 4 phần nhỏ và tất cả các màu sắc được xác định
trong một hình khối nhỏ sẽ đại diện cho một màu đơn.
Với hệ thống máy tính hiện thời thì không gian RGB thường thể hiện bởi hệ
thống màu thực 24 bit. Trong hệ thống màu 24 bit thì mỗi màu được xác định bằng 3
3
số nguyên:{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 – 2 như
24

vậy nó cho ta khoảng 16.777.216 màu (2 ). Bởi vì quá trình lượng tử hóa không
gian màu RGB tương tự như quá trình làm giảm số màu nên có thể xác định số màu
3

trong không gian màu một cách đơn giản là giảm số màu từ 24 bit màu xuống còn n
màu như sau:

3

Khi giảm một màu {R, G ,B} 24 bit màu thành màu mới {R’, G’ ,B’} với n .
Màu ta đặt:

R' =

n*R
28

G' =

n*G
28

B' =

n*B
28

Vậy, sau khi giảm số màu sẽ có n*n*n=n3 màu.


Lược đồ màu
Lược đồ màu như là một bảng tóm tắt thông tin về màu sắc cho một ảnh màu

bất kỳ. Việc tính lược đồ màu này được tiến hành một cách rất nhanh chóng trong ảnh
mà chỉ qua một lần duyệt qua toàn bộ ảnh. Do đó ứng dụng vào việc tìm kiếm ảnh sẽ
có lợi rất lớn về mặt tốc độ. Một số tính chất cần quan tâm của lược đồ màu đối với
vấn đề truy tìm ảnh:
- Việc tính lược đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một
lần duyệt qua toàn bộ ảnh.

25

- Lược đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là sự
kéo nhỏ, kéo giãn, thay đổi kích thước của ảnh.
- Lược đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho
việc truy tìm ảnh hay nhận dạng đối tượng trong ảnh.

2.1.4.1. Lược đồ màu RGB
Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác
suất của các pixel trong ảnh. Một lược đồ màu H của một ảnh đã cho được xác định bởi
véc tơ:
H={H[0], H[1], H[2], ..., H[i],... H[N],},
Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con
trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh, và N là số các bin
trong lược đồ màu. Mỗi pixel trong ảnh sẽ thuộc về một bin của lược đồ màu của ảnh,
vì thế với lược đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để so
sánh các ảnh có các kích cỡ khác nhau, các lược đồ màu được chuẩn hóa. Lược đồ màu
chuẩn hóa H’ được xác định bằng:
H’={H’[0], H’[1], H’[2], ..., H’[i],... H’[N],},
Ở đây H'[i] =

H[i]
, p là tổng số các pixel trong ảnh.
p

Trong lược đồ lượng hóa không gian màu lý tưởng, các màu riêng biệt không
được định vị trong cùng hình khối con và các màu tương tự được gán vào cùng hình
khối con. Sử dụng một số màu sẽ giảm khả năng các màu tương tự được gán vào các
bin khác nhau, nhưng cũng tăng khả năng các màu riêng biệt được gán vào cùng các
bin, nội dung thông tin của các ảnh sẽ giảm. Mặt khác, các lược đồ màu với một số
lượng lớn các bin sẽ chứa nhiều thông tin về nội dung của ảnh, theo đó giảm khả năng
các màu riêng biệt sẽ được gán vào cùng các bin. Tuy nhiên, chúng tăng khả năng các
màu tương tự sẽ được gán vào các bin khác nhau và tăng không gian lưu trữ biểu diễn
ảnh, thời gian tính toán khoảng cách giữa các lược đồ màu. Do đó, cần có sự thỏa hiệp
trong việc xác định số lượng các bin sẽ được sử dụng trong các lược đồ màu.

26

2.1.4.2. Lược đồ màu HSI
Mô hình màu HSI có những ưu điểm lớn cho việc tìm kiếm hình ảnh dựa vào
nội dung và nhất là trong công việc tìm kiếm dựa vào màu sắc. Nhưng những ảnh màu
thông thường được lưu trữ ở dạng kỹ thuật số trong máy tính thường theo chuẩn RGB,
do đó để có được ảnh màu HSI ta phải qua công đoạn chuyển đổi. Chuyển từ hệ màu
RGB sang hệ màu HSI là một thuật giải có rất nhiều trong hầu hết những sách về xử lý
ảnh cổ điển.
Thuật toán chuyển đổi từ RGB sang HIS
Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng [0,1] hay [0,255]
I : Giá trị xuất của cường độ intensity [0,1]
S : Giá trị xuất của độ bảo hòa saturation [0,1]
H : Giá trị xuất của màu sắc hue [0,2Π]
R, G, B, H, I, S: Tất cả đều là những giá trị số thực.
Procedure RGB_to_HSI(in R,G,B; out H,S,I)
{
I:=Max(R,G,B);
Min:=Min(R,G,B);
If (I>=0) then
S:=(I-Min)/I;
Else S:=0;
If (S<=0) then
{
H:=-1;
Return;
}
Diff:= I-Min;
If (R=I) then H:=(Π/3)*(G-R) /Diff;
Else if (G=I) then H:=(2*Π/3)+Π/3*(B-R)/diff;
Else if (B=I) then H:=(4*Π/3)+Π/3*(R-G)/diff;
If (H<=0) H:=H+Π/2;
}
Theo các phương pháp truyền thống, việc tạo lược đồ màu chỉ đơn giản bằng
cách chia không gian màu thành những ngăn riêng biệt, sau đó đếm những pixel có
màu sắc phù hợp trong những ngăn này. Cách làm này rất đơn giản, nhưng không phù
hợp cho việc so sánh, tìm kiếm ảnh. Vì những thay đổi nhỏ về điều kiện chiếu sáng, sự

27

thay đổi về cường độ có thể gây nên những thay đổi lớn trong lược đồ màu. Do đó, hai
ảnh rất giống nhau về màu sắc có thể có lược đồ màu hoàn toàn khác nhau.
Ví dụ: không gian màu HSI, thành phần màu trong nhiều trường hợp mang giá
trị nhưng không thể hiện được màu sắc trong hiển thị. Khi giá trị cường độ màu nằm
trong khoảng 0 - 0.2, màu mang bất kỳ giá trị nào thì màu mà mắt người nhìn thấy vẫn
là màu đen. Vì vậy đối với các cách tính lược đồ màu thông thường, điểm ảnh A có
màu bằng 2π, cường độ màu bằng 0.1 và điểm ảnh B có màu bằng π, cường độ màu
bằng 0.1 sẽ nằm trong những bin khác nhau. Nhưng thật ra, điểm ảnh A và điểm ảnh B
đều có giá trị hiển thị là màu đen.

2.1.4.3. Lược đồ HSI cải tiến
Một phương pháp được đề xuất để giải quyết cho trường hợp trên là ta dựa vào
cường độ màu để lọc trước những giá trị mà màu không thể biểu thị được. Sau đó dùng
độ bão hòa để lọc những giá trị có sắc màu xám. Phần còn lại của không gian màu ta sẽ
chia đều mỗi thành phần thành những khoảng nhất định có sự tương đồng về màu sắc.
Để giá trị của lược đồ màu HSI được tính một cách phù hợp nhất đối với việc
tìm kiếm, chúng ta cần chia nhỏ không gian 24 bit màu, tương ứng với 224 màu, xuống
một con số có thể chấp nhận được. Một con số được đề nghị là 5 giá trị mức xám, 162
cho giá trị sắc màu, tổng cộng là ta chỉ cần lưu trữ 167 bin màu.

28

Hình 2.3: Lược đồ màu HIS cải tiến.

2.1.5. Đo khoảng cách giữa các lược đồ màu
Bước tiếp theo của quá trình tra cứu dữ liệu ảnh dựa vào nội dung là xác định độ
trùng khớp của hai lược đồ màu vừa tính được ở bước trên. Do đó, phát sinh ra một giá
trị để biểu thị cho sự trùng khớp và có nhiều cách để tính giá trị này. Ta gọi những giá
trị được tính từ những cách khác nhau này là các loại độ đo màu. Một cách đơn giản,
độ đo màu được coi là một giá trị để biểu thị cho độ so khớp sự trùng khớp của hai
lược đồ màu. Tùy theo từng trường hợp, từng loại độ đo màu giá trị này có thể âm hoặc
dương, lớn hoặc nhỏ tương ứng với mức độ giống nhau như thế nào của các loại lược
đồ màu. Mỗi loại độ đo màu có những ưu và khuyết điểm riêng, trong từng trường hợp
cụ thể.

2.1.5.1 Khoảng cách dạng Minkowski
Độ đo này chỉ so sánh các bin giống nhau giữa các lược đồ màu (xem hình 2.4)
được xác định:
N

d (Q, I ) = ∑H Q [i ] − H I [i ]

r

(2-1)

i =1

Ở đây Q và I là hai ảnh, N là số các bin trong lược đồ màu, H Q [i ] là giá trị của
bin i trong lược đồ màu H Q , và H I [i] là giá trị của bin i trong lược đồ màu H I [4].

29

Hình 2.4: Khoảng cách dạng Minkowski.

2.1.5.2. Khoảng cách dạng toàn phương
Độ đo này không chỉ so sánh các bin giống nhau mà so sánh nhiều bin giữa các
lược đồ màu (xem hình 2.5) và được xác định:

d (Q, I ) = ( H Q − H I ) t A( H Q − H I )

(2-2)

Ở đây, Q và I là hai ảnh, H Q là lược đồ màu của ảnh Q, H I là lược đồ màu của ảnh
I, A = [ a i , j ] là ma trận N x N, N là số các bin trong lược đồ màu và ai , j biểu thị sự
tương tự giữa màu i và màu j.

Hình 2.5: Khoảng cách dạng toàn phương.

30

2.1.5.3. Khoảng cách Non-Histogram
Cách tiếp cận mô men màu khắc phục hiệu ứng lượng tử hóa của lược đồ màu.
Trong cách tiếp cận này, các đặc trưng phân bố màu của các ảnh được biểu diễn bởi
các đặc trưng trội của chúng là trung bình, phương sai, độ lệch. Mô men thứ nhất là
màu trung bình của ảnh, mô men thứ hai là độ lệch chuẩn của mỗi kênh màu và mô
men thứ ba là căn bậc ba của mỗi kênh màu. Chúng được xác định bằng:

1 F
Ei = ∑Pij
F j =1
1 F
σi = ( ∑( Pij − Ei ) 2 )1/ 2
F j =1

1
si = (
F
Ở đây

F

(2-3)
(2-4)

∑ (P − E ) )

3 1/ 3

ij

j =1

(2-5)

i

Pij là giá trị của kênh màu thứ i tại pixel ảnh thứ j,

Ei là màu trung bình

của kênh màu thứ i, σ i là độ lệch chuẩn của kênh màu thứ i, si là căn bậc ba của kênh
màu thứ i, và F là tổng số các pixel. Nếu Q và I là hai ảnh, và các đặc trưng màu của
chúng được biểu diễn bởi các kênh màu r, thì sự tương tự giữa hai ảnh này được xác
định:
r

d (Q, I ) = ∑(W
i =1

EiQ − EiI +Wi 2 σ iQ −σ iI +Wi 3 siQ − siI )

(2-6)

i1

Ở đây Wi1 , Wi 2 và Wi3 là các trọng số được chỉ ra bởi người sử dụng.

2.1.5.4. Độ đo khoảng cách Min-Max
Được thực hiện dựa trên ý tưởng lấy phần giao của của hai lược đồ cần so sánh,
ta sẽ được một lược đồ, tính tổng các giá trị có được từ lược đồ này cho ta được độ đo
min-max.
 Đối với độ đo min: ta tính dựa vào giá trị min tại mỗi K bin.
k

Intersection( h(I), h(M) ) =

∑min{h( I )[ j ], h( M )[ j ]}
j −1

 Đối với độ đo max: ta tính dựa vào giá trị max tại mỗi K bin.

(2-7)

31

k

Intersection( h(I), h(M) ) =

∑max{h( I )[ j ], h( M )[ j ]}

(2-8)

Inter sec tion(h( I ), h( M )
max (∑i h( I ), ∑i h( M )[i ]

(2-9)

j −1

Matching ( h(I), h(M)) =

2.2. Tra cứu ảnh dựa vào hình dạng
2.2.1. Khái niệm về hình dạng
Một đặc trưng quan trọng khác trong tra cứu ảnh theo nội dung đó là đặc trưng
về hình dạng. Hình dạng có khuynh hướng chỉ định tới một khu vực đặc biệt của ảnh.
Hay hình dạng chỉ là biên của đối tượng nào đó trong ảnh.
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng
trong nhiều hệ thống tra cứu ảnh dựa vào nội dung. Các đặc trưng hình dạng thường
được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Do
phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng
cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng
hoặc các vùng đã sẵn có. Các phương pháp state-of-art cho mô tả hình có thể được
phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa
vào vùng. Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch
chuyển, quay và tỷ lệ.

2.2.2. Đặc điểm hình dạng với việc tìm kiếm ảnh
Hình dạng là một cấp cao hơn màu sắc và vân. Nó đòi hỏi sự phân biệt giữa các
vùng để tiến hành xử lý về độ đo của hình dạng. Trong nhiều trường hợp, sự phân biệt
này cần thiết phải làm bằng tay. Nhưng sự tự động hóa trong một số trường hợp có thể
khả thi. Trong đó, vấn đề chính yếu nhất là quá trình phân đoạn ảnh. Nếu quá trình
phân đoạn ảnh được làm một cách chính xác, rõ ràng và nhất là hiệu quả thì sự tìm
kiếm thông tin dựa vào hình dạng có thể có hiệu lực rất lớn. Nhận dạng ảnh hai chiều
là một khía cạnh quan trọng của quá trình phân tích ảnh. Tính chất hình dạng toàn cục
ám chỉ đến hình dạng ảnh ở mức toàn cục. Hai hình dạng có thể được so sánh với nhau

32

theo tính chất toàn cục bởi những phương pháp nhận dạng theo hoa văn, mẫu vẽ. Sự so
khớp hình dạng ảnh cũng có thể dùng những kỹ thuật về cấu trúc, trong đó một ảnh
được mô tả bởi những thành phần chính của nó và quan hệ không gian của chúng. Vì
sự hiển thị ảnh là một quá trình liên quan đến đồ thị, do đó những phương pháp so
khớp về đồ thị có thể được dùng cho việc so sánh hay so khớp. Sự so khớp về đồ thị rất
chính xác, vì nó dựa trên những quan hệ không gian hầu như bất biến trong toàn thể
các phép biến đổi hai chiều. Tuy nhiên, quá trình so khớp về đồ thị diễn ra rất chậm,
thời gian tính toán tăng theo cấp số mũ tương ứng với số lượng các phần tử. Trong việc
tìm kiếm dữ liệu ảnh dựa vào nội dung, ta cần những phương pháp có thể quyết định sự
giống và khác nhau một cách nhanh chóng. Thông thường, chúng ta luôn đòi hỏi sự bất
biến cả đối với kích thước của ảnh cũng như hướng của ảnh trong không gian. Vì vậy,
một đối tượng có thể được xác định trong một số hướng. Tuy nhiên, tính chất này
không thường được yêu cầu trong tìm kiếm ảnh. Trong rất nhiều cảnh vật, hướng của
đối tượng thường là không đổi. Ví dụ như cây cối, nhà cửa, ... Độ đo về hình dạng rất
nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh. Chúng trải rộng từ những độ đo
toàn cục dạng thô với sự trợ giúp của việc nhận dạng đối tượng, cho tới những độ đo
chi tiết tự động tìm kiếm những hình dạng đặc biệt. Lược đồ hình dạng là một ví dụ
của độ đo đơn giản, nó chỉ có thể loại trừ những đối tượng hình dạng không thể so
khớp, nhưng điều đó sẽ mang lại khẳng định sai, vì chỉ như là việc làm của lược đồ
màu. Kỹ thuật dùng đường biên thì đặc hiệu hơn phương pháp trước, chúng làm việc
với sự hiện hữu của đường biên của hình dạng đối tượng và đồng thời cũng tìm kiếm
những hình dạng đối tượng gần giống với đường biên nhất. Phương pháp vẽ phác họa
có thể là phương pháp có nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những
đường biên đối tượng đơn, mà còn đối với tập những đối tượng đã được phân đoạn
trong một ảnh mà người dùng vẽ hay cung cấp.
Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn
hình dạng sau :