Tải bản đầy đủ
Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

Chương 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG

Tải bản đầy đủ

7

Những chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung bao
gồm:
 Phân tích nội dung của nguồn thông tin và biểu diễn nội dung của các nguồn

thông tin được phân tích phù hợp với sự đối sánh truy vấn của người sử dụng
(không gian của thông tin nguồn được chuyển đổi thành không gian đặc điểm với
mục đích đối sánh nhanh trong bước tiếp theo). Bước này thường mất nhiều thời
gian cho việc xử lý tuần tự các thông tin nguồn (ảnh) trong cơ sở dữ liệu. Nó chỉ
phải làm một lần và có thể làm độc lập.
 Phân tích các truy vấn của người dùng và biểu diễn chúng thành các dạng phù

hợp với việc đối sánh với cơ sở dữ liệu nguồn. Nhiệm vụ của bước này giống với
bước trước nhưng chỉ được áp dụng với những ảnh truy vấn.
 Xác định chiến lược để đối sánh tìm kiếm truy vấn với thông tin được lưu trữ

trong cơ sở dữ liệu. Bước này có thể thực hiện trực tuyến và thực hiện rất nhanh.
Công nghệ đánh chỉ số có thể được sử dụng để nhận dạng không gian đặc điểm
để tăng tốc độ xử lý đối sánh.
 Tạo ra sự điều chỉnh cần thiết trong hệ thống (thường là bằng cách đối chiếu các

tham số trong công nghệ đối sánh) dựa trên phản hồi từ người sử dụng hoặc
những hình ảnh được tra cứu.

Thực hiện ngoại tuyến

8

So sánh độ tương

Các kết quả tra c

Phản hồi liên qu

Người sử dụng

Tạo truy
ỉ số

Cơ sở dữ l

Các hệ thống tra cứu ảnh dựa vào nội dung thường tuân theomô hình sau:

9

Hình 1.1: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội
dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có
các truy vấn người sử dụng. Hai mặt này được liên kết thông qua một chuỗi các tác vụ
như được minh họa trong Hình 1.1. Hai tác vụ phân tích truy vấn người sử dụng và
đánh chỉ số nhiều chiều được tóm lược ở đây trong khi hai tác vụ quan trọng nhất:
“Phân tích các nội dung của thông tin nguồn” (trích rút đặc trưng) và “Định nghĩa một
chiến lược để đối sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu được
lưu trữ” (độ đo tương tự), sẽ được mô tả chi tiết hơn trong phần dưới (mục 2.3.3 và
mục 2.4).
1.2 Đặc trưng ảnh
1.2.1 Màu sắc

Mắt người rất nhạy cảm với màu sắc và đặc điểm màu là một trong những thành
phần quan trọng giúp con người có thể nhận biết được hình ảnh. Vì vậy, đặc điểm màu
sắc là đặc điểm cơ bản của nội dung ảnh. Đặc điểm màu sắccó thể cung cấp những
thông tin rất hữu hiệu cho việc phân loại ảnh và chúng cũng rất hữu ích cho việc tra
cứu ảnh. Cũng vì thế mà tra cứu ảnh dựa trên màu sắc được sử dụng rộng rãi trong các
hệ thống tra cứu ảnh dựa trên nội dung. Biểu đồ màu thường được sử dụng để thể hiện
những đặc điểm màu của các ảnh. Mặc dù vậy trước khi sử dụng biểu đồ màu chúng ta
cần phải lựa chọn và xác định kiểu không gian màu và lựa chọn độ đo tương tự.
1.2.1.1 Không gian màu

Không gian màu là sự biểu diễn tập các màu, một số không gian màu được sử dụng
rộng rãi trong đồ họa máy tính. Màu sắc thường được xác định trong không gian màu
3 chiều.
 Không gian màu RGB

Không gian màu RGB là không gian màu được sử dụng nhiều nhất cho đồ hoạ
máy tính. Lưu ý rằng R,G và B là viết tắt của các từ đỏ (Red), xanh lục (Green) và
xanh lơ (Blue). Đây là không gian màu cộng: đỏ, xanh lục và xanh lơ được kết hợp lại
để tạo ra các màu khác. Không gian này không đồng nhất về nhận thức. Không gian
màu RGB có thể được trực quan hoá như một hình khối, như được minh hoạ trong
hình 1.2.

10

Hình 1.2: Không gian màu RGB được trực quan hoá như một hình khối.
Mỗi trục màu (R, G, B) có độ quan trọng như nhau. Do đó, mỗi trục nên được
lượng hoá với cùng một độ chính xác. Khi không gian màu RGB được lượng hoá, số
các bin sẽ luôn luôn là một hình khối. Thông thường, 8 (2 3), 64 (43), 216 (63), 512 (83)
bin được sử dụng trong lượng hoá không gian màu RGB. Chuyển đổi từ một ảnh RGB
sang một ảnh cấp xám nhận được tổng của R, G và B rồi chia kết quả cho ba.
 Không gian màu HSx
Không gian màu HSI, HSV, HSB và HLS thường được gọi là HSx có mối liên
quan gần gũi với sự nhận thức về màu sắc của con người hơn là không gian màu RGB.
Những trục từ không gian màu HSx mô tả những đặc tính của màu như sắc độ, độ bão
hoà và độ sáng. Sự khác nhau giữa những không gian màu HSx là sự biến đổi của
chúng từ không gian màu RGB, chúng thường được mô tả bằng những hình dạng khác
nhau (như hình nón, hình trụ). Trong hình 1.3 không gian màu HSV được mô tả như
hình nón.

11

Hình 1.3: Mô tả không gian màu HSV.
Sắc độ là thành phần của không gian màu HSx. Sắc độ là góc giữa những đường
tham chiếu và điểm gốc màu trong không gian màu RGB. Vùng giá trị này từ 0 0 đến
3600. Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage) thì
sắc độ là thuộc tính của cảm giác có liên quan đến thị giác, qua đó một vùng xuất hiện
tương tự với một màu được cảm nhận như red, green, blue hoặc là sự kết hợp của hai
trong số những màu được cảm nhận. Cũng theo CIE độ bão hoà là màu được đánh giá
theo tỷ lệ độ sáng của nó. Trong hình nón độ bão hoà là khoảng cách từ tâm đến cạnh
hình nón. Chiều cao của đường cắt chính là giá trị (value)đây chính là độ sáng hoặc độ
chói của màu. Khi độ bão hoà S bằng 0 thì H không xác định, giá trị nằm trên trục V
biểu diễn ảnh xám. Không gian màu HSV dễ dàng lượng tử hoá. Mức lượng tử hoá
thông dụng trong không gian màu này là 162 mức với H nhận 18 mức, S và V nhận 3
mức.
 Không gian màu YUV và YIQ
Các không gian màu YUV và YIQ được phát triển cho truyền hình vô tuyến.
Không gian màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một
mặt phẳng quay

330

của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel

12

và là kênh duy nhất được sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho
YIQ là các thành phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299),
G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận
thức. Khi các không gian màu YUV và UIQ được lượng hoá, mỗi trục được lượng hoá
với cùng độ chính xác.
 Không gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ.
Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của
R(0:212671), G(0:715160) và B(0:072169). X và Y là các thành phần màu. Không
gian màu XYZ là không đồng nhất nhận thức. Trong lượng hoá không gian màu XYZ,
mỗi trục được lượng hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là
đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh
U và V là các thành phần màu. Vậy, khi U và V được đặt bằng 0, kênh L biểu diễn
một ảnh cấp xám.
Trong lượng hoá không gian LUV, mỗi trục được lượng hoá với cùng độ chính
xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng hoá thường sử dụng 8
(23), 27 (33), 64 (43), 125 (53) bin.
1.2.1.2 Lược đồ màu

Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác
suất của các pixel trong ảnh. Một lược đồ màu H của một ảnh đã cho được xác định
bởi véc tơ:
H={H[0], H[1], H[2], ..., H[i],... H[N]},
Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con
trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh và N là số các bin
trong lược đồ màu.

13

Mỗi pixel trong ảnh sẽ thuộc về một bin của lược đồ màu của ảnh, vì thế với lược
đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để so sánh các ảnh
có các kích cỡ khác nhau, các lược đồ màu được chuẩn hóa. Lược đồ màu chuẩn hóa
H’ được xác định bằng:
H’={H’[0], H’[1], H’[2], ..., H’[i],... H’[N]},
H '[i ] =

Ở đây

H [i ]
p

, P là tổng số các pixel trong ảnh.

Trong lược đồ lượng hóa không gian màu lý tưởng, các màu riêng biệt không
được định vị trong cùng hình khối con và các màu tương tự được gán vào cùng hình
khối con. Sử dụng một số màu sẽ giảm khả năng các màu tương tự được gán vào các
bin khác nhau, nhưng cũng tăng khả năng các màu riêng biệt được gán vào cùng các
bin, nội dung thông tin của các ảnh sẽ giảm. Mặt khác, các lược đồ màu với một số
lượng lớn các bin sẽ chứa nhiều thông tin về nội dung của ảnh, theo đó giảm khả năng
các màu riêng biệt sẽ được gán vào cùng các bin. Tuy nhiên, chúng tăng khả năng các
màu tương tự sẽ được gán vào các bin khác nhau và tăng không gian lưu trữ biểu diễn
ảnh và thời gian tính toán khoảng cách giữa các lược đồ màu. Do đó, cần có sự thỏa
hiệp trong việc xác định số lượng các bin sẽ được sử dụng trong các lược đồ màu.
1.2.2 Kết cấu

Kết cấu là một mô tả vùng trợ giúptốttrong quá trình tra cứu. Kết cấu không có
khả năng tìm ra cácảnh tương tự, nhưng nó có thểđược sử dụng để phân lớp cácảnh kết
cấu từ cácảnh không kết cấu và sau đóđược kết hợp với các thuộc tínhđặc trưng khác
như màuđể làm cho tra cứu hiệu quả hơn. Một trong những biểu diễn phổ biến nhất
của đặc trưng kết cấu là ma trậnđồng khả năng đượcđề xuất bởiHaralick và cộng sự[8].
Ma trận dựa trên hướng và khoảng cách pixel. Các thống kê từ ma trận đồng khả năng
được trích rút và được biểu diễn như thông tin kết cấu. Tamura và cộng sự[6] đã đề
xuất phương pháp trích rút sáu thuộc tính kết cấu đặc trưng coarseness, contrast,
directionality, likeliness, regularity and roughness.
1.2.3 Hình dạng

14

Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các đối tượng
nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh.
Bướcđầu tiên là sử dụng một phương pháp phân đoạn thích hợpđể chia ảnh thành
các vùng. Các kỹ thuật phân đoạn có thểđược phân lớp thành ba loại: dựa vào vùng,
dựa vàođường biên và dựa vào pixel.Sau khi ảnhđược phân đoạn và thu đượccác vùng,
các đặc trưng thuộc về các vùng thu được sẽ được ghi lại. Các mã xích[9] sử dụng 4
hoặc 8 liên thông để biểu diễn cácđoạn thẳng tạo thành đường biên của vùng. Các dấu
hiệu, số các hình vàđa giác là các lượcđồ biểu diễn khác.
Bước tiếp theo là sử dụng các mô tả thích hợp cho các vùng này sao cho chúng
có thểđược sử dụng trong khi đối sánh các vùng của cácảnh khác nhau. Các mô tả
hìnhđược chia thành ba loại: Các mô tả dựa vàođường biên xácđịnh các thuộc tính
củađường biên. Các kỹ thuật dựa vào đường biên sử dụng các phác thảo vùngđể tính
toán hình. Mô tả Fourier là một trong những phương pháp phổ biến thuộc về loại này.
Trong kỹ thuật này, đường biên của một vùng đã cho được thu và được biến đổi
Fourier[9]. Các hệ số Fourier trội được sử dụng như các mô tả hình. Các mô tả khác
trong loại này là các mô men hình [5].
Nếu một vùng có một hình phức hợp, nó có thể được phân tách tiếp thành các hình
đơn giản hơn như các hình chữ nhật hoặc các hình tròn và một số thuộc tính của các
hình đơn giản này và các quan hệ của chúng có thể được sử dụng cho các mô tả hình.
Các mô tả vùng khác gồm màu và kết cấu. Một số đặc tính của vùng như trọng tâm,
không cụ thể đối với đường biên hoặc nội dung của vùng.
1.3 Độ tương tự giữa các ảnh
1.3.1 Độ đo về màu sắc

Mộtsốđộđotươngđồngđượcsửdụngnhư:ĐộđokhoảngcáchƠclit,độđo

Jensen-

Shannondivergence(JSD).
Gọih(I)vàh(M)tươngứnglà2lược

đồmàucủahaiảnhIvàảnhM.Khiđó

cácloạiđộđomàuđượcđịnhnghĩalàmộtsốnguyên(hoặcsốthực)theocácloạiđộ
ứng nhưsau:
Khoảngcách Ơclit:
ĐâylàkhoảngcáchƠclitthôngthườnggiữacácKbin:

đotương

15
k



(h( I ) − h( M )) 2

j −1

k



(h( I ) − h( M )) 2

j −1

Intersection (h(I),h(M)) =

(1-18)

Hoặc
k



h( I ) − h ( M )

j −1

Intersection (h(I),h(M)) =

(1-19)

ĐộđoJensen-Shannondivergence(JSD):
ĐộđoJensen-Shannon

divergencesửdụnglượcđộmàuRGBđểtínhtoánđộ

tươngđồngvềmàusắcgiữa2ảnh:
M

∑ H m log
m −1

dJSD(H,H’)=
M

∑ H m log
m −1

2H m
2H 'm
'
+
H
log
m
H m + H 'm
H 'm + H m

(1-20)

2H m
2 H 'm
'
+
H
log
m
H m + H 'm
H 'm + H m

Trongđó:HvàH’là2biểuđồmàuđượcsosánh, Hm là dải thứ m của biểu đồ H.
1.3.2 Độ đo tương đồng hình dạng

Độđovềhìnhdạng rất nhiềutrong phạmvilýthuyếtcủa bộmônxửlýảnh. Chúng trải
rộng từ những độđo toàn cục dạngthôvớisựtrợgiúpcủaviệcnhận dạng đốitượng,cho
tớinhữngđộđochitiếttựđộng tìmkiếmnhữnghìnhdạngđặc biệt.
Lượcđồhìnhdạnglàmộtvídụcủađộđođơngiản.Kỹthuậtdùngđường
biênhiệuquảhơnphươngpháptrước,chúngtìmkiếm nhữnghìnhdạngđốitượng
gầngiốngvớiđường biênnhất.Phươngphápvẽpháchọalàphươngphápcónhiều
đặctrưngrõrànghơn,khôngchỉtìmkiếmnhữngđườngbiênđốitượngđơn,mà
cònđốivớitậpnhữngđốitượngđãđượcphânđoạntrongmộtảnhmàngườidùng
vẽhaycungcấp.
1.3.3 Độ đo tương đồng cho kết cấu ảnh

Đểđođộtươngđồng

theokếtcấugiữacácảnh,ngườitathườngsửdụngđộđo

Ơclit.Kếtcấuđượctrích xuấttừ cácbức ảnhsẽ đượcbiểu diễnthànhcácvéc tơnhiều

16

chiềuvàkhoảngcáchƠclitđượcdùngđểđođộtươngđồnggiữacácđặctrưngcủa
ảnhtruyvấnvớiđặctrưngcủaảnhtrongcơsởdữliệu.
1.3.4 Độ đo tương đồng cho đặc trưng phân đoạn

Mộtsốđộđotươngđồngchoảnh:


Độ đo Cosin:
x. y
x. y

x. y
x. y

d(x,y) =


(1-21)

Khoảng cách góc:
cos −1 ( x. y)

cos −1 ( x. y )

d(x,y) =

(1-22)

cos −1 ( x, y )

cos −1 ( x, y )
• Độ đo Euclide:
m

∑x −y
i −1

i

i

2

m

∑ x −y
i −1

i

2

i

d(x,y) =

(1-23)

1.4 Các hệ thống tra cứu ảnh dựa vào nội dung

1.4.1 Hệ thống QBIC (Query By Image Content)
Hệ thống QBIC[5] là hệ thống tra cứu ảnh dựa trên sự phác thảo cho phép người
sử dụng xây dựng một phác thảo, vẽ ra và lựa chọn màu sắc cùng các mẫu kết cấu. Các
đặc trưng màu sử dụng trong QBIC là giá trị màu trung bình của không gian RGB.
QBIC là một trong các hệ thống dùng cấu trúcđánh chỉ số nhiều chiều dựa trên cấu
trúc R*-Tree[3] và là hệ thống đầu tiên có cách tiếp cận tra cứu ảnh dựa trên nội dung
được ứng dụng trong thực tiễn. Các kỹ thuật trong hệ thống này là cơ sở nghiên cứu
cho sự xây dựng và phát triểncủa các hệ thống tra cứu ảnh sau này. QBIC cung cấp
một số phương pháp: đơn đặc trưng, đa đặc trưng [12] và Multi-pass:


Phương pháp truy vấn đơn đặc trưngchỉ sử dụng một đặc điểm cụ thể để tra cứu
ảnh.
• Truy vấn đa đặc trưng bao gồm nhiều hơn một đặc trưngvà mọi đặc trưngđều
có trọng số như nhau trong suốt quá trình tìm kiếm.

17



TruyvấnMulti-pass sử dụng đầu ra của các truy vấn trước làm cơ sở cho bước
tiếp theo. Người sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình
ảnh yêu cầu.

Trong hệ thống QBIC,tương tựmàu được tính toán bằng độ đo bình phương sử
dụng biểu đồ màu k phần tử và màu trung bình được sử dụng như là bộ lọc để cải tiến
hiệu quả của truy vấn.
1.4.2

Hệ thống Blobworld

Hệ thống này không áp dụng cách tiếp cận tra cứu ảnh theo ảnh mẫu mà tạo ra
những biến đổi bằng cách trích rútcác dữ liệu điểm nguyên thuỷ có đặc tính giống
nhau về màu sắc và không gian kết cấu để hợp thành một tập hợp nhỏ gọi là vùng
riêng biệt.
Hệ thống này cũng cho người sử dụng thấy được sự trình bày kết cấu bên trong của
ảnh truy vấn và các kết quả truy vấn của nó. Ngoài ra, việc hiển thị ngẫu nhiên của hệ
thống cho người sử dụng biết nguyên nhân tại sao các ảnh không đồng dạng với ảnh
truy vấn lại được trả về như kết quả truy vấn và làm sao để cải tiến điều đó.

1.4.3

Virage
Virage là một máy tìm kiếm ảnh dựa vào nội dung được phát triển tại liên hợp

Virage. Tương tự với QBIC, Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành
phần cấu tạo (bố cục màu), kết cấu và cấu trúc (thông tin đường bao đối tượng).
Nhưng Virage tiến một bước xa hơn QBIC. Nó cũng hỗ trợ các kết hợp tuỳ ý của bốn
truy vấn trên. Người sử dụng có thể điều chỉnh các trọng số được kết hợp với các đặc
trưng theo sự nhấn mạnh riêng của họ. Jeffrey và cộng sự đã đề xuất tiếp một khuôn
khổ mở cho quản lý ảnh. Họ đã phân loại các đặc trưng trực quan thành tổng quát (như
màu, hình, hoặc kết cấu) và lĩnh vực cụ thể (nhận dạng mặt người, phát hiện khối u,
v.v..). Nhiều đặc trưng gốc hữu ích có thể được thêm vào cấu trúc mở, phụ thuộc vào
các yêu cầu lĩnh vực. Để đi ra ngoài giới hạn chế độ truy vấn bởi ví dụ, Gupta và Jain
đã đề xuất một khung công việc ngôn ngữ truy vấn chín thành phần. Hệ thống sẵn có
như một thành phần có thể thêm vào các hệ quản trị cơ sở dữ liệu như Oracle hoặc
Informix.
1.4.4

RetrievalWare