Tải bản đầy đủ
4 Các hệ thống tra cứu ảnh dựa vào nội dung

4 Các hệ thống tra cứu ảnh dựa vào nội dung

Tải bản đầy đủ

17



TruyvấnMulti-pass sử dụng đầu ra của các truy vấn trước làm cơ sở cho bước
tiếp theo. Người sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình
ảnh yêu cầu.

Trong hệ thống QBIC,tương tựmàu được tính toán bằng độ đo bình phương sử
dụng biểu đồ màu k phần tử và màu trung bình được sử dụng như là bộ lọc để cải tiến
hiệu quả của truy vấn.
1.4.2

Hệ thống Blobworld

Hệ thống này không áp dụng cách tiếp cận tra cứu ảnh theo ảnh mẫu mà tạo ra
những biến đổi bằng cách trích rútcác dữ liệu điểm nguyên thuỷ có đặc tính giống
nhau về màu sắc và không gian kết cấu để hợp thành một tập hợp nhỏ gọi là vùng
riêng biệt.
Hệ thống này cũng cho người sử dụng thấy được sự trình bày kết cấu bên trong của
ảnh truy vấn và các kết quả truy vấn của nó. Ngoài ra, việc hiển thị ngẫu nhiên của hệ
thống cho người sử dụng biết nguyên nhân tại sao các ảnh không đồng dạng với ảnh
truy vấn lại được trả về như kết quả truy vấn và làm sao để cải tiến điều đó.

1.4.3

Virage
Virage là một máy tìm kiếm ảnh dựa vào nội dung được phát triển tại liên hợp

Virage. Tương tự với QBIC, Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành
phần cấu tạo (bố cục màu), kết cấu và cấu trúc (thông tin đường bao đối tượng).
Nhưng Virage tiến một bước xa hơn QBIC. Nó cũng hỗ trợ các kết hợp tuỳ ý của bốn
truy vấn trên. Người sử dụng có thể điều chỉnh các trọng số được kết hợp với các đặc
trưng theo sự nhấn mạnh riêng của họ. Jeffrey và cộng sự đã đề xuất tiếp một khuôn
khổ mở cho quản lý ảnh. Họ đã phân loại các đặc trưng trực quan thành tổng quát (như
màu, hình, hoặc kết cấu) và lĩnh vực cụ thể (nhận dạng mặt người, phát hiện khối u,
v.v..). Nhiều đặc trưng gốc hữu ích có thể được thêm vào cấu trúc mở, phụ thuộc vào
các yêu cầu lĩnh vực. Để đi ra ngoài giới hạn chế độ truy vấn bởi ví dụ, Gupta và Jain
đã đề xuất một khung công việc ngôn ngữ truy vấn chín thành phần. Hệ thống sẵn có
như một thành phần có thể thêm vào các hệ quản trị cơ sở dữ liệu như Oracle hoặc
Informix.
1.4.4

RetrievalWare

18

RetrievalWare là một máy tra cứu ảnh dựa vào nội dung được phát triển bởi tập
đoàn công nghệ Excalibur. Từ một trong các công bố đầu tiên của họ, chúng ta có thể
thấy rằng tầm quan trọng của nó là ứng dụng của các mạng neural để tra cứu ảnh. Máy
tìm kiếm gần đây của họ sử dụng màu, hình, kết cấu, độ sáng, bố cục màu, và hướng
tỷ lệ của ảnh, như các đặc trưng truy vấn. Nó cũng hỗ trợ các kết hợp của các đặc
trưng này và cho phép người sử dụng điều chỉnh các trọng số kết hợp với mỗi đặc
trưng. Trang demo của nó tại http://vrw.excalib.com/cgi-bin/sdk/cst/cst2.bat.
1.4.5

VisualSeek và WebSeek
VisualSEEk là một máy tìm kiếm đặc trưng trực quan và WebSEEk là một máy

tìm kiếm văn bản/ảnh trên web, cả hai sản phẩm đã được phát triển tại đại học
Columbia. Các đặc trưng nghiên cứu chính là truy vấn quan hệ không gian của các
vùng ảnh và trích rút đặc trưng trực quan lĩnh vực được nén. Các đặc trưng trực quan
được sử dụng trong các hệ thống của họ là các tập màu và các đặc trưng kết cấu dựa
vào biến đổi sóng. Để tăng tốc quá trình tra cứu, họ cũng đã phát triển các thuật toán
đánh chỉ số dựa vào cây nhị phân. VisualSEEk hỗ trợ các truy vấn dựa vào cả các đặc
trưng trực quan và các quan hệ không gian của chúng. Điều này cho phép người sử
dụng chuyển một truy vấn hoàng hôn bằng vùng màu đỏ-cam trên đỉnh và vùng xanh
lơ hoặc xanh lá cây ở dưới bằng phác thảo của nó. WebSEEk là một máy tìm kiếm
hướng Web. Nó gồm ba module chính, tức là module tập hợp ảnh/video, module phân
loại chủ đề và đánh chỉ số, và module tìm kiếm, duyệt, và tra cứu. Nó hỗ trợ các truy
vấn dựa trên cả các từ khoá và nội dung trực quan. Bản demo trực tuyến có tại
http://www.ee.columbia.edu/sfchang/demos.html.
1.4.6

Photobook
Photobook là một tập các công cụ tương tác để duyệt và tìm kiếm các ảnh được

phát triển tại phòng thí nghiệm MIT Media. Photobook gồm ba quyển nhỏ từ đó các
đặc trưng hình, kết cấu, và bề mặt được trích rút tương ứng. Sau đó những người sử
dụng có thể truy vấn trên cơ sở các đặc trưng tương ứng trong mỗi quyển con. Trong
phiên bản Photobook gần đây nhất của nó, bốn mắt, Picard và cộng sự đã đề xuất gồm
những người sử dụng trong lặp và chú thích tra cứu ảnh. Động cơ cho việc này là dựa
trên quan sát rằng không có đặc trưng nào có thể mô hình các ảnh tốt nhất từ mỗi và

19

mọi lĩnh vực. Hơn nữa, nhận thức của con người là chủ quan. Họ đã đề xuất một cách
tiếp cận “hội các mô hình” để liên kết nhân tố người. Các kết quả thực nghiệm chỉ ra
rằng cách tiếp cận này là hiệu quả trong chú thích ảnh tương tác.
1.5 Đánh giá hiệu năng tra cứu

Để đánh giá hiệu năng của hệ thống tra cứu, người ta đưa ra hai số đo đó là độ
triệu hồi (recall) và độ chính xác (precision). Các số đo này được mượn từ hệ thống tra
cứu thông tin truyền thống.
Đối với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy
vấn q được ký hiệu là R(q) còn kết quả tra cứu của truy vấn q được ký hiệu là Q(q).
Độ chính xác của việc tra cứu được định nghĩa là tỉ lệ những kết quả thu được
thực sự thích hợp với truy vấn.

precision =

Q( q )ΙR( q )
Q( q )
(1-25)

Độ triệu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:

recall =

Q( q )ΙR( q )
R( q )
(1-26)

Thông thường phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng
cường số đo này thì lại phải chịu giảm số đo kia và ngược lại. Trong các hệ thống tra
cứu điển hình thì độ triệu hồi có xu hướng tăng lên khi số lượng các kết quả thu được
tăng lên trong khi đó thì độ chính xác dường như lại bị giảm đi.
Ngoài ra, việc lựa chọn R(q) lại rất không ổn định do sự đa đạng của cách hiểu về
một bức ảnh. Hơn nữa, khi số lượng ảnh thích hợp lại lớn hơn số lượng ảnh hệ thống
tìm được thì lúc đó khái niệm độ triệu hồi trở thành vô nghĩa.
Do đó, độ chính xác và độ triệu hồi chỉ là các mô tả ở dạng thô về hiệu năng của
một hệ thống truy vấn mà thôi.

20

Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các hệ
thống tra cứu gọi là ANMRR (average normalized modified retrieval rank) . Theo
cách này độ chính xác và độ triệu hồi được kết hợp thành một số đo duy nhất.
Ký hiệu số lượng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lượng lớn nhất
của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q1), N(q2),...,N(qQ)} là
M. Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng k được gán một giá
trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số những ảnh hoàn toàn đúng
nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây K = min{4N(q), 2M}) hoặc
có giá trị K+1 nếu ảnh đó không nằm trong K kết quả truy vấn đầu tiên.
Thứ hạng trung bìnhAVR(q) đối với truy vấn q được tính như sau:
N ( q ) rank( q )

AVR ( q ) = ∑k =1

N( q )
(1-27)

Thứ hạng tra cứu sửa đổi MRR(q) được tính là:
MRR(q)=AVR(q)-0.5-0.5*N(q)

(1-28)

MRR(q) nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong K kết quả
truy vấn đầu tiên.
Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR(q) nhận giá trị từ 0 đến 1 được
tính như sau:

NMRR ( q ) =

MRR( q )
K + 0.5 − 0.5 * N ( q )

(1-29)

Thứ hạng tra cứu sửa đổi và chuẩn hoá trung bình ANMRR xét trên tất cả các
truy vấn Q là:

ANMRR =

1 Q
∑ NMRR ( q )
Q q =1

1.6 Kết luận chương 1

Trong chương này, tôi đã giới thiệu một số khái niệm cơ bản về tra cứu ảnh dựa
vào nội dung, bao gồm: tra cứu ảnh, trình bày một số ứng dụng củahệ thống CBIR, các