Tải bản đầy đủ
Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục

Hình 2.8: Đo hai hình dạng trên cơ sở chỉ mục

Tải bản đầy đủ

38

 Các thao tác hình dạng khác
Để bổ sung vào quay hình dạng 180 0, hai thao tác khác là flip ngang và dọc. Hình
2.8 chỉ ra hai kết quả của hai thao tác trên hình dạng từ hình 2.7. Hai hình dạng này
cảm nhận tương tự với hình dạng trên hình 2.6.
Để sử dụng hai thao tác này và vẫn tiết kiệm lưu trữ, ta chỉ cần lưu một chỉ mục
cho mỗi hình nhưng ta sẽ sinh ra bốn dãy nhị phân cho mỗi hình dạng trong câu truy
vấn khi truy tìm. Trong trường hợp này, hình dạng cảm giác tương tự được tìm ra từ
kết quả của quay 1800, lật flip ngang và lật dọc.

2.3. Tra cứu ảnh dựa vào vân
2.3.1. Vân là gì?
Vân (texture), đến này vẫn chưa có một định nghĩa chính xác cụ thể về vân. Vân
là một đối tượng dùng để phân hoạch ảnh ra thành những vùng được quan tâm và để
phân lớp những vùng đó. Vân cung cấp thông tin về sự sắp xếp về mặt không gian của
màu sắc và cường độ của một ảnh. Vân được đặc trưng bởi sự phân bổ không gian của
những mức cường độ trong một khu vực láng giềng với nhau của ảnh màu và vân đối
với ảnh xám là như nhau. Vân gồm nhiều vân gốc hay vân phần tử gộp lại, đôi khi
được gọi là texel. Xét về vấn đề phân tích vân, có hai đặc trưng chính yếu nhất:
- Cấu trúc vân được định nghĩa như sau vân là tập hợp những texel được sắp xếp theo
một số quy luật nhất định hay có cấu trúc không gian lặp đi lặp lại.
- Sự thống kê vân được định nghĩa như sau vân là một độ đo về số lượng của sự sắp
xếp những mức xám hay cường độ sáng trong vùng. Cấu trúc vân, một vân bất kỳ có
thể coi như là một tập của những texel thô trong một quan hệ không gian đặc biệt nào
đó. Một cấu trúc không gian của một vân bất kỳ sau đó có thể bao gồm một sự mô tả
của texel và một đặc tả về không gian. Những texel đương nhiên phải được phân đoạn
và quan hệ không gian phải được tính toán một cách thật hiệu quả. Texel là những
vùng ảnh có thể trích rút từ một số hàm phân ngưỡng đơn giản.

39

5%

xéo

Cỏ

gạch

Vân giấy

Giấy thô

Vân đá

Vân cát

Xéo ngắn

lợp ván

Vân dệt

Vân gỗ

Zíc Zắc

Ca rô

Vân nước

Vân sợi

Hình 2.9: Một số loại vân tiêu biểu

2.3.2. Tra cứu ảnh dựa vào vân
Trong hầu hết các trường hợp, phân đoạn những ảnh thật ra những texel khó hơn
nhiều đối với trường hợp tự nhiên sinh ra những hoa văn thiên nhiên. Thay vì vậy, việc
định lượng về số hay thông tin thống kê bằng số mô tả cho một vân có thể được tính từ
mức chính xác, hay mức màu của chúng. Tuy cách tiếp cận này ít trực quan nhưng nó
có hiệu suất tính toán cao, hơn nữa cách tiếp cận này cũng phù hợp với đồng thời cho
việc phân đoạn vân và phân loại vân.

40

2.3.3. Phân hoạch vùng nhị phân cục bộ
Một cách khác rất đơn giản, nhưng là độ đo vân hữu dụng là độ phân hoạch
vùng nhị phân cục bộ. Đối với mỗi điểm ảnh p trong ảnh, tám điểm lân cận được xem
xét rằng cường độ intensity của chúng có lớn hơn của điểm ảnh p hay không. Những
kết quả từ tám điểm ảnh lân cận được sử dụng để xây nên một số nhị phân tám chữ số
là b1b2b3b4b5b6b7b8, trong đó bi=0 nếu cường độ intensity của láng giềng thứ i nhỏ
hơn hay bằng với p và bi=1 trong trường hợp ngược lại. Một lược đồ của những số này
được dùng để biểu thị cho vân của ảnh. Hai ảnh hay hai khu vực ảnh được so sánh bởi
việc tính toán độ dài L1 giữa lược đồ của chúng được định nghĩa ở trên.

2.3.4. Phân đoạn vân
Bất kỳ độ đo một vân nào, cung cấp một giá trị hay vectơ giá trị tại mỗi điểm
ảnh, mô tả vân trong những điểm láng giềng của điểm ảnh đó, có thể được dùng để
phân đoạn ảnh thành những vùng có vân giống nhau. Như những thuật toán phân đoạn
ảnh khác, thuật toán phân đoạn vân có hai loại chính là cách tiếp cận dựa vào vùng và
cách tiếp cận dựa vào đường biên. Cách tiếp cận dựa vào vùng có ý tưởng chính là
nhóm hay phân chia những điểm ảnh với những đặc tính vân giống nhau. Cách tiếp cận
dựa vào đường biên có ý tưởng là đi tìm những đường biên vân giữa những điểm ảnh
đến từ những sự phân bổ vân khác nhau.

2.4. Phương pháp tra cứu ảnh sử dụng dấu hiệu nhị phân
2.4.1. Giới thiệu
Trong những năm gần đây, đã có rất nhiều đề tài tìm hiểu và xây dựng các hệ
thống tra cứu ảnh theo nội dung. Hầu hết các phương pháp đều đề cập tới sự phân bố
màu sắc của hình ảnh. Đó là một trong những tính năng được sử dụng rộng rãi để tính
toán tra cứu các hình ảnh trừu tượng trong một cơ sở dữ liệu ảnh. Sử dụng màu sắc để
tra cứu ảnh, nó sẽ đảm bảo được các tính năng ta mong muốn như độ phức tạp thấp,
hiệu quả cao. Trong thực tế, người ta thường sử dụng một biểu đồ màu toàn cục (GCH)
để thể hiện sự phân bố màu sắc của một hình ảnh. Giả sử có một mô hình n màu, sẽ có

41

một biểu đồ màu toàn cục GCH với vector tính năng n chiều (h1, h2, ... hn), với hj đại
diện cho tỷ lệ phần trăm của các điểm ảnh màu sắc trong một hình ảnh với mỗi yếu tố
màu cj. Khi đó việc tra cứu hình ảnh tương tự được dựa trên sự giống nhau giữa các
GCH của hình ảnh nhờ vào khoảng cách Euclide giữa các vector tính năng đại diện cho
hai hình ảnh bằng công thức sau:

d (Q , I ) =

n

∑ (h
j =1

Q
j

− h Ij ) 2

(2-10)

Q và I lần lược là ảnh đầu vào và một trong những hình ảnh trong tập ảnh, h Qj và
hIj là các vectơ tính năng đặc trưng của ảnh tương ứng. d(Q,I) càng nhỏ thì hai ảnh
càng giống gần giống nhau. Suy luận trên xuất phát từ thực tế biểu đồ màu sắc được
ánh xạ lên điểm trong một không gian n chiều.
Nhưng nếu ta sử dụng biểu đồ màu toàn cục GCH thì ta sẽ phải lưu trữ các
vector n chiều của một biểu đồ màu sắc cho mỗi hình ảnh trong cơ sở dữ liệu. Nó có
thể tiêu tốn không gian lưu trữ đáng kể. Để giảm thiểu việc tiêu tốn không gian lưu trữ,
tôi đề xuất việc sử dụng của một đại diện nhỏ gọn của các vector bằng cách sử dụng
dấu hiệu nhị phân, là các chuỗi bit nhị phân có kích thước được xác định trước đại diện
cho sự phân bố màu sắc của một hình ảnh. Khi ta tra cứu ảnh, giả định rằng dấu hiệu
nhị phân của hình ảnh được lưu trữ tuần tự trong một tập tin. Để xử lý một tra cứu, tập
tin được quét và tất cả các dấu hiệu nhị phân của hình ảnh được so sánh với dấu hiệu
nhị phân của các hình ảnh tra cứu bằng cách sử dụng một số liệu tương tự cũng được
xác định. Các hình ảnh được so sánh sẽ được lấy ra và xếp hạng theo tương đồng với
hình ảnh truy vấn.

2.4.2. Kiến trúc hệ thống
Kiến trúc của tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân được chỉ ra
trong hình 2.10. Hệ thống tra cứu ảnh gồm hai pha. Pha thứ nhất, tạo cơ sở dữ liệu đặc
trưng. Các ảnh trong cơ sở dữ liệu được xác định để lấy các vector đặc trưng, các đặc
trưng được trích rút thành một cơ sở dữ liệu đặc trưng. Truy vấn cơ sở dữ liệu là pha

42

thứ hai. Khi ảnh truy vấn được đưa vào, nó được xác định vector đặc trưng và các đặc
trưng được trích rút và lưu trữ.
Véc tơ đặc
trưng

Ảnh truy
vấn được
phân
đoạn

Ảnh
Truy vấn
truy vấn

Biểu diễn
ảnh truy
vấn

Sắp xếp và
đo độ tương
tự

Biểu diễn và
trích rút đặc
trưng

Véc tơ đặc
trưng

Cơ sở dữ
liệu ảnh

Biểu diễn và
trích rút đặc
trưng

Các ảnh
CSDL
được
phân
đoạn

Cơ sở dữ
liệu
đặc trưng

Đầu ra

Kết quả

Hình 2.10: Kiến trúc của kỹ thuật tra cứu ảnh sử dụng dấu hiệu nhị phân.
Các đặc trưng của ảnh truy vấn được so sánh với các đặc trưng của tất cả các
tra cứutrong
ảnh trong cơ sở dữ liệu sử dụng độ đo tương tự. Vì thế, ba quá trình quan trọng

hệ thống tra cứu ảnh theo nội dung sử dụng dấu hiệu nhị phân là: Xác định vector đặc
trưng, biểu diễn và trích rút đặc trưng và tính độ tương tự.

2.4.3. Kỹ thuật tra cứu ảnh theo nội dung dựa vào dấu hiệu nhị phân
• Hầu hết các phương pháp tóm tắt được mô tả trong phần trước cải tiến tra cứu ảnh
bằng cách liên kết với các đặc trưng nhận thức (thông tin không gian là phổ biến)
với lược đồ màu. Phần lớn các nỗ lực này hướng đến biểu diễn chỉ các màu trong
lược đồ màu có pixel trội đáng kể. Cách tiếp cận của tôi khác biệt về vấn đề này.

43

Tôi nhấn mạnh hơn các màu ít trội trong khi vẫn đưa các màu chủ yếu vào bản
miêu tả. Để sử dụng các dấu hiệu cho tóm tắt ảnh, tôi thiết kế lược đồ sau:
• Mỗi ảnh trong cơ sở dữ liệu được lượng hóa thành n màu cố định C=(c 1, c2,…cn) để
loại bỏ sự ảnh hưởng của các biến thể nhỏ trong phạm vi các ảnh và cũng tránh sử
dụng tệp lớn do biểu diễn độ phân giải cao.
j
j j
j
• Mỗi thành phần màu cj được lượng hóa thành t bin nhị phân ( B = (b1 b2 ...bt ) có
khả năng chứa bằng nhau hoặc khác nhau, gọi là cỡ bin. Nếu tất cả các bin có cùng
cỡ chúng ta nói rằng sắp xếp theo cách tiếp cận cấp bin bằng số (Constant-Bin
Allocation- CBA), ngược lại nó theo cách tiếp cận cấp bin thay đổi (Variable-Bin
Allocation - VBA). Ví dụ, xét một ảnh gồm n màu và t bin. Dấu hiệu của ảnh này
được biểu diễn bởi xâu bit sau: S= b11b21 ...bt1 b12 b22 ...bt2 b1n b2n ...btn , ở đây biểu diễn bin
thứ i liên quan đến thành phần màu cj. Để đơn giản, tôi xem xâu con b1j b2j ...bt j là Bj
(1≤j≤n), do đó dấu hiệu của một ảnh I có thể được ký hiệu là S I = B1I BI2 ...BIn
• Các giá trị chuẩn hóa thu được sau khi trích rút màu tự động được sử dụng trong
phạm vi tập các bin tương ứng để sinh ra gán các giá trị nhị phân chỉ ra sự xuất hiện
hoặc không xuất hiện của một màu với một phạm vi mật độ cụ thể. Sử dụng cách
tiếp cận CBA, mỗi màu cj có tập các bin của nó theo điều kiện: