Tải bản đầy đủ
1 Giới thiệu về phân cụm

1 Giới thiệu về phân cụm

Tải bản đầy đủ

23
 Biểu diễn dưới dạng ma trận của các biến cấu trúc hay các thuộc tính của đối tượng.

Ví dụ đối tượng người sẽ có các thuộc tính là tên, tuổi, chiều cao, cân nặng, màu mắt,
… Nếu ta có n đối tượng, mỗi đối tượng có p thuộc tính thì sẽ có một ma trận với n
dòng, p cột.
 x11

 ...
x
 i1
 ...

 xn1

... x
1f
... ...
... x
if
... ...
... x
nf

... x 
1p 
... ... 
... x 
ip 
... ... 

... x 
np 

 Biểu diễn dữ liệu dưới dạng độ đo khoảng cách giữa các cặp đối tượng. Nếu ta có n

đối tượng, chúng sẽ được biểu diễn bằng một ma trận với n hàng và n cột như sau:
 0
d(2,1)
0

d(3,1) d (3,2) 0

:
:
 :
d (n,1) d ( n,2) ...







... 0

Trong đó d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa
đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính và thỏa mãn các
tính chất:
d(i,j)≥ 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j)≤d(i,k) + d(k,j)
Các kiểu khoảng cách
Việc tính toán khoảng cách có thể được thực hiện bằng nhiều cách khác nhau
dựavào mục đích của phân cụm. Khoảng cách giữa hai đối tượng x, y hay độ đo phi
tương tượng giữa hai đốitượng được xác định bằng một ma trận. Một số phương pháp

24

đo khoảng cách phổ biến là: Khoảng cách Euclid, khoảng cách Manhattan được định
nghĩa bằng khoảng cách Minkowski:

d (i, j) = q (| x − x |q + | x − x |q +...+ | x − x |q )
i1 j1
i2 j 2
ip
jp
Độ đo khoảng cách



Minkowski :

 Độ đo khoảng cách Manhattan (q = 1)

d (i, j) =| x − x | + | x − x | +...+ | x − x |
i1
j1
i2
j2
ip
jp

 Độ đo khoảng cách Euclid(q = 2)

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 )
i1 j1
i2 j 2
ip jp

Phép đo khoảng cách cho dữ liệu thuộc tính nhị phân
Xác định một bảng tham số

Đối tượng j

Đối tượng i
1
0
1
a
b
0
c
d

Trong đó:
a: Tổng số thuộc tính có giá trị là 1 trong cả i và j
b: Tổng số các thuộc tính có giá trị là 1 trong i và có giá trị là 0 trong j.
c: Tổng số các thuộc tính có giá trị là 0 trong i và có giá trị là 1 trong j.
d: Tổng số thuộc tính có giá trị là 0 trong cả i và j.
b+c
d (i, j) =
a +b+c + d
Hệ số so trùng đơn giản :
d (i, j) =

2.1.2

b+c
a +b +c

Hệ số so trùng Jaccard :

Một số vấn đề trong phân cụm

Xử lý nhiễu: Dữ liệu bị nhiễu là dữ liệu không chính xác hay là dữ liệu
khuyếtthiếu thông tin về một số thuộc tính. Hầu hết các dữ liệu sử dụng để phân cụm

25

đều bị nhiễu do quá trình thu thập thiếu chính xác hay thiếu đầy đủ. Vì vậy cần phải
thực hiện bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển
sang giai đoạn phân tích cụm dữ liệu. Một trong các kỹ thuật xử lý nhiễu hiện nay là
thay thế các giá trị các thuộc tính của đối tượng nhiễu bằng các giá trị thuộc tính tương
ứng.
Dò tìm phần tử ngoại lai: Phần tử ngoại lai là một nhóm nhỏ các đối tượng dữ
liệu khá bất thường so với các dữ liệu trong cơ sở dữ liệu. Loại bỏ những dữ liệu này
để tránh ảnh hưởng đến kết quả phân cụm.
Phân cụm hiện nay đang là vấn đề mở và khó: Vì phân cụm đang phải giải quyết
một số vấn đề cơ bản: Xây dựng hàm tính khoảng cách (hay độ tương tự), xây dựng
các tiêu chuẩn phân cụm, xây dựng mô hình cho cấu trúc dữ liệu, xây dựng các thuật
toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ tục biểu diễn và
đánh giá kết quả phân cụm. Hiện nay chưa có một phương phápphân cụm tổng quát
nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc dữ liệu. Với những dữ
liệu hỗn hợp thì việc phân cụm càng khó khăn hơn và đây đang là một thách thức
trong ngành khai phá dữ liệu.
2.1.3 Phân cụm phân cấp

Phương pháp phân cụm phân cấp(hierachical clustering)[4, 13] xây dựng một
cấu trúc cây phân cấp chocác đối tượng và có hai phương pháp chính là xây dựng cây
theo hướng từ trên xuống(top-down) và xây dựng theo hướng từ dưới lên (bottom-up).
Với phương pháp bottom-up, đầu tiên mỗi đối tượng được coi như một cụm
phânbiệt và sau đó tiến hành ghép lần lượt 2 cụm giống nhau nhiều nhất hay khác nhau
ítnhất làm một đến khi tất cả các cụm được ghép vào một cụm duy nhất chứa tất cả
cácđối tượng. Còn phân cụm phân cấp top-down lại ngược với bottom-up, tất cả các
đôi tượng coi như một cụm và được tách thành mỗi đối tượng thành một cụm duy
nhất. Phương pháp này được thực hiện bằng thuật toán đệ quy, tiến hànhtách đôi các
cụm đến khi từng đối tượng phân biệt được đưa ra.Phân cụm phân cấp bottom-up
cònđược gọi là phân cụm tích lũy phân cấp (hierachical agglomerativeclusteringHAC).
Trong thực tế phân cụm phân cấp bottom-up được sử dụng rộng rãi hơn là topdowndo các tiêu chí để ghép cụm trong bottom-up đơn giản và dễ thực hiện hơn
việcđánh giá tách cụm trong top-down. Trong báo cáo này tôi tập trung vào
phươngpháp bottom-uptức là HAC.
Phương pháp HAC

26

HAC dựa theo đặc thù của thuật toán phân cụm đệ quy và coi mỗi đối tượng
nhưmột điểm dữ liệu trong không gian Euclide. Việc tính toán độ tương tự giữa các
cụmdựa vào cách tính khoảng cách trong không gian Euclide [14].Bằng cách đi lên từ
lớp dưới cùng lên nút trên đầu, sơ đồ cây phân cấp cho chúngta thấy các bước kết hợp
đôi một từng nhóm. Ví dụ nhìn vào sơ đồ Hình 2.1 ta có thểthấy rằng 2 cụm mang
nhãn 1 và 2 đầu tiên được nhóm với nhau, sau đó được nhómvới cụm mang nhãn 3 trở
thành cụm 123 được đưa ra. Cụm 4 và 5 được nhóm vớinhau tạo thành cụm 45, cuối
cùng hai cụm 123 và 45 ghép lại thành một cụm tổng thếchứa cả 5 đối tượng là 12345
để tạo thành một cây với gốc 12345 và các lá lần lượt là 1,2, 3, 4, 5.
1
1, 2
2

1, 2, 3

3
1, 2, 3, 4, 5
4
4, 5
5

Hình2.1: Biểu diễn phận cụm phân cấp bottom-up của 5 đối tượng
Phân cụm phân cấp không yêu cầu cố định số cụm và nếu tất cả các đối tượng
đều thuộc một cụm thì việc phân cụm là vô nghĩa. Vì thế, trong việc phân cụm chúng
ta cần bỏ đi một số bước, tức cần dùng một nhát cắt để đưa ra kết quả phân cụm của
mình.
Một số phương pháp tính khoảng cách cụm của HAC
 Single link hay single-linkage

Với phương pháp này, khoảng cách giữa các cụm được định nghĩa là khoảngcách
giữa những đối tượng giống nhau nhất giữa 2 nhóm:

27

Trong đó:
r, s: hai cụm
i, j: hai đối tượng bất kỳ thuộc hai cụm
Với 2 cụm, ta tính tất cả các khoảng cách giữa 2 phần tử bất kỳ thuộc 2 cụm
đóvàkhoảng cách nhỏ nhất tìm được chính là khoảng cách giữa 2 cụm đó. Tại mỗi
bước,2 cụm gần nhau nhất sẽ được chọn để ghép lại với nhau.
 Complete linkage hay còn gọi là fatherest neighbour – người hàng xóm xa nhất

Phương pháp phân cụm này ngược với single linkage. Với 2 cụm, ta tính tấtcả
các khoảng cách giữa 2 phần tử bất kỳ thuộc 2 cụm đó và lấy khoảng cách lớn
nhấtgiữa các tài liệu làm khoảng cách giữa 2 cụm. Khoảng cách giữa các cụm được
địnhnghĩa:

Trong đó:
r, s: hai cụm
i, j: hai đối tượng bất kỳ thuộc hai cụm
 Average-linkage

Phân cụm bằng cách tính khoảng cách giữa các cụm với average-linkageđánh giá
ghép cụm dựa vào toàn bộ độ tương tự giữa tất cả các đối tượng trong cụm vì vậy mà
nó tránh được những thiếu sót của hai phương pháp single-linkage vàcompletelinkage – chỉ đánh giá được một phần các cụm.

Trong đó:
r, s: hai cụm
i, j: hai đối tượng bất kỳ thuộc hai cụm
 Centroid

Khoảng cách giữa các cụm chính là khoảng cách giữa trọng tâm của các cụm.
Đặc điểm phân cụm HAC
 Ưu điểm:
• Đơn giản
• Lý thuyết tốt
 Nhược điểm
• Quyết định trộn tách các cụm là vĩnh cửu nên chương trình không có tính quay

lui, nếu có quyết định sai thì không thể khắc phục lại.

28


Độ phức tạp thuật toán cao, thời gian thực hiện phân cụm lâu.

2.2 Một số kỹ thuật tra cứu dựa vào đặc trưng màu
2.2.1

Kỹ thuật tra cứu dựa vào lược đồ màu toàn bộ - GCH
Biểu đồ màu toàn cục mô tả phân bố màu sử dụng tập các bin. Sử dụng biểu đồ

màu toàn cục (gọi tắt là GCH trong luận văn này), một ảnh sẽ được mã hóa với biểu đồ
màu của nó và khoảng cách giữa hai ảnh sẽ được xác định bởi khoảng cách giữa
những biểu đồ màu của chúng. Với kỹ thuật này chúng ta có thể sử dụng các độ đo
khác nhau để tính toán khoảng cách giữa hai biểu đồ màu. Ví dụ dưới đây sẽ mô tả
hoạt động của kỹ thuật này:

Hình2.2: Ba ảnh và biểu đồ của chúng.
Trong biểu đồ màu có 3 màu: Black, white and gray. Kí hiệu biểu đồ màu của
ảnh A:{25%, 25%, 50%}; biểu đồ màu của ảnh B: {18.75%, 37.5%, 43.75} và ảnh C
có biểu đồ màu như ảnh B. Nếu sử dụng độ đo khoảng cách Euclid để tính toán
khoảng cách biểu đồ thì khoảng cách giữa hai ảnh A và B cho biểu đồ màu toàn bộ là:
(0.25 − 0.1785 ) 2 + (0.25 − 0.375) 2 + (0.5 − 0.4375) 2 = 0.153

dGCH(A,B)

=

(0.25 − 0.1785 ) 2 + (0.25 − 0.375) 2 + (0.5 − 0.4375) 2 = 0.153

và dGCH(A,C) =dGCH(A,B) ,dGCH(B,C) =0

29

GCH là một phương pháp truyền thống cho việc tra cứu ảnh dựa trên màu sắc.
Mặc dù vậy, nó không chứa các thông tin liên quan đến sự phân bố màu của các vùng.
Do đó, khoảng cách giữa các ảnh đôi khi không thể chỉ ra được sự khác nhau thực sự
giữa chúng. Ví dụ, khoảng cách giữa ảnh A và C khác so với khoảng cách giữa ảnh A
và B nhưng bằng việc xây dựng GCH thì lại thu được khoảng cách tương tự. Ngoài ra
còn có trường hợp hai ảnh khác nhau có GCH giống nhau như ví dụ trên ảnh B và C.
Điều này chính là hạn chế của biểu đồ màu toàn bộ.
Kỹ thuật tra cứu dựa vào lược đồ màu cục bộ - LCH

2.2.2

Phương pháp biểu đồ màu cục bộ (gọi tắt là LCH) bao gồm thông tin liên quan
đến sự phân bố màu của các vùng. Trước tiên là nó phân đoạn ảnh thành nhiều khối và
sau đó biểu diễn biểu đồ màu cho mỗi khối, một ảnh sẽ được biểu diễn bởi những biểu
đồ màu này. Khi so sánh hai ảnh, khoảng cách được tính toán bằng cách sử dụng
những biểu đồ của chúng giữa một vùng trong một ảnh và một vùng tương ứng trong
ảnh khác. Khoảng cách giữa hai ảnh được xác định bằng tổng tất cả các khoảng cách
này. Nếu sử dụng căn bậc hai của khoảng cách Euclid để tính toán khoảng cách biểu
đồ thì khoảng cách giữa hai ảnh Q và I cho biểu đồ màu cục bộ là:
M

N

k =1

i =1

∑ ∑ ( H [ i ] − H [ i ])
d (Q,I)=
M

N

k =1

i =1

∑ ∑ ( H [ i ] − H [ i])
k
Q

k
I

k
Q

k
I

2

(2-1)

2

Ở đây M là số vùng được phân đoạn trong ảnh, N là số mức trong biểu đồ màu
và H[i] là giá trị của mức i trong biểu đồ màu đại diện cho vùng k của ảnh.
2.2.3

Vector gắn kết màu
Trong [7] đã đề cập đến cách tiếp cận khác liên kết thông tin không gian vào lược

đồ màu, các véctơ gắn kết màu – CCV (Color Coherence Vectors), được đề xuất mỗi
bin lược đồ được phân thành hai loại, đó là, gắn kết, nếu nó thuộc về một vùng màu
đồng nhất lớn, hoặc không gắn kết, nếu nó không thuộc về một vùng màu đồng nhất