Tải bản đầy đủ - 0 (trang)
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM MỜ

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM MỜ

Tải bản đầy đủ - 0trang

Khi µ F ( x ) = 0 thì x ∉ F hồn tồn. Khi µ F ( x ) = 1 thì ∀ x ∈ F hồn tồn.

Tập mờ F rỗng nếu và chỉ nếu µ F ( x ) = 0 với ∀ x ∈ X

Tập mờ F tồn phần nếu và chỉ nếu µ F ( x ) = 1 với ∀ x ∈ X

Như vậy, khái niệm tập mờ là sự tổng quát hóa khái niệm tập rõ bởi hàm thuộc

của nó có thể lấy giá trị bất kỳ trong khoảng [0, 1], tập rõ chỉ là một tập mờ đặc biệt

vì hàm thuộc µ F ( x ) chỉ nhận hai giá trị 0 hoặc 1.

Ví dụ 1.3: X = {X1, X2, X3, X4}



Hàm thuộc khơng còn mang 2 giá



Biểu diễn tập mờ theo đồ thị.



trị tuyệt đối 0 hay 1, mà là giá trị thuộc

đoạn [0,1].

Hình 1.1: Tập mờ và biểu diễn tập mờ

Ví dụ 1.4: Cho tập X gồm 5 người là { x 1 , x 2 , x 3 , x 4 , x 5 } tương ứng có tuổi là

50, 10, 15, 55, 70, xác định tập F là tập hợp những người “Trẻ”?

Ta có thể xây dựng hàm thuộc như sau: µ F(50)=0.35, µF(10)=0.95,

µF(15)=0.75, µF(55)=0.30, µF(70)=0.05.

Khi đó tập mờ F = {(50, 0.35) (10, 0.95) (15, 0.75) (55, 0.30)(70, 0.05)} và F

được biểu diễn như Hình 1.2 sau:

6



Hình 1.2: Ví dụ một tập mờ

* Số mờ

Xét tập mờ F trên tập các số thực R. Về nguyên tắc, không có ràng buộc chặt

đối với việc xây dựng các tập mờ để biểu thị ngữ nghĩa của các khái niệm ngôn

ngữ. Tuy nhiên, để đơn giản trong xây dựng các tập mờ và trong tính tốn trên các

tập mờ, người ta đưa ra khái niệm tập mờ có dạng đặc biệt, gọi là số mờ để biểu thị

các khái niệm mờ về số như gần 10, khoảng 15, lớn hơn nhiều so với 10,v.v.

Trong điều khiển, với mục đích sử dụng các hàm thuộc sao cho khả năng tích

hợp chúng là đơn giản, người ta thường chỉ quan tâm đến hai dạng số mờ hình

thang và số mờ hình tam giác.

Số mờ hình thang

Hàm thành viên có dạng sau [1]:

0,

x < a−c



 x − a + c / c, a − c ≤ x < a

)

 (

µF ( x ) = 

1,

a≤ x≤b

( b + d − x ) / d , b < x ≤ b + d



0,

d +d < x





Hình 1.3. Số mờ hình thang.

7



Số mờ hình tam giác

Số mờ hình tam giác là trường hợp đặc biệt của số mờ hình thang. Hàm

thành viên có dạng sau:

x−a

b − a , a ≤ x ≤ b



c − x

µF ( x ) = 

, b≤x≤c

c −b

otherwise

 0,







Hình 1.4. Số mờ hình tam giác.

1.2. Giới thiệu về phân cụm mờ

1.2.1. Khái quát phân cụm

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các

phương pháp học khơng giám sát trong học máy, nhằm tìm kiếm, phát hiện các

cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó

cung cấp thơng tin, tri thức cho việc ra quyết định.

Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể

hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm,

sao cho các đối tượng trong cùng một cụm tương tự nhau và các đối tượng khác

cụm thì khơng tương tự nhau [23].

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm nội tại bên

trong của bộ dữ liệu khơng có nhãn. Tuy nhiên, khơng có tiêu chí nào là được xem

là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào

mục đích cuối cùng của phân cụm dữ liệu. Do đó, người sử dụng phải cung cấp tiêu

chuẩn, theo cách như vậy mà kết quả của phân cụm sẽ phù hợp với nhu cầu của

người sử dụng cần.

Định nghĩa 1.1:

8



Cho là một tập dữ liệu gồm vector: . Bài toán phân cụm là chia tập dữ liệu X

, c cụm dữ liệu .

Thỏa mãn 3 điều kiện sau:





zi ≠ ∅ , i = 1, 2,..., c







X = Ui =1 zi







zi I z j = ∅ với ; i, j = 1, 2,..., c



c



Phân cụm được đóng vai trò quan trọng trong các nghành khoa học:

- Thương mại: Phân cụm dữ liệu giúp các nhà cung cấp biết được nhóm khác

hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong

cơ sở dữ liệu khách hàng.

- Sinh học: Phân cụm dữ liệu được sử dụng để xác định các loại sinh vật,

phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các

mẫu.

- Phân tích dữ liệu khơng gian: Do sự đồ sộ của dữ liệu không gian như dữ

liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống

thông tin địa lý (GIS), v.v, làm cho người dùng rất khó để kiểm tra các dữ liệu

không gian một cách chi tiết. Phân cụm dữ liệu có thể trợ giúp người dùng tự động

phân tích và xử lý các dữ liêu khơng gian như nhận dạng và chiết xuất các đặc tính

hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không gian.

- Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,

v.v, nhằm cung cấp thơng tin cho quy hoạch đô thị.

- Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp

thông tin cho nhận dạng các vùng nguy hiểm.

- Địa lý: Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng.

- Khai phá Web: Phân cụm dữ liệu có thể khám phá các nhóm tài liệu quan

trọng, có nhiều ý nghĩa trong môi trường Web. Các lớp tài liệu này trợ giúp cho

việc khám phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách

hàng đặc biệt hay khám phá ra cộng đồng Web, v.v.

9



1.2.2. Độ đo gần gũi

Trong định nghĩa về bài tốn phân cụm, chúng tơi đã đưa ra cụm từ “đối tượng

tương tự nhau”. Vậy hai đối tượng như thế nào để gọi là tương tự nhau và làm sao

để đo mức độ tương tự giữa chúng.

Định nghĩa:

Một độ đo không tương tự δ trên X là một hàm:

Sao cho:

∃δ 0 ∈ R : −∞ < δ ( x, x ) ≤ δ ( x, y ) < +∞, ∀x, y ∈ R



δ ( x, y ) = δ ( y, x ) , ∀x, y



Ngoài ra nếu:

δ ( x, x ) = 0 nếu x = y



δ ( x, y ) ≤ δ ( x, z ) + δ ( z , y )



Thì δ được gọi là một độ đo không tương tự metric (DM metric). Như vậy, ta

thấy rằng, độ đo không tương tự nhỏ nhất khi hai vector đồng nhất hay tương tự

nhau.

Một số độ đo không tương tự:

Khoảng cách giữa hai đối tượng x , y như sau

• Khoảng cách Minskowski:

1/ q



 n

q

d ( x, y ) =  ∑ xi − yi ÷

 i =1





với q là số nguyên dương.

• Khoảng cách Euclide:

d ( x, y ) =



n



∑( x − y )

i =1



i



2



i



Đây là trường hợp đặc biệt của khoảng cách Minkowski với q = 2

• Khoảng cách Manhattan: .

• Khoảng cách cực đại: δ ( x, y ) = max i =1.. N xi − yi

10



x. y



• Độ đo tương tự Cosin hai vector: cos µ = x . y

Một số phương pháp phân cụm điển hình

Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các thuật toán

phân cụm theo các phương pháp chính sau:

Phân cụm phân hoạch

Phân cụm phân cấp

Phân cụm dựa trên mật độ

Phân cụm dựa trên lưới

Phân cụm dựa trên mơ hình

Phân cụm có ràng buộc

1.2.3. Các bước phân cụm

- Chọn lựa đặc trưng: Các đặc trưng phải được chọn lựa một cách hợp lý để

có thể “mã hố” nhiều nhất thơng tin liên quan đến cơng việc. Mục tiêu chính của

bước này là phải giảm thiểu sự dư thừa thông tin giữa các đặc trưng. Các đặc trưng

cần được tiền xử lý trước khi dùng chúng trong các bước sau.

- Chọn độ đo gần gũi: Đây là một độ đo chỉ ra mức độ tương tự hay không

tương tự giữa hai véc tơ đặc trưng. Phải đảm bảo rằng tất cả các véc tơ đặc trưng

góp phần như nhau trong việc tính tốn độ đo gần gũi và khơng có đặc trưng nào át

hẳn đặc trưng nào. Điều này được đảm nhận bởi quá trình tiền xử lý.

- Tiêu chuẩn phân cụm: Điều này phụ thuộc vào sự giải thích của chuyên gia

cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng

đang ẩn dấu dưới tập dữ liệu. Chẳng hạn, cụm trong khơng gian một chiều sẽ có

tiêu chuẩn khác với cụm trong không gian nhiều chiều.

- Thuật toán phân cụm: Cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm

làm sáng tỏ cấu trúc cụm của tập dữ liệu.

- Cơng nhận kết quả: Khi đã có kết quả phân loại thì ta phải kiểm tra tính

đúng đắn của nó. Điều này thường được thực hiện bởi việc dùng các kiểm định

thích hợp.



11



- Giải thích kết quả: Trong rất nhiều trường hợp, chuyên gia trong lĩnh vực

ứng dụng phải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và

phân tích để đưa ra được kết quả đúng đắn.

Tóm lại, phân cụm dữ liệu là một vấn đề đòi hỏi chúng ta phải giải quyết

những cơng việc sau đây:

-



Biểu diễn dữ liệu.

Xây dựng hàm tính độ tương tự.

Xây dựng các tiêu chuẩn phân cụm.

Xây dựng mơ hình cho cấu trúc cụm dữ liệu.

Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo.

Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.



1.2.4. Phân cụm mờ

Nhiều vấn đề đã dẫn đến bài toán phân cụm mờ và ứng dụng được nói nhiều

trong bài tốn phân cụm mờ là: nhận dạng ảnh, xử lý thông tin, phân loại khách

hàng trong ngân hàng. Đã có rất nhiều nghiên cứu chuyên sâu trong 2 thập kỷ qua.

Điểm quan trọng là sự khác nhau của hai hướng tiếp cận, theo hướng mờ thì một

vector thuộc đồng thời vào nhiều cụm, ngược lại theo hướng xác suất thì một

vector chỉ được thuộc vào duy nhất chỉ một cụm. Ưu điểm của phân cụm mờ so với

phân cụm rõ được thể hiện trong thực tế khi mà không thể chỉ ra ranh giới rõ ràng

giữa các cụm. Phân cụm rõ bắt buộc các điểm chỉ được phép thuộc vào duy nhất

một cụm. Còn phân cụm mờ cho phép các điểm dữ liệu linh hoạt hơn, một điểm dữ

liệu có thể thuộc vào nhiều cụm và ta đưa ra khái niệm độ thuộc để chỉ mức độ liên

quan của điểm dữ liệu vào cụm mà nó thuộc. Giá trị độ thuộc nằm trong khoảng

(0,1), trường hợp điểm dữ liệu không thuộc một cụm nào hay chỉ thuộc vào duy

nhất một cụm là rất hiếm.

1.2.4.1. Tập dữ liệu trong phân cụm mờ

Kỹ thuật phân cụm có thể được áp dụng cho dữ liệu được định lượng (kiểu

số), định lượng (phân loại) hoặc có thể kết hợp cả hai.

12



Dữ liệu được quan sát bằng quá trình vật lý. Mỗi quan sát chứa n biến độ đo,

T

được biểu diễn thành vector cột n chiều xk = [ x1k , x2 k ,..., xnk ] , xk ∈ R n . Tập A của N



quan sát được biểu diễn X = { xk k = 1, 2..., N } , và biểu diễn như một ma trận n × N :

 x11

X = M

 xn1



L

O

L



x1N 

M 

xnN 



Trong thuật ngữ nhận dạng mẫu, các cột của ma trận được gọi là các mẫu hay

các đối tượng, các dòng gọi là các đặc trưng hay các thuộc tính, và X gọi là mẫu

hoặc ma trận dữ liệu. Ý nghĩa của các cột và các hàng của X phụ thuộc vào ngữ

cảnh. Ví dụ, trong hoạt động sản xuất kinh doanh các cột của X có thể chứa các

mẫu như là: doanh số, lợi nhuận, thanh toán, nợ quá hạn.

1.2.4.2. Các cụm và các mẫu trong phân cụm mờ

Chúng ta đã biết một cụm là một nhóm các đối tượng tương tự nhiều hơn các

đối tượng trong những cụm khác [23]. Thuật ngữ “tương tự” cần được hiểu như

tương tự toán học. Trong không gian metric, tương tự được xác định bằng độ đo

khoảng cách.

Dữ liệu cho thấy thấy các cụm có dạng hình học khác nhau, kích thước và mật

độ khác nhau (xem Hình 1.5).



Hình 1.5. Các dạng hình học khác nhau của cụm trong không gian R 2

Trong tập dữ liệu khi cụm (a) có dạng hình cầu, cum (b) đến cụm (d) có thể

được đặc trưng là tuyến tính hoặc phi tuyến. Hiệu quả của hầu hết các thuật tốn

13



phân cụm bị ảnh hưởng bởi hình dạng hình học và phân bố của các cụm, mà còn bị

ảnh hưởng bởi khoảng cách giữa các cụm. Các cụm có thể riêng biệt, liên tục, hoặc

chồng lên nhau.

1.2.4.3. Phương pháp phân cụm mờ

Bài toán phân cụm N vector X = { x 1 , x 2 ,..., x N } thành c cụm dựa trên tính tốn

tối thiểu hóa hàm mục tiêu để đo chất lượng của cụm và tìm tâm cụm sao cho hàm

độ đo không tương tự là nhỏ nhất. Một phân cụm mờ vector được biểu diễn bởi ma

trận sao cho một điểm dữ liệu có thể thuộc về nhiều nhóm và được xác định bằng

giá trị hàm thuộc u . Ma trận giá trị hàm thuộc có dạng như sau:

u11 L u1c 

U = M O M 

u N 1 L u Nc 



Thuật toán phân cụm mờ đã được xuất phát từ việc cực tiểu giá trị hàm mục

tiêu:

N



c



J m = ∑∑ ukjm d ( xk , z j )

k =1 j =1



: là một độ đo khơng tương tự.

Giải bài tốn J m (u, z ) → min với ràng buộc sau:



0 ≤ u ≤ 1

kj



c



∑ ukj = 1

 j =1

N



0 ≤ ∑ ukj ≤ N

k =1





∀j = 1, 2,.., c

∀k = 1, 2,.., N



1.3. Thuật toán Fuzzy C – Means (FCM)

Phân cụm dữ liệu đóng vai trò quan trọng trong giải quyết bài tốn nhân biết

mẫu và xác định mơ hình mờ. Thuật tốn FCM phù hợp hơn với dữ liệu lớn hoặc

nhỏ phân bố quanh tâm cụm.

14



Fuzzy C – Means là một phương pháp phân nhóm cho phép một phần dữ liệu

thuộc hai hay nhiều cụm.

Thuật toán Fuzzy C – Means phân tập N đối tượng trong không gian R d chiều

z j = { z j1 , z j 2 ,..., x jd } , với xi = { x i1 , x i 2 ,..., x id } thành c cụm mờ 1 < c < N với tâm cụm ,



với z j = { z j1 , z j 2 ,..., x jd } . Cụm mờ của đối tượng được biểu diễn bằng ma trận mờ

có N hàng và c cột với N là số các đối tượng và c là số cụm.

Có thể tổng qt bài tốn bằng cơng thức (p) như [8]



( )



N

c



min

J

(

µ

,

Z)

=

µijm xi − z j

∑∑

m

 µ ,Z

i =1 j =1



 c

(p) ∑ µij = 1, ∀i = 1,..., N

 j =1

 µ ≥ 0, ∀i = 1,..., N ; j = 1,..., c

 ij





2



(1.1)

(1.2)

(1.3)



Trong đó:





dij = xi − z j là khoảng cách Euclide







tham số mờ (Đối với m = 1 thì Fuzzy C – Means trở thành thuật toán rõ.



Giá trị thường sử dụng là m = 2 )



zj



Tâm cụm của cụm thứ j được tính theo cơng thức (1.4):





=





N

m

i

i =1 ij

N

m

i =1 ij



µ x



(1.4)



µ



1.3.1. Thuật tốn Fuzzy C - Means

FCM được đề xuất bởi Bezdek năm 1974:





-



Input



X = { x 1 , x 2 ,..., x N }

Số cụm c



Tham số

Output

Tâm cụm

15







Giá trị hàm thuộc

Thuật toán



Bước 1: Lựa chọn ; Khởi tạo các giá trị hàm thuộc µij , i = 1, 2,..., N ; j = 1, 2,..., c

Bước 2: Tính tốn tâm cụm theo cơng thức (1.4)

zj





=





N

m

i

i =1 ij

N

m

i =1 ij



µ x

µ



Bước 3: Tính khoảng cách Euclide



(x



dij ( xi , z j ) =



i1



− z j1 ) + ( xi 2 − z j 2 ) + ... + ( xid − z jd )

2



2



2



Bước 4: Cập nhật các giá trị hàm thuộc theo cơng thức (1.5):

µij =



1

2



(1.5)



 dij  m −1

∑ k =1  d ÷

 ik 

c



Bước 5: Nếu không hội tụ, lặp lại bước 2.

Một vài luật dừng có thể được sử dụng. Thứ nhất các giá trị đầu và giá trị cuối

nhận giá trị nhỏ hơn khi thay đổi giá trị tâm cụm. Hoặc hàm mục tiêu (1.1)

N



c



J m ( µ , Z) = ∑∑ µijm xi − z j

i =1 j =1



2



không thể cực tiểu hơn nữa. Thuật toán FCM nhạy cảm



với giá trị khởi tạo và có thể sảy ra tối ưu cục bộ.

* Ưu và nhược điểm:

Ưu điểm:

-



Cho kết quả tốt nhất cho dữ liệu chồng chéo.



- Dữ liệu điểm duy nhất có thể không thuộc về một cụm duy nhất, ở mỗi

điểm được phân vào cụm dựa trên kết quả tính hàm thuộc. Vì vậy, một

điểm có thể thuộc về nhiều hơn một cụm.

Nhược điểm:

16



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM MỜ

Tải bản đầy đủ ngay(0 tr)

×