Tải bản đầy đủ - 0 (trang)
Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm.

Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm.

Tải bản đầy đủ - 0trang

3.2.1.4. Mục tiêu:

Đánh giá kết quả phân cụm mờ của từng giải thuật khi thay đổi các giá trị

đầu vào, đồng thời so sánh kết quả đầu ra của các giải thuật phân cụm mờ thông qua

các chỉ số đánh giá Dunn, Davie, Purity, Mutual_Information sau:

 Độ đo DAVIES_BOULDIN:

Độ đo Davies-Bouldin được tính theo cơng thức:



Trong đó:

 K là số cụm





là trọng tâm của cụm x







là trung bình khoảng cách của tất cả các phần tử trong cụm x tới trọng

tâm







là khoảng cách giữa hai trọng tâm của cụm i và j.



Giá trị DB càng nhỏ thì chất lượng phân cụm càng tốt.

 Độ đo DUNN:

Độ đo Dunn được tính theo cơng thức:



Trong đó:





là khoảng cách giữa hai cụm i và j, thường được tính là khoảng cách giữa

hai tâm cụm i và j.







là khoảng cách trung bình bên trong cụm k.



 n là số cụm.

D càng lớn thì phép chia cụm càng tốt.

 Độ đo PURITY

54



Purity phản ánh độ tinh khiết của các cụm. Purity của một cụm được xác

định dựa trên số đối tượng thuộc chủ đề mà xuất hiện nhiều nhất trong cụm đó.

Purity đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm được tính tốn

theo cơng thức sau:

Trong đó





là số đối tượng trong cụm Pi,



 là số đối tượng trong cụm Pi thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm.

Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa đối tượng thuộc cùng

một chủ đề duy nhất. Giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.

Ngược lại với Entropy, giá trị Purity càng lớn thì cho kết quả gom cụm tốt hơn

 Độ đo MUTUAL INFORMATION (MI).

MI là thông tin về độ đo tương hỗ sử dụng phát hiện mối quan hệ giữa

2 biến, nếu MI lớn chứng tỏ sự phụ thuộc giữa 2 biến cũng lớn và

ngược lại.



Trong đó





là số đối tượng trong cụm ,



 là số đối tượng trong cụm thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm



55



3.2.2. Bài toán viêm gan

3.2.2.1. Đầu vào:

Bảng 3.3: Bộ dữ liệu phân lớp “viêm gan” của UCI

Hepatitis Data Set (Tập Dữ liệu Viêm Gan)

G.Gong (Đại học Carnegie-Mellon) qua Bojan Cestnik Viện Jozef Stefan Jamova

3961000 Ljubljana Yugoslavia (ĐT.: (38) (+ 61) 214-399 ext.287)}

Đặc điểm

tập dữ liệu:

Đặc tính

thuộc tính:



Đa biến

Số nguyên,



Tác vụ liên

quan:



số thực

Phân lớp



Số bộ dữ liệu:



155



Lĩnh vực:



Đời Sống



Số lượng

thuộc tính:



19



Ngày tặng



1/11/1988



Giá trị thiếu?







Số người

truy cập



179292



3.2.2.2. Đầu ra:

Hai cụm dữ liệu sau khi phân cụm tương ứng là CHẾT VÀ SỐNG

3.2.2.3. Phương pháp:

Sử dụng một số giải thuật phân cụm như: K_means, EM, FCM, PFCM.

3.2.2.4. Mục tiêu:

So sánh kết quả phân cụm rõ và phân cụm mờ dựa vào kết quả thu được độ

đo đánh giá chất lượng phân cụm Entropy và Purity:

 Độ đo ENTROPY

Entropy của mỗi cụm phản ánh sự phân tán dữ liệu trong mỗi cụm, giá trị

Entropy đánh giá chất lượng gom cụm tổng thể được tính là trung bình cộng của tất

cả các Entropy của các cụm. Với tập dữ liệu gồm n đối tượng thuộc K loại (chủ đề)

được gán nhãn thủ công, ký hiệu là , j=1..K và thuật toán gom cụm n đối tượng vào

K cụm với . Entropy đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm

được tính tốn theo cơng thức sau:



Trong đó

56







là số đối tượng trong cụm Pi,



 là số đối tượng trong cụm Pi thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm. Kết quả gom cụm là hoàn hảo

nếu mỗi cụm chỉ chứa đối tượng thuộc cùng một chủ đề duy nhất.

Giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.

3.3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN

Để giải quyết bài toán đặt ra ở phần 3.2. Dựa vào lý thuyết chương 2 ứng dụng

cài đặt một số thuật toán cụ thể như sau:

 Đối với bài toán 3.2.1:

Thuật toán phân cụm gồm: FCM, KFCM, PFCM, QPSO_FCM

Đánh giá: Dunn, Davie. Thống kê cụ thể file excel kèm theo

 Đối với bài toán 3.2.2:

Thuật toán phân cụm gồm: KMEANS, EM, FCM, PFCM.

Đánh giá: Thống kê cụ thể file excel kèm theo

Danh sách các hàm và chức năng kèm theo như sau:

Bảng 3.4: Danh sách hàm chức năng

Kmean.m

EM.m

FCM.m

KFCM.m

QPSO-FCM.m

PFCM.m

SoSanh.m



: Cài đặt thuật toán K_means

: Cài đặt thuật toán EM

: Cài đặt thuật toán FCM

: Cài đặt thuật toán KFCM

: Cài đặt thuật toán QPSO-FCM

: Cài đặt thuật toán PFCM

: Đánh giá kết quả các giải thuật



3.4. CÁC BƯỚC THU THẬP VÀ XỬ LÝ DỮ LIỆU

3.4.1. Nguồn dữ liệu

Trong khuôn khổ luận văn, dữ liệu được lấy từ địa chỉ website:

https://archive.ics.uci.edu/ml/index.php



57



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm.

Tải bản đầy đủ ngay(0 tr)

×