Tải bản đầy đủ - 0 (trang)
Bảng 3.16: Khoảng cách trung bình đến tâm cụm

Bảng 3.16: Khoảng cách trung bình đến tâm cụm

Tải bản đầy đủ - 0trang

EM

FCM

PFCM



0.152288

0.141898

0.139607



0.125616

0.125551

0.126546



3.1. NHẬN XÉT KẾT QUẢ

Kết quả thực nghiệm cho thấy các thuật toán phân cụm dữ liệu mờ cho kết

quả tốt hơn phân cụm rõ với bộ dữ liệu được chọn thực nghiệm.

Trong các thuật toán phân cụm dữ liệu mờ thì thuật tốn PFCM cho kết quả

phân cụm chậm nhất, thuật toán KFCM và QPSO_FCM cho kết quả phân cụm

nhanh gần như tương đương.

Nhưng các chỉ số đánh giá phân cụm mờ thể hiện cho thấy được rằng mỗi

thuật tốn phân cụm đều có ưu và nhược điểm riêng, chưa có một phương pháp

phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cơ sở

dữ liệu. Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu diễn

cấu trúc của cơ sở dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng

một thuật tốn phân cụm phù hợp.



68



KẾT LUẬN

Trong quá trình tìm hiểu và hoàn thành luận văn với đề tài “Nghiên cứu một

số phương pháp phân cụm mờ và ứng dụng”, luận văn tập trung nghiên cứu lý

thuyết và áp dụng một số kỹ thuật phân cụm dữ liệu trên bộ dữ liệu của UCI. Đây là

bước khởi đầu trong quá trình tìm hiểu những vấn đề cần quan tâm khi giải quyết

các bài tốn phân cụm dữ liệu trong thực tế.

Trong khn khổ luận văn chưa áp dụng cụ thể vào một cơ sở dữ liệu thực tế

nào, mới chỉ dừng lại trên bộ dữ liệu UCI nên kết quả thực nghiệm chưa mang ý

nghĩa thực tế. Tuy nhiên cũng có một số kết quả ban đầu là phát hiện cụm dữ liệu.

Những kết quả mà luận văn đã thực hiện:

 Về lý thuyết, luận văn tập trung tìm hiểu các kỹ thuật phân cụm truyền

thống, chi tiết một số thuật toán phân cụm rõ, phân cụm mờ và phương pháp

cải tiến phân cụm mờ.

 Về thực tiễn, luận văn đã đưa ra các kết quả kiểm chứng cho lý thuyết sau

quá trình cài đặt thử nghiệm trên bộ dữ liệu UCI bao gồm các kết quả phân

cụm, cải tiến chất lượng phân cụm.

Hướng phát triển của đề tài sau này là xử lý các giá trị khuyết, phát hiện và loại bỏ

các thuộc tính dư thừa, cải tiến phương pháp tính độ tương đồng,... nhằm nâng cao

chất lượng và tốc độ phân cụm. Tiến hành cài đặt và tiếp tục nghiên cứu nhiều kỹ

thuật khai phá dữ liệu hơn nữa, đặc biệt là triển khai giải quyết các bài toán cụ thể

trong thực tế.



69



TÀI LIỆU THAM KHẢO

Tài liệu tiếng việt

[1]. Nguyễn Công Hào (2009), Logic mờ và ứng dụng, Nxb Khoa Học, Huế

[2]. Vũ Thị Lành (2014), Một số độ đo mức tương tự giữa các tập mờ trực cảm

(Vague sets), thử nghiệm phân cụm dữ liệu, Luận văn tốt nghiệp chuyên

nghành khoa học máy tính, đại học Thái Nguyên.

[3]. Trần Tuấn Minh (2009), Nghiên cứu một số phương pháp khai thác dữ liệu và

ứng dụng, Báo cáo đề tài khoa học cấp bộ, trường đại học Đà Lạt.

[4]. An Hồng Sơn (2008), Nghiên cứu một số phương pháp phân cụm mờ và ứng

dụng, Luận văn thạc sĩ khoa học, đại học Thái Nguyên.

[5]. Trần Mạnh Tuấn (2016), Nghiên cứu một số phương pháp phân cụm bán giám

sát mờ trong phân đoạn ảnh nha khoa, Luận án tiến sĩ toán học, Viện Hàn

Lâm Khoa Học và Công Nghệ Việt Nam.

Tài liệu tiếng anh

[6]. A.Safana, J.S.Leena Jasmine (2014), Possibilistic Fuzzy C Means Algorithm

For Mass classificaion In Digital Mammogram, Senior Grade Assistant

professor, PG Velammal Engineering College, Chennai.

[7]. A.K. Jain, R.C. Dubes (1998), Algorithms for clustering data, Ptentice Hall,

Englewood Cliffs, NJ.

[8]. D. Gibson, J. Kleinberg, P. Raghavan (2000), Clustering Categorical Data: An

Approach Based on Dynamical Systems, VLDB Journal 8 (3-4) pp. 222-236.

[9]. D.Vanisri (2014), “A Novel Kernel Based Fuzzy C Means Clustering With

Cluster Validity Measures”, International Journal of Computer Science and

Mobile Computing, Vol.3 Issue.12, pg. 254-260.

[10]. Eui-Hong (Sam) Han, George Karypis, Vipin Kumar (2000), CHAMELEON:

A



Hierarchical



Clustering



Algorithm



Using



Dynamic



Modeling,



Glaros.dtc.umn.edu/gkhome/fetch/papers/chameleon.pdf, Wednesday, July 25,

2018, 10:45:46 AM.



70



[11]. G.Gong (1998), Hepatitis Data Set, https://archive.ics.uci.edu/ml/machinelearning-databases/hepatitis, Friday, August 3, 2018, 9:04:47 PM.

[12]. Martin Theus – Lehrstuhl fur Rechner



(2004), Fuzzy Clustering, Martin



Theus – Lehrstuhl fur Rechner orientierte Statistik und Datenanalse

Multivariate Statistische erfahrn-ss2004+E8.

[13]. Jon Garibaldi, Turhan Ozen, Xiao Ying Wang (2003), “Application of the

Fuzzy C-Means Clustering Method on the Analysis of non-Preprocessed FTIR

Data for Cancer Diagnosis”, Department of Computer Science and

Information Technology The University of Nottingham, United Kingdom.

[14]. J. Han, M. Kamber (2001), “Data Mining Concepts and Techniques”, Morgan

Kaufmann Publishers.

[15]. Qiuyi



Wu



(2017),



“Epileptic



Seizure



Recognition



Data



Set”,



https://archive.ics.uci.edu/ml/machine-learning-databases/ Epileptic, Thursday,

March 22, 2018, 10:03:22 AM.

[16]. TSUEN-HO HSU (1999), “An Application of Fuzzy Clustering in GroupPositioning Analysis”, Proc. Natl. Sci, Counc. ROC© Vol. 10, No. 2, 2000.

pp. 157-167.

[17]. Shiqin Yang (2017), Research on Homogeneous and Heterogeneous Particle

Swarm Optimization for Global Optimization Problems, Hosei University.



71



28,40,71,74-75,77 (6

1-27,29-39,41-70,72-73,76,78-81 (75



72



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 3.16: Khoảng cách trung bình đến tâm cụm

Tải bản đầy đủ ngay(0 tr)

×