Tải bản đầy đủ - 0 (trang)
CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN PHÂN LOẠI BỆNH ĐỘNG KINH VÀ VIÊM GAN

CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN PHÂN LOẠI BỆNH ĐỘNG KINH VÀ VIÊM GAN

Tải bản đầy đủ - 0trang

 Virus học: Chẩn đoán nhiễm virus viêm gan thường được thực hiện bằng cách

phát hiện các protein được sản xuất bởi virus, hoặc các kháng thể để chống lại

các virus trong mẫu máu. Thường một thử nghiệm ban đầu sẽ được theo dõi với

một xét nghiệm máu khẳng định

 Virus vẫn còn hiện diện (hoạt động).

 Kiểm tra số lượng virus trong máu, được biết đến như là tải lượng virus.

Từ đó bác sĩ sẽ theo dõi lượng siêu vi trong khi điều trị để tìm kiếm một phản ứng

với thuốc kháng virus.

 Siêu âm gan: Siêu âm thường được sử dụng trong kiểm tra tình trạng thai nhi ở

phụ nữ, nhưng siêu âm có thể nhìn thấy được gan bên trong cơ thể. Thơng qua

siêu âm sóng âm thanh đi vào cơ thể và những tiếng vọng được vớt lên và được

sử dụng để xây dựng một hình ảnh màu đen và trắng của tình trạng của gan.

 CT và MRI: Kiểm tra hình ảnh này có thể được sử dụng để được một hình ảnh

chi tiết của gan. CT (chụp cắt lớp) sử dụng thiết bị X-ray để hiển thị mặt cắt

ngang hoặc cắt lát của các mô và các cơ quan. Đôi khi, quét CT được sử dụng để

giúp hướng dẫn cho sinh thiết. MRI (cộng hưởng từ hình ảnh) sử dụng máy quét

ống tạo ra các lĩnh vực từ tính để cung cấp một cái nhìn chi tiết hơn về các cơ

quan và mơ hơn là máy quét CT.

 Sinh thiết gan: Có nhiều nguyên nhân của bệnh gan và đơi khi rất khó để chẩn

đoán một điều kiện dựa trên các triệu chứng và xét nghiệm máu đơn giản như

LFTs. Sinh thiết gan có thể cần thiết để chẩn đoán nguyên nhân của bệnh gan.

Sinh thiết gan là một quá trình mà một mảnh nhỏ của gan được lấy để nghiên

cứu. Các mẫu mô được kiểm tra dưới kính hiển vi để tìm kiếm thông tin gây ra

tổn thương gan.

3.1.2 Hiện trạng và phương pháp chuẩn đoán động kinh

Động kinh là một chứng bệnh xảy ra do rối loạn hoạt động điện của não bộ

từ đó gây ra nhiều thay đổi về vận động, hành vi, suy nghĩ, cảm xúc… và đặc trưng

bởi các cơn co giật tái diễn nhiều lần. Tuy nhiên các cơn co giật cũng có thể gặp

51



phải ở nhiều bệnh khác nữa chẳng hạn như hạ can xi huyết, hạ đường huyết, căng

thẳng tâm lý, sốt cao… do vậy, để chẩn đốn chính xác bệnh động kinh, người bệnh

cần tới các cơ sở chuyên khoa thần kinh để được thăm khám.

Nhận biết các triệu chứng của bệnh động kinh

Khi nhắc đến bệnh động kinh, nhiều người sẽ nghĩ đến những cơn co giật

toàn thân, sùi bọt mép, mắt trợn ngược… Tuy nhiên trên thực tế có rất nhiều thể

động kinh khác nhau, mỗi thể bệnh lại có nhiều đặc điểm riêng biệt về triệu chứng.

Các cơn co giật là tuy là dấu hiệu đặc trưng của bệnh động kinh nhưng đây khơng

phải là dấu hiệu duy nhất, ngồi co giật thì người bệnh còn có thể xuất hiện rất

nhiều các triệu chứng khác như:

 Mất ý thức tạm thời: hay nhìn chằm chằm vào khoảng khơng, đang ăn, đang nói,

đang chơi tự nhiên ngừng lại trong khoảng vài giây rồi sau đó các hoạt động lại

được tiếp tục trở lại. Hiện tượng này thường gặp ở trẻ em, tương đối khó nhận

biết nếu khơng quan sát kỹ.

 Hay có những cảm xúc bất thường: cáu giận, bực tức vô cớ, có những người lại

đột nhiên cảm thấy vui vẻ hoặc hay xuất hiện những cảm xúc trong quá khứ mà

mình đã từng trải qua.

 Có những hành động kỳ lạ: môi mấp máy, mắt chớp liên tục, tay và chân hay

chuyển động với những lý do không rõ ràng, đầu tự nhiên gập xuống…

 Rung giật cơ ở một phần cơ thể: Các cơ ở tay, chân hay một bộ phận cơ thể khác

đột nhiên bị rung giật mạnh.

 Xuất hiện những ảo giác về âm thanh, hình ảnh, mùi vị: Nghe thấy âm thanh lạ

(tiếng ù ù, tiếng người nói chuyện, tiếng gió thổi…), nhìn thấy hình ảnh lạ

(xuất hiện nhiều ảo giác hình ảnh, nhìn cảnh vật như biến đổi trước mắt), cảm

nhận những vị lạ trong miệng (vị đắng, vị kim loại…), ngửi thấy những mùi lạ

và khó chịu.



52



3.2. PHÁT BIỂU BÀI TỐN

3.2.1. Bài tốn bệnh động kinh

3.2.1.1. Đầu vào:

Bảng 3.1: Bộ dữ liệu động kinh

Epileptic Seizure Recognition Data Set

(Tập Dữ liệu Động Kinh)

https://archive.ics.uci.edu/ml/datasets/

Đặc điểm tập

dự liệu:



Đa biến,

chuỗi thời gian



Số bộ

dữ liệu:



11500



Lĩnh

vực:



Đời

Sống



Đặc tính

thuộc tính:



Số nguyên,

số thực



Số lượng

thuộc tính:



179



Ngày

tặng



24-0517



Tác vụ

liên quan:



Phân lớp,

phân cụm



Số người

truy cập



35953



Giá trị thiếu? Khơng



3.2.1.2 Đầu ra:

Bảng 3.2: Năm cụm dữ liệu sau khi phân cụm.

5



4



Mắt mở, có

nghĩa là khi đó

não bệnh nhân

đã thu được tín

hiệu EEG để

điều khiển

mở mắt



Mắt nhắm, có

nghĩa là khi đó

não bệnh nhân

đã thu được tín

hiệu EEG để

điều khiển

nhắm mắt



2300



2300



3



2



Xác định

vùng của

Ghi nhận tín

khối u trong

hiệu EEG

não thu nhận trong khu vực

các hoạt động

có khối u

EEG

2300



2299



1

Các hoạt

động thu

nhận tín

hiệu được

ghi lại

2298



3.2.1.3. Phương pháp:

Sử dụng các giải thuật phân cụm: FCM, KFCM, QPSO-FCM, PFCM phân

cụm bộ dữ liệu đầu vào.



53



3.2.1.4. Mục tiêu:

Đánh giá kết quả phân cụm mờ của từng giải thuật khi thay đổi các giá trị

đầu vào, đồng thời so sánh kết quả đầu ra của các giải thuật phân cụm mờ thông qua

các chỉ số đánh giá Dunn, Davie, Purity, Mutual_Information sau:

 Độ đo DAVIES_BOULDIN:

Độ đo Davies-Bouldin được tính theo cơng thức:



Trong đó:

 K là số cụm





là trọng tâm của cụm x







là trung bình khoảng cách của tất cả các phần tử trong cụm x tới trọng

tâm







là khoảng cách giữa hai trọng tâm của cụm i và j.



Giá trị DB càng nhỏ thì chất lượng phân cụm càng tốt.

 Độ đo DUNN:

Độ đo Dunn được tính theo cơng thức:



Trong đó:





là khoảng cách giữa hai cụm i và j, thường được tính là khoảng cách giữa

hai tâm cụm i và j.







là khoảng cách trung bình bên trong cụm k.



 n là số cụm.

D càng lớn thì phép chia cụm càng tốt.

 Độ đo PURITY

54



Purity phản ánh độ tinh khiết của các cụm. Purity của một cụm được xác

định dựa trên số đối tượng thuộc chủ đề mà xuất hiện nhiều nhất trong cụm đó.

Purity đánh giá chất lượng gom cụm tồn cục cho tất cả các cụm được tính tốn

theo cơng thức sau:

Trong đó





là số đối tượng trong cụm Pi,



 là số đối tượng trong cụm Pi thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm.

Kết quả gom cụm là hoàn hảo nếu mỗi cụm chỉ chứa đối tượng thuộc cùng

một chủ đề duy nhất. Giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.

Ngược lại với Entropy, giá trị Purity càng lớn thì cho kết quả gom cụm tốt hơn

 Độ đo MUTUAL INFORMATION (MI).

MI là thông tin về độ đo tương hỗ sử dụng phát hiện mối quan hệ giữa

2 biến, nếu MI lớn chứng tỏ sự phụ thuộc giữa 2 biến cũng lớn và

ngược lại.



Trong đó





là số đối tượng trong cụm ,



 là số đối tượng trong cụm thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm



55



3.2.2. Bài toán viêm gan

3.2.2.1. Đầu vào:

Bảng 3.3: Bộ dữ liệu phân lớp “viêm gan” của UCI

Hepatitis Data Set (Tập Dữ liệu Viêm Gan)

G.Gong (Đại học Carnegie-Mellon) qua Bojan Cestnik Viện Jozef Stefan Jamova

3961000 Ljubljana Yugoslavia (ĐT.: (38) (+ 61) 214-399 ext.287)}

Đặc điểm

tập dữ liệu:

Đặc tính

thuộc tính:



Đa biến

Số nguyên,



Tác vụ liên

quan:



số thực

Phân lớp



Số bộ dữ liệu:



155



Lĩnh vực:



Đời Sống



Số lượng

thuộc tính:



19



Ngày tặng



1/11/1988



Giá trị thiếu?







Số người

truy cập



179292



3.2.2.2. Đầu ra:

Hai cụm dữ liệu sau khi phân cụm tương ứng là CHẾT VÀ SỐNG

3.2.2.3. Phương pháp:

Sử dụng một số giải thuật phân cụm như: K_means, EM, FCM, PFCM.

3.2.2.4. Mục tiêu:

So sánh kết quả phân cụm rõ và phân cụm mờ dựa vào kết quả thu được độ

đo đánh giá chất lượng phân cụm Entropy và Purity:

 Độ đo ENTROPY

Entropy của mỗi cụm phản ánh sự phân tán dữ liệu trong mỗi cụm, giá trị

Entropy đánh giá chất lượng gom cụm tổng thể được tính là trung bình cộng của tất

cả các Entropy của các cụm. Với tập dữ liệu gồm n đối tượng thuộc K loại (chủ đề)

được gán nhãn thủ cơng, ký hiệu là , j=1..K và thuật tốn gom cụm n đối tượng vào

K cụm với . Entropy đánh giá chất lượng gom cụm toàn cục cho tất cả các cụm

được tính tốn theo cơng thức sau:



Trong đó

56







là số đối tượng trong cụm Pi,



 là số đối tượng trong cụm Pi thuộc chủ đề và

 n là tổng số đối tượng trong tất cả các cụm. Kết quả gom cụm là hoàn hảo

nếu mỗi cụm chỉ chứa đối tượng thuộc cùng một chủ đề duy nhất.

Giá trị Entropy càng nhỏ thì cho chất lượng gom cụm tốt hơn.

3.3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TỐN

Để giải quyết bài tốn đặt ra ở phần 3.2. Dựa vào lý thuyết chương 2 ứng dụng

cài đặt một số thuật toán cụ thể như sau:

 Đối với bài toán 3.2.1:

Thuật toán phân cụm gồm: FCM, KFCM, PFCM, QPSO_FCM

Đánh giá: Dunn, Davie. Thống kê cụ thể file excel kèm theo

 Đối với bài toán 3.2.2:

Thuật toán phân cụm gồm: KMEANS, EM, FCM, PFCM.

Đánh giá: Thống kê cụ thể file excel kèm theo

Danh sách các hàm và chức năng kèm theo như sau:

Bảng 3.4: Danh sách hàm chức năng

Kmean.m

EM.m

FCM.m

KFCM.m

QPSO-FCM.m

PFCM.m

SoSanh.m



: Cài đặt thuật toán K_means

: Cài đặt thuật toán EM

: Cài đặt thuật toán FCM

: Cài đặt thuật toán KFCM

: Cài đặt thuật toán QPSO-FCM

: Cài đặt thuật toán PFCM

: Đánh giá kết quả các giải thuật



3.4. CÁC BƯỚC THU THẬP VÀ XỬ LÝ DỮ LIỆU

3.4.1. Nguồn dữ liệu

Trong khuôn khổ luận văn, dữ liệu được lấy từ địa chỉ website:

https://archive.ics.uci.edu/ml/index.php



57



3.4.2. Chuẩn bị dữ liệu

Dữ liệu thu thập là ba loại tệp:

 Tệp định dạng dữ liệu(*.names): Định nghĩa tên lớp, tên các thuộc tính, các giá

trị của từng thuộc tính, kiểu thuộc tính

 Tệp mẫu dữ liệu (*.data): Gồm các mẫu dữ liệu chứa đầy đủ thơng tin giá trị các

thuộc tính và giá trị lớp

 Tệp mẫu dữ liệu (*.text): Gồm các mẫu dữ liệu chứa đầy đủ thơng tin giá trị các

thuộc tính và giá trị lớp

3.5. MƠ PHỎNG

Chương trình xây dựng trên nền tảng Matlab 2015b

Trong phần này tơi trình bày các kết quả thực nghiệm trên bộ dữ liệu đã được

xác định ở mục 3.2, với một số thuật toán phân cụm được trình bày ở chương 2.

3.5.1. Các bước mơ phỏng



Tiền xử lý dữ liệu



Dữ liệu UCI



Đánh giá kết quả



Khởi tạo tham số đầu vào

Áp dụng thuật tốn phân cụm



Hình 3.1: Các bước mô phỏng thực nghiệm

Bước 1. Tiền xử lý dữ liệu

 Chuyển tệp mẫu dữ liệu về định dạng “*.xlsx”.

 Chuẩn hóa dữ liệu về đoạn [0, 1].

Bước 2. Khởi tạo các tham số đầu vào Options, K. Trong đó:

58



 Options (1): Hệ số mũ mờ (m)

 Options (2): Số lần lặp tối đa (max_loop)

 Options (3): Giá trị tối thiểu của hàm mục tiêu (Esp)

 Options (4): Hiển thị giá trị sau mỗi lần lặp

 Options (6): Hằng số a (hàm thuộc)

 Options (7): Hằng số b (đặc trưng)

 Options (8): Hệ số mũ hàm đặc trưng

 K: Số cụm

Bước 3. Gọi hàm phân cụm

Bước 4. Đánh giá kết quả

3.5.2. Kết quả đạt được

Kết quả mô phỏng cụ thể đính kèm file Ketqua.xlsx.

3.5.2.1. Bài tốn bệnh động kinh

Bảng 3.5: Tham số đầu vào bài toán phân loại bệnh động kinh

M

Max_loop

Eps

display

A

b



2

200

1.00E-05

1

1

4

1



2

200

1.00E-10

1

1

4

1



4

200

1.00E-10

1

1

4

1



2

200

1.00E-10

1

1

4

4



Với mỗi bộ tham số đầu vào lần lược thực hiện 5 lần từng thuật toán nhằm

đánh giá sự thay đổi đầu ra đồng thời so sánh ưu điểm, nhược điểm của từng thuật

toán để làm minh chứng cho những đánh giá các thuật toán đã nêu chương 2.



59



Hình 3.2: Hình ảnh phân cụm trên bộ tham số đầu vào options 1

a) Thuật toán FCM:

Bảng 3.6: Kết

quả phân cụm

thuật tốn

FCMXOptions



FCM



m



eps



Thời gian



HMT



Số lần lặp



2



1.00E-05



2.6



-6.6E-06



8.6



0.4166 5601.00



50.9

2



2



1.00E-10



7.2



-6.9E-11



24.0



0.4166 5442.00



49.4

7



4



1.00E-10



3.9



-4.3E-11



12.4



0.4166 5440.60



49.4

6



2



1.00E-10



7.4



-8.0E-11



24.4



0.4166 5395.40



49.0

5



5.3



-1.6E-06



17.4



0.4166



49.9

5



Trung bình



KCT

B



PCĐ



5494.5



Tỉ lệ



Thay đổi giá trị đầu vào: chất lượng phân cụm khơng ổn định vì kết quả phụ

thuộc vào khởi tạo ma trận tâm cụm và ma trận phụ thuộc

Trong quá trình thử nghiệm giá trị m=2 với eps=1.00E-05 cho kết quả tốt

nhất, giá trị m phải thử nghiệm nhiều lần hoặc dựa vào kinh nghiệm.



60



TỈ LỆ PHẦN TRĂM PHÂN CỤM ĐÚNG

52

50



50.92



48



O1



49.47



49.46



49.05



O2



O3



O4



PCD



Hình 3.3: Tỉ lệ phân cụm đúng FCM

b) Thuật tốn KFCM

Bảng 3.7: Kết quả phân cụm thuật toán KFCM XKFCM

Thời gian

HMT

Số lần lặp

KCTB

PCĐ

1.2

-6.0E-06

2.0

0.4166

5380.4

0.8

-6.2E-06

2.0

0.4166

5618.8

0.8

-6.2E-06

2.0

0.4166

5468.4

0.8

-6.3E-06

2.0

0.4166

5467.0

0.9

-6.1E-06

2.0

0.4166

5489.2



Tỉ lệ

48.9127

51.0800

49.7127

49.7000

49.9018



Số lần lặp ít biến động, khi thay đổi giá trị m và eps thì thời gian thực hiện

giảm, chất lượng phân cụm tăng. Khi m=2 và eps=1.00E-10 cho kết quả phân cụm tốt

nhất

c) Thuật toán PFCM

Bảng 3.8: Kết quả

phân cụm thuật tốn

PFCM XOptions

m

eps

n



PFCM



2



1.00E-05



1



Thời

gian

112.0



2



1.00E-10



1



115.7



4



1.00E-10



1



149.7



2



1.00E-10



4



65.1



Trung bình



110.6



HMT

2.2E-06

-1.5E11

-1.1E01

-8.5E11

-2.8E02



61



Số lần

lặp

117.8

116.0

148.2

63.2

111.3



KCT

B

0.427

3

0.420

5

0.419

8

0.416

5

0.418

9



PCĐ



Tỉ lệ



6182.8

0

6163.8

0

6261.8

0

5612.4

0

6055.2



56.2

1

56.0

3

56.9

3

51.0

2

55.0



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU MỜ CHO BÀI TOÁN PHÂN LOẠI BỆNH ĐỘNG KINH VÀ VIÊM GAN

Tải bản đầy đủ ngay(0 tr)

×