Tải bản đầy đủ - 0 (trang)
Bảng 3.1 – Bảng dữ liệu minh họa thuật toán kMeans

Bảng 3.1 – Bảng dữ liệu minh họa thuật toán kMeans

Tải bản đầy đủ - 0trang

42



2

3

4

5

6

7

8

9

10

C

1

C

2



0

0

7.9 3.80

0

5.80 2.70

6.20 2.9

0

4.4 2.9

0

0

5.80 4.0

0

6.10 2.80

4.3 3.0

0

0

6.70 3.0

0

6.20 3.4

0

6.4 3.5

0

2

5.3 2.8

6

6



3.05



5.62



1



0.65

0.25



0

0.2



2

2



3.49



2



2



0.52



1.69



1



0.37

3.77



0.1

2.34



2

2



0.41



0.9



1



0



0.65



1



Tính lại tâm cho các nhóm:



Lần lặp 2:

C1 (6.4, 3.52); C2 (5.36, 2.86)

i



A1



1

2

3

4

5

6

7

8

9

10



5.40

7.90

5.80

6.20

4.40

5.80

6.10

4.30

6.70

6.20



A2



Tính lại tâm cho các nhóm:



3.40

3.80

2.70

2.90

2.90

4.00

2.80

3.00

3.00

3.40



Nhóm gần nhất

1.0144

2.3284

1.0324

0.4244

4.3844

0.5904

0.6084

4.6804

0.3604

0.0544



0.2932

7.3916

0.2192

0.7072

0.9232

1.4932

0.5512

1.1432

1.8152

0.9972



2

1

2

1

2

1

2

2

1

1



43



Lần lặp 3: C1 (6.56, 3.42); C2 (5.2, 2.9

i



A1



A2



1

2

3

4

5

6

7

8

9

10



5.40

7.90

5.80

6.20

4.40

5.80

6.10

4.30

6.70

6.20



Nhóm gần nhất



3.40

3.80

2.70

2.90

2.90

4.00

2.80

3.00

3.00

3.40



1.346

1.94

1.096

0.4

4.936

0.914

0.596

5.284

0.196

0.13



0.2336

7.9956

0.4276

1.0036

0.6436

1.4416

0.8356

0.8116

2.2516

1.1936



2

1

2

1

2

1

1

2

1

1



Tính lại tâm cho các nhóm



Lần lặp thứ 4: C1 (6.48, 3.32); C2 (4.975, 3)

i



A1



A2



1

2

3

4

5

6

7

8

9

10



5.40

7.90

5.80

6.20

4.40

5.80

6.10

4.30

6.70

6.20



3.40

3.80

2.70

2.90

2.90

4.00

2.80

3.00

3.00

3.40



Tính lại tâm cho các nhóm:



1.1728

2.2468

0.8468

0.2548

4.5028

0.9248

0.4148

4.8548

0.1508

0.0848



0.340625

9.195625

0.770625

1.510625

0.340625

1.680625

1.305625

0.455625

2.975625

1.660625



Nhóm

gần nhất

2

1

2

1

2

1

1

2

1

1



44



Tâm không thay đổi nên giải thuật kết thúc.

3.1.3. Cài đặt thuật tốn với ngơn ngữ R

a. Cài đặt thuật tốn với dữ liệu cho trước

Giả sử ta có 1 file dữ liệu excel cho trước có tên là kmean_data.csv như trong bảng

3.2:

Bảng 3.2 – File dữ liệu minh họa thuật toán kMeans



a1

5.4

7.9

5.8

6.2

4.4

5.8

6.1

4.3

6.7

6.2



a2

3.4

3.8

2.7

2.9

2.9

4

2.8

3

3

3.4



a1

7

7.2

6.3

5.8

4.8

1.7

6.4

5.1

4.3

1.4



a2

3.2

3.2

2.9

2.8

3.1

0.2

2

1.9

1.3

0.2



Ta tiến hành giải thuật gom cụm kmeans trong R như sau:



Kết quả ta thu được hình vẽ như hình 3.1:



a1

1.2

4

1.1

5.2

5.4

4.7

6

5.6

5.1

1.6



a2

0.2

1.3

0.1

2.3

2.3

1.4

1.8

1.8

2.4

0.2



45



Hình 3.1 – Đồ thị phân cụm k-means với tập dữ liệu cho trước

b. Cài đặt thuật toán với bộ dữ liệu chuẩn Iris

 Cài đặt giải thuật kMeans sử dụng hàm cclust() nằm trong gói thư viện cclust

Hàm cclust() có các tham số như sau:

cclust (x, center, iter.max=100, verbose=FALSE, dist=”euclidean”,

method=”kmeans”,…)

Giải thích các tham số:

+ x là tập dữ liệu (ma trận) không chứa nhãn phân loại

+ centers là số nhóm

+ iter.max là số bước lặp tối đa

+ verbose cho phép hiển thị thơng tin trong q trình xây dựng mơ hình

+ dist là độ đo khoảng cách euclidean hoặc manhattan

+ method là phương pháp gom nhóm có thể là kmeans, hardcl hay neuralgas

…: các tham số còn lại có thể dùng đến



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 3.1 – Bảng dữ liệu minh họa thuật toán kMeans

Tải bản đầy đủ ngay(0 tr)

×