Tải bản đầy đủ - 0 (trang)
Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT

Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT

Tải bản đầy đủ - 0trang

được phân loại trong giai đoạn 1 sẽ được phân loại bằng cách sử dụng tập xấp xỉ

trên trong giai đoạn 2. Giải thích chi tiết của mỗi giai đoạn sẽ được đưa ra dưới đây.



3.1 Giai đoạn 1: dùng xấp xỉ dưới

Chúng ta thu được một tập tolerant TSl(x) của mẫu thử x, với chỉ số dưới

dòng l chỉ ra là tập xấp xỉ dưới:

TSl(x) = {yTS(x) : i{1, 2, .., r(d)}, di = 1}

Nếu tập tolerant TSl(x) của mẫu x chỉ có chính nó, nghĩa là TSl(x)={x}. Chúng

ta không thể phân loại mẫu thử x trong giai đoạn đầu và chúng ta chuyển sự phân

loại một mẫu thử như vậy sang giai đoạn 2.

Nếu tập tolerant TS(x) của mẫu thử x bao gồm nhiều mẫu huấn luyện, ta thu

được tần số quan hệ trong cùng một lớp của các mẫu huấn luyện trong tập tolerant

TS(x). Khi các mẫu huấn luyện trong tập tolerant TS(x) phân hoá các quyết định,

chúng ta quy cho mẫu thử x trong lớp có giá trị tần số quan hệ lớn nhất. Khi sự khác

nhau giữa các giá trị lớn nhất và giá trị tần số quan hệ lớn thứ hai không nhiều,

nghĩa là:

freq 1  freq 2

1



freq 1

r (d )



Với freq1 = card({yTSl(x )| d(y)=d(x)})

freq1 = card({yTSl(x )| d(y)=d(i), i{1, 2, …, r(d)})

r(d) là số các lớp quyết định.

Chúng ta cũng chuyển sự phân loại của mẫu thử như vậy sang giai đoạn 2 bởi

vì lớp bao phủ là khơng chắc chắn (mờ) căn cứ vào tập xấp xỉ dưới.



3.2 Giai đoạn 2: dùng xấp xỉ trên

Bởi vì tập xấp xỉ trên bao gồm tất cả các mẫu thử trong tập xấp xỉ dưới và các

mẫu thử trong tập xấp xỉ dưới đã được xem xét trong giai đoạn 1. Chúng ta sử dụng

các mẫu huấn luyện trong vùng biên (the boundary region) , không phải tất cả các

mẫu trong tập xấp xỉ trên, trong giai đoạn 2 của việc phân loại. Vì vậy, thời gian

ước lượng cho việc phân loại trong giai đoạn 2 là khơng lâu vì chỉ có các mẫu trong



22



vùng biên mới được lấy và số các mẫu trong vùng biên là không quá nhiều. Tương

tự trong giai đoạn đầu, chúng ta thu được một tập tolerant TSb(x) của dữ liệu thử

chưa phân loại x, với chỉ số dưới dòng b có nghĩa là vùng biên.

TSb(x) = {yTS(x) : i{1, 2, .., r(d)}, di < 1}

Sau đó, chúng ta xác định hàm thành viên thô của tất cả các mẫu trong tập

tolerant TSb(x) của mẫu thử x chưa phân loại đối với các lớp quyết định. Cho tập

tolerant TSb(x) của mẫu thử chưa phân loại x là {1,2,…,M}, với M là số các mẫu

thử trong vùng biên có quan hệ tolerant đối với mẫu thử x và thừa nhận mỗi mẫu j

có hàm thành viên thơ {di(i)|i=1,2,…,r(d)}. Ta có cơng thức tính hàm thành viên

thơ trung bình của mẫu thử x đối với mỗi lớp quyết định như sau:

 di  x  



1

M



M



   ,

di



j



i 1,2,..., r (d )



j 1



Chúng ta quy mẫu chưa phân loại x vào lớp có hàm thành viên thơ trung bình

lớn nhất. Khi sự khác nhau giữa các hàm thành viên thô trung bình lớn nhất và hàm

thành viên thơ trung bình lớn thứ hai không nhiều, nghĩa là:







dmaz1



  dmaz 2



 d max 1



  1 / r (d )



Với  d max 1 là hàm thành viên thơ trung bình lớn nhất và  d max 2 là hàm thành

viên thơ trung bình lớn thứ hai và r(d) là số các lớp quyết định thì chúng ta loại bỏ

mẫu thử x trong xử lý phân loại. Hình 4-1 minh hoạ cho phương pháp phân loại 2

giai đoạn.



23



Bộ mẫu huấn luyện



Mẫu kiểm chứng



GA

Xác định ngưỡng

tương tự tối ưu



Dùng

xấp xỉ

dưới

Khơng

tồn tại



Phân lóp theo

kiểu bỏ phiếu

chiếm số

đông



Tồn tại



Thành

công



Kết quả phân lớp

(đúng – sai)



Sai



Không tồn tại



Dùng xấp

xỉ trên



Bỏ qua



Khơng

tồn tại

Tính giá trị trung bình

hàm thành viên thơ của

mỗi lớp



Định

lượng

mờ

Quyết định

được



Khơng

quyết

định

được



Gán mẫu vào lớp

có hàm thành viên

thơ lớn nhất



Hình 4-1: Lược đồ phương pháp phân loại hai giai đoạn



24



Bỏ qua



Kết quả phân lớp

(đúng - sai)



3.3 Ứng dụng tập thô tolerant trong phân loại dữ liệu IRIS

3.3.1 Bộ dữ liệu IRIS

Dữ liệu IRIS được dùng trong thực nghiệm gồm có 3 lớp (setosa, vesicolor

và virginica). Với mỗi lớp gồm 50 thực thể, mỗi thực thể gồm có 4 thuộc tính. Bảng

4-1 cho thấy một tập dữ liệu huấn luyện của 75 thực thể với 25 thực thể là sự lựa

chọn ngẫu nhiên từ 3 lớp riêng lẻ.

Mẫu



Lớp I



Lớp II



Lớp III



1



4.5 2.3 1.3 0.3



4.9 2.4 3.3 1.0



6.7 3.3 5.7 2.1



2



5.0 3.5 1.6 0.6



6.2 2.2 4.5 1.5



7.3 2.9 6.3 1.8



3



4.3 3.0 1.1 0.1



5.5 2.6 4.4 1.2



6.5 3.2 5.1 2.0



4



5.0 3.5 1.3 0.3



6.0 3.4 4.5 1.6



4.9 2.5 4.5 1.7



5



5.4 3.7 1.5 0.2



5.8 2.7 3.9 1.2



6.7 3.1 5.6 2.4



6



5.1 3.8 1.9 0.4



5.7 3.0 4.2 1.2



5.8 2.8 5.1 2.4



7



4.8 3.0 1.4 0.1



5.6 3.0 4.1 1.3



6.5 3.0 5.5 1.8



8



5.0 3.4 1.5 0.2



5.7 2.9 4.2 1.3



7.7 3.8 6.7 2.2



9



5.1 3.7 1.5 0.4



5.9 3.0 4.2 1.5



5.7 2.5 5.0 2.0



10



5.1 3.8 1.5 0.3



6.9 3.1 4.9 1.5



6.8 3.0 5.5 2.1



11



4.6 3.4 1.4 0.3



6.0 2.7 5.1 1.6



7.7 3.0 6.1 2.3



12



5.4 3.4 1.7 0.2



5.2 2.7 3.9 1.4



6.9 3.2 5.7 2.3



13



5.8 4.0 1.2 0.2



7.0 3.2 4.7 1.4



7.2 3.0 5.8 1.6



14



4.9 3.0 1.4 0.2



5.7 2.6 3.5 1.0



7.4 2.8 6.1 1.9



15



5.0 3.2 1.2 0.2



6.6 2.9 4.6 1.3



7.2 3.2 6.0 1.8



16



5.0 3.0 1.6 0.2



6.0 2.9 4.5 1.5



6.4 2.7 5.3 1.9



17



5.1 3.8 1.6 0.2



6.6 3.0 4.4 1.4



6.0 3.0 4.8 1.8



18



4.7 3.2 1.3 0.2



6.1 2.8 4.0 1.3



7.9 3.8 6.4 2.0



19



5.4 3.4 1.5 0.4



6.4 3.2 4.5 1.5



6.2 2.8 4.8 1.8



20



4.6 3.2 1.4 0.2



5.5 2.5 4.0 1.3



6.4 3.2 5.3 2.3



21



4.9 3.1 1.5 0.2



5.0 2.3 3.3 1.0



6.7 3.3 5.7 2.5



22



5.0 3.4 1.6 0.4



5.8 2.7 4.1 1.0



6.9 3.1 5.4 2.1



23



4.4 2.9 1.4 0.2



5.8 2.6 4.0 1.2



5.8 2.7 5.1 1.9



24



4.6 3.6 1.0 0.2



5.9 3.2 4.8 1.8



6.4 2.8 5.6 2.1



25



5.1 3.3 1.7 0.5



6.4 2.9 4.3 1.3



6.5 3.0 5.8 2.2



Bảng 4-1: Bộ dữ liệu huấn luện IRIS



Bảng 4-2 trình bày các tham số cho thuật giải di truyền được dùng xác định

ngưỡng tương tự khởi tạo tối ưu cho tất cả các thuộc tính.



25



Tham số thực hiện

Kích thước quần thể (|P|)

Hệ số tái sinh (PSelect)

Hệ số đấu loại k (k-tournament)

Xác suất lai ghép (Pc)

Xác suất đột biến (Pm)

Số lần tiến hoá

Hệ số quan hệ 



Giá trị

100

0.3

8

0.3

0.1

200

0.6



Bảng 4-2: Các tham số trong giải thuật di truyền



Bảng 4-3 thể hiện giá trị các ngưỡng tương tự khởi tạo tối ưu của tất cả các

thuộc tính sau khi thực hiện thuật giải di truyền xác định ngưỡng khởi tạo.

Thuộc tính

Giá trị ngưỡng



a1

0.547340



a1

0.442162



a1

0.849640



A

0.723755



Bảng 4-3: Giá trị ngưỡng tương tự khởi tạo tối ưu cho tất cả các thuộc tính



Hình 4-2 trình bày lược đồ tiến hố của hàm thích nghi khi thuật giải di

truyền được dùng để xác định các ngưỡng tối ưu, với mỗi đường cong thể hiện giá

trị thích nghi của nhiễm sắc thể tốt nhất trong quần thể. Trong hình này, hàm thích

nghi F1 thể hiện chất lượng giá trị thích nghi tính xấp xỉ của sự phân loại A,{d}

(weigh =0.6), hàm thích nghi F2 thể hiện giá trị thích nghi của tỷ lệ các liên kết tốt

A,{d} (weigh 1-=0.4). Từ hình này chỉ ra đó là giá trị thích nghi được chuyển đổi

(đồng qui) trong phàm vi lặp lại 10 lần, Vì vậy, nó chỉ cần một số lượng nhỏ thời

gian tính tốn để xác định ngưỡng tối ưu.



26



Hình 4-2: Lược đồ tiến hố của các hàm thích nghi.



3.3.2 Xác định tập thô tolerant

Dựa trên cơ sở các ngưỡng tối ưu ở trên, chúng ta thu được một tập thô

tolerant từ phương pháp được đề cập ở phần trên. Sau đó, chúng ta dựa vào tập thô

tolerant ta xác định tập xấp xỉ dưới và tập xấp xỉ trên. Phần đầu (cuối) của bảng 5-4

trình bày tập xấp xỉ dưới (trên) có được từ 75 mẫu dữ liệu huấn luyện tương ứng.

Trong phần đầu của bảng 5-4, cột 2 chỉ rỏ thứ tự của mẫu dữ liệu được chứa trong

mỗi lớp, cột 3 thể hiện các mẫu dữ liệu trong mỗi lớp dù có được chứa trong tập xấp

xỉ dưới hay không (1 (hoặc 0) nghĩa là được chứa (hoặc không được chứa) trong tập

xấp xỉ dưới) và cột 4 trình bày tập tolerant của 2 mẫu dữ liệu chi tiết nó được chứa

trong tập xấp xỉ dưới. Khái niệm mỗi cột trong phần dưới của bảng 5-4 tương tự với

phần trên của bảng 5-4 ngoại trừ cột 4 trình bày tập tolerant của vài mẫu dữ liệu chi



27



tiết nó được chứa trong tập xấp xỉ trên. Bởi vì khơng gian trang giấy có giới hạn,

chúng ta chỉ minh hoạ thơng tin tập xấp xỉ của vài mẫu dữ liệu chi tiết trong cột 4 ở

phần trên và phần dưới của bảng 4-4.



Số thứ tự



Mẫu



Kết quả của tập



Một số tập Tolerant



xấp xỉ trên

C1

11111 11111 11111



minh hoạ



11111 11111

Lớp I



0 – 24



C2



TS(0) = {0, 2 ,6 ,10, 13, 14, 15, 17, 19, 20, 22, 24}



00000 00000 00000



……



00000 00000

C3



00000 00000 00000



C1



00000 00000

00000 00000 00000



TS(24) = {0, 1, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,

17, 18, 19, 20, 21, 22, 23, 24}



00000 00000

Lớp II



25 – 49



C2



TS(25) = {25, 29, 38, 42, 44, 45, 47}



11111 11111 11111



……



11111 11111

C3



00100 01010 00000



C1



11010 00100

00000 00000 00000



TS(49) = {26, 27, 28, 29, 30, 31, 32, 33, 34, 36, 37, 39,

40, 41, 42, 43, 44, 46, 47, 49}



TS(50) = {50, 51, 52, 54, 55, 56, 58, 59, 60, 61, 63, 64,



00000 00000

Lớp III



50 – 74



C2



65, 67, 69, 70, 71, 72, 73, 74}



00010 00000 10000



……



00000 00010

C3



TS(74) = {50, 52, 54, 55, 56, 59, 60, 61, 63, 65, 67, 69,



11111 11111 11111



70, 71, 72, 73, 74}



11111 11111



Bảng 4-4: Các tập xấp xỉ trên của tập mẫu huấn luyện



3.3.3 Phân loại dữ liệu

Dưới đây là phần trình bày kết quả phân loại của bài báo Data classification

based on tolerant rough set – Daijin Kim – Pattern Recognition 34, 2001, pp 16131624. Sử dụng tập thô tolerant phân loại.

Chúng ta thực hiện 4 công việc phân loại dữ liệu khác nhau sử dụng tập thô

tolerant và sử dụng multi-layer back-propagation của mạng nơron như dưới đây:

Thử nghiệm 1: Thử nghiệm này thực hiện phân loại dữ liệu dựa trên tập

tolerant xấp xỉ dưới và tập tolerant xấp xỉ trên có được từ 75 mẫu dữ liệu huấn

luyện. Dữ liệu mẫu cho việc kiểm tra là cùng mẫu dữ liệu sử dụng cho việc huấn

luyện. Vài dữ liệu có các giá trị thành viên thô nhỏ hơn 0.1 được loại ra trong việc

phân loại dữ liệu.



28



Thử nghiệm 2: Thử nghiệm này thực hiện phân loại dữ liệu dựa trên các

vector trọng lượng của three-layer feed-forward của mạng nơron với 4 bộ đầu vào,

25 bộ ẩn và 3 bộ đầu ra đã được huấn luyện bởi một back-propagation learning với

tỷ lệ learning  = 0.1, số lần lặp lại learning là 1000 lần và số các mẫu huấn luyện

là 75 mẫu. Các mẫu dữ liệu cho kiểm tra trùng với các mẫu dữ liệu sử dụng cho

việc huấn luyện.

Thử nghiệm 3: Thử nghiệm này thực hiện phân loại dữ liệu dựa trên tập

tolerant xấp xỉ dưới và tập tolerant xấp xỉ trên có được từ 75 mẫu dữ liệu huấn

luyện. Dữ liệu mẫu cho kiểm tra chứa 150 mẫu dữ liệu với 75 mẫu không bao gồm

các giai đoạn huấn luyện. Vài giá trị thành viên thô của dữ liệu nhỏ hơn 0.1 cũng

được loại bỏ.

Thử nghiệm 4: Thử nghiệm này thực hiện phân loại dữ liệu dựa trên các

vector trọng lượng của three-layer feed-forward của mạng nơron với 4 bộ đầu vào,

25 bộ ẩn và 3 bộ đầu ra đã được huấn luyện bởi một back-propagation learning với

tỷ lệ learning  = 0.1, số lần lặp lại learning là 1000 lần và số các mẫu huấn luyện

là 75 mẫu. Dữ liệu mẫu cho kiểm tra chứa 150 mẫu dữ liệu với 75 mẫu dữ liệu

không bao gồm các giai đoạn huấn luyện.

Bảng 4-5 trình bày một vài mẫu dữ liệu cho ra các kết quả phân loại khác

nhau giữa 2 phương pháp phân loại (sử dụng tập thô tolerant và sử dụng mạng

nơron). Trong trường hợp thử nghiệm 1 và 2, với duy nhất mẫu dữ liệu được chứa

trong từng giai đoạn huấn luyện sẽ được kiểm tra và mỗi mẫu dữ liệu thể hiện bằng

4 thuộc tính. Trong thử nghiệm 1, tất cả các mẫu được phân loại chính xác bằng

cách sử dụng tập xấp xỉ dưới ngoại trừ mẫu thứ 48. Trong trường hợp mẫu dữ liệu

thứ 35, tập xấp xỉ dưới bằng (0, 5, 0) có nghĩa 5 mẫu dữ liệu được chấp nhận với

mẫu dữ liệu thứ 35 và chúng thuộc trong lớp II. Trong trường hợp mẫu thứ 48, tập

xấp xỉ dưới bằng (0, 0, 0) nghĩa là khơng có mẫu dữ liệu nào có quan hệ tolerant với

mẫu thứ 48. Vì vậy, chúng ta cần sử dụng tập xấp xỉ trên đã xác định bằng (0, 0, 0.8,

0.9) trong trường hợp này phạm vi mơ hồ của lớp bao phủ là:

|0.8 - 0.9| / 0.9 = 0.11 < 0.33



29



Dẫn đến mẫu thứ 48 bị loại bởi vì sự mơ hồ của nó trong lớp bao phủ. Trong

trường hợp này, nó được tìm tổng số của các hàm thành viên thô trong 2 lớp (0.8 +

0.9 = 1.7) lớn hơn 1.0. Đó là bởi vì hàm thành viên thô của mỗi lớp được xác định

bằng cách chọn giá trị lớn nhất trong số các hàm thành viên thô của mẫu dữ liệu

được chứa trong lớp.

Trong trường hợp thực nghiệm 2, tất cả các mẫu được phân loại chính xác

bằng cách sử dụng mạng nơron ngoại trừ mẫu thứ 35 và mẫu thứ 48 trong số 75

mẫu huấn luyện. Mẫu dữ liệu thứ 35 bị loại ra vì phạm vi mơ hồ của nó trong lớp

bao phủ (|0.32-0.31| / 0.32 = 0.02 < 0.33) là quá mơ hồ để xác định lớp bao phủ.

Mẫu dữ liệu thứ 48 khơng được phân loại vì phạm vi mơ hồ của nó trong lớp bao

phủ là đủ lớn (|0.35-0.76| / 0.76 = 0.53 > 0.33) và mạng nơron cho biết lớp III là kết

quả phân loại nhưng trên thực tế nó được chứa ở lớp II.

Phân lớp bằng tập thô

Mẫu

35

48



Lớp

C2

C2



Tolerant

Dưới

050

000



Trên

0.0 0.7 0.8

0.0 0.8 0.9



Kết quả

phân lớp

C2 (Đúng)

Bỏ qua



Phân lớp bằng mạng nơron

Kết quả

0.00 0.32 0.31

0.00 0.35 0.76



Độ mờ

0.019633

0.533396



Kết quả

phân lớp

Bỏ qua

C3 (Sai)



Bảng 4-5: So sánh thử nghiệm 1 và thử nghiệm 2



Bảng 4-6 trình bày một vài mẫu dữ liệu cho ra các kết quả phân loại khác

nhau giữa 2 phương pháp phân loại (sử dụng tập thô tolerant và sử dụng mạng

nơron) trong trường hợp thử nghiệm 3 và 4 với 75 mẫu dữ liệu thêm vào không

chứa trong các giai đoạn huấn luyện được kiểm tra và mỗi mẫu dữ liệu được thể

hiện bởi 4 thuộc tính. Sử dụng tập thơ tolerant chúng ta có một mẫu bị loại (mẫu dữ

liệu thứ 70) bởi vì tính mơ hồ của lớp bao phủ và có 3 mẫu khơng được phân loại

(mẫu thứ 119, 133 và 134) trong khi sử dụng mạng nơron, chúng ta có một mẫu bị

loại (mẫu thứ 83) bởi vì tính mơ hồ của lớp bao phủ và có 5 mẫu khơng được phân

loại (mẫu thứ 70, 77, 119, 133 và 134)



30



Phân lớp bằng tập thô

Mẫu



Lớp



70

77

83

119

133

134



Tolerant

Dưới

000

041

050

010

081

010



C2

C2

C2

C3

C3

C3



Trên

0.0 0.8 0.9

0.0 0.8 0.9

0.0 0.7 0.8

0.0 0.7 0.3

0.0 0.8 0.3

0.0 0.7 0.3



Kết



quả



phân lớp

Bỏ qua

C2 (Đúng)

C2 (Đúng)

C2 (Sai)

C2 (Sai)

C2 (Sai)



Phân lớp bằng mạng nơron

Kết quả

0.00 0.35 0.76

0.00 0.37 0.56

0.00 0.32 0.31

0.00 0.48 0.02

0.00 0.87 0.02

0.00 0.62 0.04



Độ mờ

0.533396

0.334095

0.019633

0.588750

0.969795

0.937068



Kết



quả



phân lớp

C3 (Sai)

C3 (Sai)

Bỏ qua

C2 (Sai)

C2 (Sai)

C2 (Sai)



Bảng 4-6: So sánh thử nghiệm 3 và thử nghiệm 4



3.3.4 So sánh kết quả phân loại với các phương pháp phân

loại khác

Kiểm chứng với mọi mẫu



Kiểm chứng với 75 mẫu



Phân lớp



Các mẫu bị loại



Tập thô Tolerant

25

0

0

0

24

0

0

0

25

48



Mạng nơron

25

0

0

0

23

1

0

0

25

35



IRIS (150 mẫu)

Tập thô Tolerant

50

0

0

0

49

0

0

3

47

70



Mạng nơron

50

0

0

0

47

2

0

3

47

83



Mẫu phân loại sai



Không



48



119, 133, 134



70, 77, 119,



Ma trận hổn loạn



133, 134



Bảng 4-7: So sánh thử nghiệm 1, 2, 3, 4



Bảng 4-7 tổng kết kết quả thực nghiệm ở trên bằng cách so sánh sự thực hiện

phân loại của 4 thử nghiệm khác nhau trong giới hạn của ma trận hổn loạn.



Hình 4-3: Biểu đồ các phương pháp phân loại dữ liệu



Hình 4-3 là biểu đồ so sánh việc thực hiện phân loại và thời gian huấn luyện

của 4 thuật toán phân loại khác nhau:

1. Tolerant Rough Set (TRS).



31



2. BPNN (back-propagation neural networks).

3.



The Objective Function-based Unsupervised Neural Networks

(OFUNN).



4. Fuzzy C-Means (FCM).

Ta thấy, phương pháp TRS sử dụng tập xấp xỉ trên và tập xấp xỉ dưới dựa trên

tập thô tolerant làm tốt hơn các phương pháp phân loại khác dựa trên thực tế của

việc thực hiện phân loại và thời gian xử lý.



3.4 Kết luận

Phương pháp phân loại hai giai đoạn được đề xuất dựa trên tập thơ tolerant

đòi hỏi việc xác định một độ đo tương tự từ hàm khoảng cách của tất cả các thuộc

tính giữa hai đối tượng, xác định số lượng mối quan hệ tolerant của các đối tượng,

xác định tập xấp xỉ dưới và xác định tập xấp xỉ trên của các đối tượng dựa trên

thông tin của lớp.

Chúng ta sử dụng hàm khoảng cách như là sự khác nhau hồn tồn giữa các

thuộc tính bởi vì chi phí cho việc tính tốn nhỏ và ta sử dụng thuật giải di truyền để

xác định giá trị các ngưỡng khởi tạo tối ưu với mục tiêu làm cân bằng giữa hai yêu

cầu :

 Nếu hai đối tượng x, yU có quan hệ tolerant thì chúng nằm trong

cùng một lớp càng nhiều càng tốt.

 Nếu hai đối tượng cùng nằm trong cùng một lớp thí chúng có quan hệ

tolerant càng nhiều càng tốt.

Sau khi tìm giá trị ngưỡng khởi tạo tối ưu, chúng ta tìm tập tolerant cho mỗi

mẫu huấn luyện. Dựa trên tập tolerant, chúng ta xác định hai tập xấp xỉ dưới và xấp

xỉ trên của các mẫu huấn luyện.

Phương pháp phân loại đã đề xuất được dùng trong phân loại dữ liệu IRIS và

được so sánh với các phương pháp phân loại khác như: PBNN, OFUNN và FCM

dựa trên việc thực hiện phân loại dữ liệu và thời gian xử lý. Kết quả thực nghiệm

được đưa ra của phương pháp phân loại dữ liệu hai giai đoạn được đề xuất sử dụng

tập xấp xỉ dưới và tập xấp xỉ trên dựa trên tập thô tolerant làm tốt hơn các phương



32



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Chương 3 PHÂN LOẠI DỮ LIỆU DỰA TRÊN TẬP THÔ TOLERANT

Tải bản đầy đủ ngay(0 tr)

×