Tải bản đầy đủ
Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Chương 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ

Tải bản đầy đủ

44

• Lấy ngẫu nhiên 80% số bản ghi đưa vào bảng quyết định ban đầu để
tìm tập rút gọn bằng thuật toán DBAR (tập rút gọn trên bảng quyết định ban
đầu).
• Bổ sung nốt 20% số bản ghi còn lại vào bảng quyết định. Thực hiện
thuật toán gia tăng OSIDBAR để tìm tập rút gọn trên bản quyết định mới,
đồng thời thực hiện thuật toán DBAR tìm tập rút gọn trên bảng quyết định
mới, so sánh kết quả thực hiện hai thuật toán. Mục đích để đánh giá tính hiệu
quả của phương pháp gia tăng (chỉ tính sự thay đổi của tập rút gọn trên tập đối
tượng bổ sung) so với thuật toán truyền thống DBAR (tìm tập rút gọn trên
toàn bộ tập đối tượng).
3.2.

Phân tích, lựa chọn công cụ
Để thực hiện các công việc nêu trên, trước hết luận văn trình bày thuật

toán rút gọn thuộc tính sử dụng entropy Liang trong [5], gọi tắt là thuật toán
NEBAR (New Entropy Based Attribute Reduction) và thuật toán OSIDBAR
(Object Set Incremental Distance Based Attribute Reduction), thuật toán gia
tăng tìm tập rút gọn khi bổ sung tập đối tượng.
3.2.1. Thuật toán rút gọn thuộc tính sử dụng entropy Liang
Trong [5], J.Y. Liang và các cộng sự đưa ra khái niệm về tập rút gọn
dựa trên entropy mới, gọi là entropy Liang. Cho bảng quyết định
DS = ( U , C ∪ D, V , f ) .

Giả

sử

U / C = {C1 , C2 ,...., Cm },

U / D = {D1 , D2 ,..., Dn } .

Entropy Liang có điều kiện của D khi đã biết C được định nghĩa:
n

m

E ( D C ) = ∑∑
i =1 j =1

Di ∩ C j Dic ∩ C j
U

U

n

i =1 j =1

Nếu tập thuộc tính R ⊆ A thỏa mãn:
1) E ( D R ) = E ( D C ) .
2) ∀r ∈ R, E ( D ( R − { r} ) ) ≠ E ( D C ) .

m

= ∑∑

Di ∩ C j C j − ( Di ∩ C j )
U

U

45

thì R được gọi là một tập rút gọn của DS dựa trên entropy Liang.
Thuật toán tìm tập rút gọn sử dụng entropy Liang, gọi tắt là thuật toán
NEBAR, được mô tả như sau:
Thuật toán NEBAR. Tìm tập rút gọn của bảng quyết định sử dụng entropy
Liang [5]. (New Entropy Based Attribute Reduction)
Bảng quyết định DS = ( U , C ∪ D,V , f ) .

Đầu vào:
Đầu ra:

Một tập rút gọn R .

1. R = ∅ ;
2. Tính E ( D R ) , E ( D C ) ;
// Thêm dần vào R các thuộc tính có độ quan trọng lớn nhất
3. While E ( D R ) ≠ E ( D C ) do
4. Begin
5. For each b ∈ C − R tính SIGR ( b ) = E ( D R ) − E ( D R ∪ { b} ) ;

{ SIGR ( b ) } ;
6. Chọn bm ∈ C − R sao cho SIGR ( mm ) = bMax
∈C − R
7. R = R ∪ { bm } ;
8. End;
// Loại bỏ các thuộc tính dư thừa trong R nếu có
9.

For each b ∈ R

10.If E ( D R − { b} ) = E ( D C ) then R = R − { b} ;
11. Return R ;
3.2.2. Mô tả thuật toán gia tăng tìm tập rút gọn khi bổ sung tập đối
tượng
Thuật toán OSIDBAR (Object Set Incremental Distance Based Attribute
Reduction). Thuật toán gia tăng tìm tập rút gọn dựa trên khoảng cách khi bổ
sung một đối tượng mới.

46

Đầu vào: Bảng quyết định DS = ( U , C ∪ D,V , f ) , tập rút gọn RU trên U và tập
đối tượng mới X.
Đầu ra: Tập rút gọn RU ∪ X trên U ∪ X .
1. For x ∈ X do
3. Begin
// Gọi thuật toán tìm tập rút gọn khi bổ sung đối tượng x
4. Tính R = IDBAR ( U , { x} ) ;
5. U := U ∪ { x}
6. End;
7. Return R;
3.2.3. Lựa chọn công cụ cài đặt
Chúng tôi sử dụng công cụ là ngôn ngữ lập trình C# trên môi trường hệ
điều hành Windows 8.1 để thực hiện cài đặt Thuật toán DBAR và Thuật toán
OSIDBAR. Bộ số liệu thử nghiệm được lấy từ kho dữ liệu UCI [14]
3.3.

Một số kết quả thử nghiệm

3.3.1. Kết quả thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng
cách
Sau khi cài đặt thuật toán rút gọn thuộc tính sử dụng khoảng cách
(DBAR) và thuật toán rút gọn thuộc tính sử dụng entropy Liang (NEBAR),
chúng tôi tiến hành thử nghiệm hai thuật toán này trên 6 bộ số liệu vừa và nhỏ
lấy từ kho dữ liệu UCI [14]. Môi trường thử nghiệm là máy tính LAPTOP với
cấu hình Intel Core i3 2.13 GHz CPU, 2GB bộ nhớ RAM, sử dụng hệ điều hành
Windows 8.1. Với mỗi bộ số liệu, giả sử U là số đối tượng, C là số thuộc tính
điều kiện, R là số thuộc tính của tập rút gọn, t là thời gian thực hiện thuật toán

47

(đơn vị là giây s). Các thuộc tính điều kiện được đánh số thứ tự từ 1 đến C .
Bảng 3.1 và Bảng 3.2 mô tả kết quả thực hiện của hai thuật toán.
Bảng 3.1. Kết quả thực hiện Thuật toán NEBAR và Thuật toán DBAR
STT
1
2
3
4
5

Bộ số liệu
Hepatitis.data
Lung-cancer.data
Automobile.data
Anneal.data
Congressional

U

155
32
205
798
435

C

19
56
25
38
16

Thuật toán

Thuật toán

NEBAR
R
t
4
1.296
4
0.187
5
3
9
179
15
25.562

DBAR
R
t
4
0.89
4
0.171
5
1.687
9
86.921
15 16.734

Voting Records
6 Credit Approval
690
15
7
29.703
7
15.687
Bảng 3.2. Tập rút gọn của Thuật toán NEBAR và Thuật toán DBAR
STT

Bộ số liệu

Tập rút gọn của

Tập rút gọn của

1
2

Hepatitis.data
Lung-

Thuật toán NEBAR
{1, 2, 4, 17}
{3, 4, 9, 43}

Thuật toán DBAR
{1, 2, 4, 17}
{3, 4, 9, 43}

3
4

cancer.data
Automobile.data
Anneal.data

{1, 13, 14, 20, 21}
{1, 3, 4, 5, 8, 9, 33, 34,

{1, 13, 14, 20, 21}
{1, 3, 4, 5, 8, 9, 33, 34,

Congressional

35}
{1, 2, 3, 4, 5, 7, 8, 9,

35}
{1, 2, 3, 4, 5, 7, 8, 9,

Voting

10, 11, 12, 13, 14, 15,

10, 11, 12, 13, 14, 15,

5

Records.data
16}
6
Credit Approval
{1, 2, 3, 4, 5, 6, 8}
Kết quả thử nghiệm cho thấy

16}
{1, 2, 3, 4, 5, 6, 8}

− Trên 6 bộ số liệu được chọn, tập rút gọn thu được bởi Thuật toán DBAR
và Thuật toán NEBAR là như nhau. Kết quả này phù hợp với kết quả
nghiên cứu lý thuyết đã trình bày ở phần trên.

48

− Thời gian thực hiện Thuật toán DBAR nhanh hơn Thuật toán NEBAR,
do đó Thuật toán DBAR hiệu quả hơn Thuật toán NEBAR.
Tiếp theo, chúng tôi tiến hành thử nghiệm Thuật toán DBAR và Thuật
toán NEBAR trên 5 bộ số liệu kích thước lớn. Kết quả thử nghiệm được mô
tả ở bảng sau:
Bảng 3.3. Kết quả thực hiện Thuật toán NEBAK và Thuật toán DBAK
trên các bộ số liệu lớn
ST
T
ST

Bộ số liệu

U

Thuật toán

Thuật toán

NEBAR
R
t

DBAR
R
t

C

T
1

Census-

299285

40

21

11415

21

5206

2
3

Income.data
Adult.data
Dorothea.data

48842
1950

14
100

9
92

1270
2867

9
92

675
1247

100000

000
11

8

8977

8

4376

4

Poker-hand-

testing.data
0
5 CovType.data
581012 54
17
14289 17
7256
Với các bộ số liệu có kích thước lớn, rõ ràng thời gian thực hiện Thuật
toán DBAR nhỏ hơn nhiều Thuật toán NEBAR, do đó bộ số liệu kích thước
càng lớn, Thuật toán DBAR càng hiệu quả.
3.3.2. Kết quả thử nghiệm thuật toán gia tăng rút gọn thuộc tính sử dụng
khoảng cách
Sau khi cài đặt thuật toán rút gọn thuộc tính dựa trên khoảng cách
nguyên thủy (DBAR) và thuật toán gia tăng khi bổ sung tập đối tượng
(OSIDBAR), luận văn tiến hành thử nghiệm hai thuật toán trên 04 bộ số liệu
thử nghiệm lấy từ kho dữ liệu UCI [14]. Với mỗi bộ số liệu thử nghiệm, luận
văn lấy ngẫu nhiên 80% số đối tượng cho bảng quyết định ban đầu.

49

Bảng 3.4. 04 bộ số liệu thử nghiệm
Số đối
STT

Bộ số liệu

tượng
U

1
2
3
4

Hepatitis.data
Automobile.data
Anneal.data
Credit Approval

155
205
798
690

Số đối tượng của
bảng quyết định
ban đầu (80%)
124
164
638
552

Số thuộc
tính C
19
25
38
15

Môi trường thử nghiệm là máy tính LAPTOP với cấu hình Pentium Core
i3 2.13 GHz CPU, 2GB bộ nhớ RAM, sử dụng hệ điều hành Windows 8.1.
1) Thực hiện thuật toán DBAR để tìm tập rút gọn trên bảng quyết định
ban đầu, luận văn thu được kết quả ở Bảng 3.5

50

Bảng 3.5. Kết quả thực hiện thuật toán DBAR trên bộ số liệu ban đầu

STT

1
2
3
4

Bộ số liệu

Hepatitis.data
Automobile.data
Anneal.data
Credit Approval

Số đối

Số thuộc

Số thuộc

tượng

tính

tính của

U

điều

tập rút

124
164
638
552

kiện C
19
25
38
15

Tập rút gọn

gọn
4
4

{1, 2, 4, 17}
{1, 13, 14,

7

21}
{1, 3, 4, 5, 8,

5

33, 34}
{1, 3, 4, 5,
8}

2) Thực hiện bổ sung 20% số đối tượng còn lại cho mỗi bộ số liệu. Tiến
hành thử nghiệm thuật toán DBAR trên toàn bộ 100% tập đối tượng và thử
nghiệm thuật toán gia tăng OSIDBAR khi bổ sung thêm 20% số đối tượng
cho mỗi bộ số liệu. Kết quả thực hiện hai thuật toán được mô tả ở Bảng 3.6 và
Bảng 3.7

51

Bảng 3.6. Kết quả thực hiện thuật toán DBAR và thuật toán gia tăng
OSIDBAR
Số

STT

1
2
3
4

Bộ số liệu

Hepatitis.data
Automobile.data
Anneal.data
Credit Approval

Thuật toán

đối

Số

tượn

thuộ

g sau

c

khi

tính

bổ

điều

sung

kiện

20%
155
205
798
690

19
25
38
15

Thuật toán

OSIDBAR
R
t

DBAR
R
t

4
5
9
7

4
5
9
7

0.62
1.2
26.252
6.726

0.89
1.687
86.921
15.687

Bảng 3.7. Tập rút gọn của Thuật toán DBAR và Thuật toán OSIDBAR
STT

1
2
3
4

Bộ số liệu

Tập rút gọn của

Tập rút gọn của

Thuật toán DBAR

Thuật toán

Hepatitis.data
Automobile.data
Anneal.data

{1, 2, 4, 17}
{1, 13, 14, 20, 21}
{1, 3, 4, 5, 8, 9, 33, 34,

OSIDBAR
{1, 2, 4, 17}
{1, 13, 14, 20, 21}
{1, 3, 4, 5, 8, 9, 33, 34,

Credit Approval

35}
{1, 2, 3, 4, 5, 6, 8}

35}
{1, 2, 3, 4, 5, 6, 8}

Kết quả thử nghiệm cho thấy:
− Trên 4 bộ số liệu được chọn, sau khi bổ sung nốt 20% số đối tượng còn
lại vào các bộ số liệu, tập rút gọn thu được bởi Thuật toán DBAR và

52

Thuật toán OSIDBAR là như nhau. Kết quả này phù hợp với kết quả
nghiên cứu lý thuyết đã trình bày ở phần trên.
− Thời gian thực hiện thuật toán gia tăng OSIDBAR nhanh hơn thuật toán
truyền thống DBAR, do đó thuật toán gia tăng OSIDBAR hiệu quả hơn
thuật toán DBAR. Kết quả này cũng phù hợp với kết quả nghiên cứu lý
thuyết đã trình bày ở phần trên.

53

KẾT LUẬN
1) Những kết quả chính của luận văn:
Luận văn đã đạt được các kết quả chính sau đây:
− Tổng hợp các kết quả về hướng nghiên cứu rút gọn thuộc tính trong
bảng quyết định đầy đủ theo tiếp cận lý thuyết tập thô truyền thống của
Pawlak.
− Đề xuất phương pháp rút gọn thuộc tính sử dụng khoảng cách trên cơ sở
cải tiến phương pháp rút gọn thuộc tính sử dụng metric (khoảng cách
Jaccard) trong [1, 7], bao gồm các bước định nghĩa độ đo khoảng cách,
định nghĩa tập rút gọn dựa trên khoảng cách và xây dựng thuật toán
heuristic tìm một tập rút gọn tốt nhất sử dụng khoảng cách, chứng minh
phương pháp đề xuất thuộc Nhóm phương pháp 3.
− Xây dựng công thức tính toán khoảng cách khi bổ sung và loại bỏ một
đối tượng, trên cơ sở đó xây dựng thuật toán tìm tập rút gọn khi bổ sung,
loại bỏ đối tượng
− Thử nghiệm tính hiệu quả của phương pháp sử dụng khoảng cách so với
các phương pháp khác cùng nhóm và tính hiệu quả của phương pháp
gia tăng so với phương pháp không tính toán gia tăng.
2) Hướng phát triển của luận văn:
− Tiếp tục nghiên cứu các thuật toán tìm tập rút gọn của bảng quyết định
trong trường hợp bổ sung và loại bỏ tập thuộc tính.
− Tìm hiểu nhu cầu thực tế, cũng như tham khảo các ý kiến của chuyên gia
để xây dựng chương trình áp dụng kỹ thuật đã nghiên cứu, bổ xung một
số yếu tố khác để hoàn thiện đánh giá chi tiết lại thuật toán.

54

Tài liệu tham khảo
Tài liệu tiếng Việt
[1]

Nguyễn Long Giang, “Khai phá dữ liệu theo tiếp cận lý thuyết tập thô”,
Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012.

Tài liệu tiếng Anh
[2]
[3]

Deza M. M. and Deza E., “Encyclopedia of Distances”, Springer, 2009.
Guan L. H, “An incremental updating algorithm of attribute reduction
set in decision tables”, FSKD'09 Proceedings of the 6th international
conference on Fuzzy systems and knowledge discovery, Vol 2, 2009,

[4]

pp. 421-425
Hu F., Wang G.Y., Huang H., Wu Y., “Incremental attribute reduction
based on elementary sets”, Proceedings of the 10th International
Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular

[5]

Computing, Regina, Canada, 2005, pp. 185-193.
Liang J.Y, Chin K.S., Dang C.Y. and Richard C.M.YAM, “New
method for measuring uncertainty and fuzziness in rough set theory”,

[6]

International Journal of General Systems 31, 2002, pp. 331-342.
Liang J.Y, Wang F., Dang C.Y., Qian Y.H., “A group incremental
approach to feature selection applying rough set technique”, IEEE
Transactions on Knowledge and Data Engineering, 2014, 26(2):294 -

[7]

308.
Long Giang Nguyen, “Metric Based Attribute Reduction in Decision
Tables”, The 2012 International Workshop on Rough Sets
Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp. 333-

[8]

338.
Pawlak Z. (1982), “Rough sets”, International Journal of Computer