Tải bản đầy đủ
Chương 1. RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ

Chương 1. RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ

Tải bản đầy đủ

11

IND ( P ) là quan hệ P-không phân biệt được. Dễ thấy rằng IND ( P ) là một

quan hệ tương đương trên U. Nếu ( u, v ) ∈ IND ( P ) thì hai đối tượng u và v không
phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương IND ( P ) xác định
một phân hoạch trên U, ký hiệu là U / IND ( P ) hay U / P . Ký hiệu lớp tương đương
trong

phân

hoạch

U / P chứa

đối

tượng

u

[ u ] P , khi đó



[ u ] P = { v ∈ U ( u, v ) ∈ IND ( P ) } .
Cho hệ thông tin IS = ( U , A,V , f ) và tập đối tượng X ⊆ U . Với một tập
thuộc tính B ⊆ A cho trước, chúng ta có các lớp tương đương của phân hoạch
U / B , thế thì một tập đối tượng X có thể biểu diễn thông qua các lớp tương

đương này như thế nào?
Trong lý thuyết tập thô, để biểu diễn X thông qua các lớp tương đương
của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X
bởi hợp của một số hữu hạn các lớp tương đương của U / B . Có hai cách xấp
xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và
B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:

{

}

{

}

BX = u ∈U [ u ] B ⊆ X , BX = u ∈ U [ u ] B ∩ X ≠ ∅ .

Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn
tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc
tính B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
BN B ( X ) = BX − BX : B-miền biên của X , U − BX : B-miền ngoài của X.

B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không
thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc
X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể
viết lại

12

BX = U{ Y ∈ U / B Y ⊆ X } , BX = U{ Y ∈ U / B Y ∩ X ≠ ∅} .

Trong trường hợp BN B ( X ) = ∅ thì X được gọi là tập chính xác (exact
set), ngược lại X được gọi là tập thô (rough set).
Với B, D ⊆ A , ta gọi B-miền dương của D là tập được xác định như sau

U ( BX )

POS B ( D) =

X ∈U / D

Rõ ràng POS B ( D) là tập tất cả các đối tượng u sao cho với mọi v ∈U mà
u ( B) = v ( B)

ta

{

đều

u ( D) = v ( D) .



Nói

cách

khác,

}

POS B ( D) = u ∈ U [ u ] B ⊆ [ u ] D .

Ví dụ 1.1. Xét hệ thông tin biểu diễn các triệu chứng cúm của bệnh nhân cho ở
Bảng 1.1.
Bảng 1.1. Bảng thông tin về bệnh cúm
U
u1
u2
u3
u4
u5
u6
u7
u8

Đau đầu
Thân nhiệt
Cảm cúm

Bình thường
Không

Cao


Rất cao

Không
Bình thường
Không
Không
Cao
Không
Không
Rất cao

Không
Cao

Không
Rất cao
Không
Ta có: U / {Đau đầu} = { { u1 , u2 , u3 } , { u4 , u5 , u6 , u7 , u8 } }
U / {Thân nhiệt} =
U / {Cảm cúm} =

{ { u , u } ,{ u , u , u } ,{ u , u , u } }
1

4

2

5

7

3

6

8

{ { u , u , u , u } ,{ u , u , u , u } }
1

4

5

U / {Đau đầu, Cảm cúm} =

8

2

3

6

7

{ { u } ,{ u , u } ,{ u , u , u } ,{ u , u } }
1

2

3

4

5

8

6

7

Như vậy, các bệnh nhân u2 , u3 không phân biệt được về đau đầu và cảm
cúm, nhưng phân biệt được về thân nhiệt.
Các lớp không phân biệt được bởi B = {Đau đầu, Thân nhiệt} là:

13

{ u1} , { u2 } , { u3 } , { u4 } , { u5 , u7 } , { u6 , u8 } .
Đặt X = {u u (Cảm cúm) = Có} = { u2 , u3 , u6 , u7 } . Khi đó:
BX = { u2 , u3 } và BX = { u2 , u3 , u5 , u6 , u7 , u8 } . Như vậy, B-miền biên của X là

tập hợp BN B ( X ) = { u5 , u6 , u7 , u8 } . Nếu đặt D = {Cảm cúm} thì
U / D = { X 1 = { u1, u4 , u5 , u8 } ; X 2 = { u2 , u3 , u6 , u7 } } , BX 1 = { u1 , u4 } ; BX 2 = { u2 , u3 } ,
POS B ( D) =

U ( BX ) = { u , u , u , u } .
1

2

3

4

X ∈U / D

Với các khái niệm của tập xấp xỉ đối với phân hoạch U / B , các tập thô
được chia thành bốn lớp cơ bản:
1) Tập X là B-xác định thô nếu BX ≠ ∅ và BX ≠ U .
2) Tập X là B-không xác định trong nếu BX = ∅ và BX ≠ U .
3) Tập X là B-không xác định ngoài nếu BX ≠ ∅ và BX = U .
4) Tập X là B-không xác định hoàn toàn nếu BX = ∅ và BX = U .
1.1.2. Bảng quyết định
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều
ứng dụng là bảng quyết định. Bảng quyết định là một hệ thông tin DS với tập
thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt
được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là
DS = ( U , C ∪ D, V , f ) với C ∩ D = ∅ .

Ví dụ 1.3:
Hệ thống thông tin IS = ( U , A,V , f ) biểu diễn cơ sở tri thức về bệnh cúm
được thể hiện trong bảng 1.4 là một bảng quyết định DS = ( U , C ∪ D )
Trong đó:

U = { u1 , u2 , u3 , u4 , u5 }

A= {Đau đầu, Đau cơ, Nhiệt độ, Cúm}.
Tập thuộc tính điều kiện C= {Đau đầu, Đau cơ, Nhiệt độ}
Tập thuộc tính quyết định D={Cúm}

14

Bảng 1.2: Bảng quyết định về bệnh cúm
U
u1
u2
u3
u4
u5
u6

Đau đầu
Không


Không

Không

Đau cơ
Nhiệt độ
Cúm

Cao

Không
Cao


Rất cao


Bình thường Không
Không
Cao
Không

Rất cao


Cho một bảng quyết định DS = ( U , C ∪ D ) , giả sử U / C = { X 1 , X 2 ,..., X n } và
U / D = { Y1 , Y2 ,..., Yn } .

Một lớp X i ∈U / C được gọi là nhất quán nếu
u (d ) = v(d ), ∀u, v ∈ X i , ∀d ∈ D , lúc này có thể viết u ( D ) = v ( D ) = X i ( D ) .

Một lớp Yi ∈U / D được gọi là nhất quán nếu u (a) = v(a), ∀u, v ∈ Yi , ∀a ∈ C
, lúc này có thể viết u ( A ) = v ( A ) = Yi ( A ) .
Một bảng quyết định DS = ( U , C ∪ D ) là nhất quán nếu mọi lớp X i ∈U / C
là nhất quán, ngược lại DS = ( U , C ∪ D ) được gọi là không nhất quán. Dễ thấy
nếu U / C p U / D thi DS = ( U , C ∪ D ) là nhất quán.
Tương tự, nếu U / D p U / C thì DS = ( U , C ∪ D ) là nhất quán ngược.
Có thể thấy bảng quyết định là nhất quán khi và chỉ khi POSC ( D) = U . Trong
trường hợp không nhất quán thì POSC ( D) = U chỉ là tập con cực đại của U sao
cho phụ thuộc hàm C → D là đúng.

15

1.2.

Rút gọn thuộc tính trong bảng quyết định theo tiếp cận lý thuyết
tập thô

1.2.1. Tổng kết về các phương pháp rút gọn thuộc tính trong bảng quyết
định
Mục tiêu của rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập
thô là sử dụng công cụ tập thô để tìm tập con nhỏ nhất của tập thuộc tính điều
kiện mà bảo toàn thông tin phân lớp của bảng quyết định. Dựa vào tập rút
gọn thu được, việc sinh luật và phân lớp đạt hiệu quả cao nhất. Với một bảng
quyết định cho trước, độ phức tạp thời gian của thuật toán tìm tất cả các tập
rút gọn là hàm mũ đối với số thuộc tính điều kiện. Tuy nhiên, trong các bài
toán thực tế không đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một
tập rút gọn tốt nhất theo một tiêu chuẩn đánh giá đặt ra. Do đó, các phương
pháp rút gọn thuộc tính sử dụng cận tập thô đều thực hiện theo hướng tiếp
cận heuristic. Các phương pháp này đều có các điểm chung như sau:
- Đưa ra khái niệm tập rút gọn của phương pháp dựa trên một độ đo
được chọn. Các phương pháp khác nhau có độ đo khác nhau, điển hình là các
độ đo trong tính toán hạt (granunal computing), độ đo entropy, độ đo khoảng
cách, sử dụng ma trận…
- Đưa ra khái niệm độ quan trọng của thuộc tính đặc trưng cho chất
lượng phân lớp của thuộc tính dựa trên độ đo được chọn.
- Xây dựng một thuật toán heuristic tìm một tập rút gọn tốt nhất theo
tiêu chuẩn đánh giá độ quan trọng của thuộc tính (chất lượng phân lớp của
thuộc tính). Thuật toán này giảm thiểu đáng kể khối lượng tính toán, nhờ đó
có thể áp dụng đối với các bài toán có dữ liệu lớn. Các thuật toán heuristic
này thường được xây dựng theo hai hướng tiếp cận khác nhau: hướng tiếp
cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down). Ý
tưởng chung của hướng tiếp cận từ dưới lên (bottom-up) là xuất phát từ tập

16

tập lõi, bổ sung dần dần các thuộc tính có độ quan trọng lớn nhất vào tập lõi
cho đến khi thu được tập rút gọn. Ý tưởng chung của hướng tiếp cận từ trên
xuống (top-down) xuất phát từ tập thuộc tính điều kiện ban đầu, loại bỏ dần
các thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được tập rút gọn.
Cả hai hướng tiếp cận này đều đòi hỏi phải sắp xếp danh sách các thuộc tính
theo thứ tự giảm dần hoặc tăng dần của độ quan trọng tại mỗi bước lặp.
1) Phương pháp rút gọn thuộc tính dựa trên miền dương
Trong lý thuyết tập thô truyền thống, Pawlak [9] đã đưa ra khái niệm tập
rút gọn của bảng quyết định dựa trên miền dương và xây dựng thuật toán tìm
tập rút gọn dựa trên miền dương. Trong bảng quyết định, các thuộc tính điều
kiện được phân thành ba nhóm: thuộc tính lõi (core attribute), thuộc tính rút
gọn (reductive attribute) và thuộc tính dư thừa (redundant attribute). Thuộc
tính lõi là thuộc tính không thể thiếu trong việc phân lớp chính xác tập dữ
liệu. Thuộc tính lõi xuất hiện trong tất cả các tập rút gọn của bảng quyết định.
Thuộc tính dư thừa là những thuộc tính mà việc loại bỏ chúng không ảnh
hưởng đến việc phân lớp tập dữ liệu, thuộc tính dư thừa không xuất hiện
trong bất kỳ tập rút gọn nào của bảng quyết định. Thuộc tính rút gọn là thuộc
tính xuất hiện trong một tập rút gọn nào đó của bảng quyết định.
Cho bảng quyết định DS = ( U , C ∪ D,V , f ) . Thuộc tính c ∈ C được gọi là
không cần thiết (dispensable) trong DS dựa trên miền dương nếu
POSC ( D ) = POS( C −{ c} ) ( D ) ; Ngược lại, c được gọi là cần thiết (indispensable).

Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền
dương và được ký hiệu là CORE ( C ) . Khi đó, thuộc tính cần thiết chính là
thuộc tính lõi và thuộc tính không cần thiết là thuộc tính dư thừa hoặc thuộc
tính rút gọn.
Cho bảng quyết định DS = ( U , C ∪ D,V , f ) và tập thuộc tính R ⊆ C . Nếu

17

1) POS R ( D) = POSC ( D)
2) ∀r ∈ R, POS R −{ r} ( D) ≠ POSC ( D)
thì R là một tập rút gọn của C dựa trên miền dương.
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak. Ký hiệu
R
RED ( C ) là họ tất cả các tập rút gọn Pawlak của C. Khi đó CORE ( C ) = I
R∈RED ( C )

.
Khi đó, a là thuộc tính rút gọn của DS nếu tồn tại một tập rút gọn R ∈ RED ( C )

UC R .
sao cho a ∈ R và a là thuộc tính dư thừa của DS nếu a ∈ C − R∈RED
( )
Ví dụ 1.2. Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2.
Bảng 1.3. Bảng quyết định về bệnh cúm
U

Mệt mỏi

Đau đầu

Đau cơ

Thân nhiệt

Cảm

cúm
u1



Bình thường Không
u2



Cao

u3



Rất cao

u4

Không

Bình thường Không
u5

Không
Không Cao
Không
u6

Không

Rất cao

Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} và R2 = {Đau
đầu, Thân nhiệt}. Như vậy tập lõi là PCORE(C) = {Thân nhiệt} và Thân
nhiệt là thuộc lõi duy nhất. Các thuộc tính không cần thiết bao gồm:


Thuộc tính Mệt mỏi là thuộc tính dư thừa vì không tham gia vào rút gọn nào



Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có

mặt trong một tập rút gọn. Hai thuộc tính này đều không cần thiết theo nghĩa
là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn
đoán đúng bệnh. Tức là
POS{Đau cơ, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm})

18

POS{Đau đầu, Thân nhiệt}({Cảm cúm}) = POSC({Cảm cúm}).
Với khái niệm tập rút gọn dựa trên miền dương, Pawlak cũng đưa ra
khai niệm độ quan trọng của thuộc tính dựa trên miền dương và xây dựng
thuật toán heuristic tìm một tập rút gọn tốt nhất dựa trên miền dương.
2) Các phương pháp rút gọn thuộc tính khác
Rút gọn thuộc tính trong lý thuyết tập thô là chủ đề nghiên cứu khá sôi
động trong mấy năm gần đây. Các kết quả nghiên cứu về rút gọn thuộc tính
trong lý thuyết tập thô được trình bày khá đầy đủ và cập nhật trong [1]. Các
phương pháp rút gọn thuộc tính điển hình được tổng kết và công bố trong [1]
bao gồm:
1) Phương pháp miền dương tìm tập rút gọn dựa trên miền dương (tập
rút gọn nguyên thủy theo định nghĩa của Pawlak).
2) Phương pháp sử dụng ma trận phân biệt và hàm phân biệt của
Skowron tìm tập rút gọn dựa trên ma trận phân biệt.
3) Phương pháp sử dụng entropy Shannon tìm tập rút gọn dựa trên
entropy Shannon.
4) Phương pháp sử dụng các phép toán trong đại số quan hệ tìm tập rút
gọn
5) Phương pháp sử dụng tính toán hạt tìm tập rút gọn dựa trên độ khác
biệt của tri thức.
6) Phương pháp sử dụng entropy Liang tìm tập rút gọn dựa trên entropy
Liang.
7) Phương pháp sử dụng metric được xây dựng dựa trên khoảng cách
Jaccard.

19

1.2.2. Kết quả phân nhóm các phương pháp rút gọn thuộc tính dựa vào
tập rút gọn
Trong [1], tác giả đã tổng kết và công bố mối liên hệ giữa các tập rút gọn
của các phương pháp rút gọn thuộc tính, trên cơ sở đó phân nhóm các phương
pháp rút gọn thuộc tính dựa vào tập rút gọn. Để thuận tiện cho việc trình bày,
luận văn ký hiệu các tập rút gọn theo Bảng 1.3 dưới đây:
Bảng 1.4. Ký hiệu các tập rút gọn của bảng quyết định
Ký hiệu
Mô tả
RP
Tập rút gọn dựa trên miền dương (Pawlak)
RH
Tập rút gọn dựa trên entropy Shannon.
RF
Tập rút gọn dựa trên các phép toán trong đại số quan hệ
RM
Tập rút gọn sử dụng metric
RE
Tập rút gọn dựa trên entropy Liang.
RK
Tập rút gọn dựa trên độ khác biệt của tri thức
RS
Tập rút gọn dựa trên ma trận phân biệt
Trong [1], tác giả đã tổng kết và công bố mối liên hệ giữa các tập rút gọn
như sau:
1) Với bảng quyết định nhất quán, các tập rút gọn nêu trên là như nhau,
nghĩa là RP = RF = RH = RK = RE = RS = RM .
2) Với bảng quyết định không nhất quán, ta có RF = RH = RM và
RK = RE = RS . Nghĩa là, các tập rút gọn được phân thành 3 nhóm:
Nhóm 1: Bao gồm RP .
Nhóm 2: Bao gồm RF , RH , RM
Nhóm 3: Bao gồm RK , RE , RS .
Mối liên hệ giữa các tập rút gọn của các nhóm như sau:
Nếu RIII là một tập rút gọn thuộc Nhóm 3 thì tồn tại RII là một tập rút
gọn thuộc Nhóm 2 và RI là một tập rút gọn thuộc Nhóm 1 ( RP ) sao cho
RI ⊆ RII ⊆ RIII . Mối liên hệ này cho thấy tập rút gọn RP ít thuộc tính nhất,

20

các tập rút gọn RF , RH , RM nhiều thuộc tính hơn và các tập rút gọn RK , RE ,
RS nhiều thuộc tính nhất.

Từ mối liên hệ giữa các tập rút gọn, các phương pháp rút gọn thuộc tính
cũng được phân thành 3 nhóm tương ứng:
Nhóm 1: Bao gồm phương pháp tìm tập rút gọn Pawlak.
Nhóm 2: Bao gồm phương pháp sử dụng entropy Shannon, phương pháp
sử dụng các phép toán trong đại số quan hệ và phương pháp sử dụng metric.
Nhóm 3: Bao gồm phương pháp sử dụng entropy Liang, phương pháp sử
dụng ma trận phân biệt, phương pháp sử dụng độ khác biệt của tri thức.
1.2.3. Kết quả lựa chọn, so sánh, đánh giá các phương pháp
Như đã trình bày trong mục 1.2.1, rút gọn thuộc tính trong bảng quyết
định là tìm tập con nhỏ nhất của tập thuộc tính điều kiện mà bảo toàn khả
năng phân lớp của bảng quyết định. Theo tiêu chuẩn định lượng, rút gọn
thuộc tính trong bảng quyết định là tìm tập con nhỏ nhất của tập thuộc tính
điều kiện mà bảo toàn độ chắc chắn của tất cả các luật phân lớp vào các lớp
quyết định. Do đó, các phương pháp rút gọn thuộc tính được gọi là phù hợp
nếu tập rút gọn tìm được phải bảo toàn độ chắc chắn của tập luật quyết định
hay độ chắc chắn của bảng quyết định.
Để đánh giá các phương pháp rút gọn thuộc tính, các nhà nghiên cứu về
tập thô thường sử dụng hai tiêu chuẩn: độ phức tạp thời gian của thuật toán
tìm tập rút gọn và chất lượng phân lớp của tập rút gọn tốt nhất tìm được. Theo
kết quả thống kê, phần lớn độ phức tạp thời gian của các thuật toán tìm tập rút
gọn là như nhau (chỉ khác nhau về khối lượng tính toán) nên các nghiên cứu
về tập thô tập trung đánh giá chất lượng phân lớp của tập rút gọn tìm được.
Chất lượng phân lớp được đặc trưng bởi độ hỗ trợ của tập luật (độ hỗ trợ của
bảng quyết định) dựa trên tập rút gọn [9]. Tập rút gọn có chất lượng phân lớp

21

càng tốt thì độ hỗ trợ của tập luật dựa trên tập rút gọn càng cao (một luật phân
lớp trên tập rút gọn sẽ hỗ trợ cho nhiều đối tượng).
Trong [1], tác giả đã đề xuất độ chắc chắn α (certainty measure), độ
nhất quán g β (consistency measure), độ hỗ trợ γ (support measure) của bảng
quyết định và nghiên cứu sự thay đổi giá trị ba độ đo này trên các tập rút gọn
thu được của ba nhóm phương pháp đã trình bày ở trên. Luận văn mô tả vắn
tắt các kết quả như sau:
Nếu bảng quyết định nhất quán, các tập rút gọn bảo toàn độ chắc chắn,
độ nhất quán bằng 1 và tăng độ hỗ trợ của tập luật quyết định.
Nếu bảng quyết định không nhất quán:
1) Tập rút gọn của các phương pháp thuộc Nhóm 1 (tập rút gọn miền
dương) làm giảm độ chắc chắn, độ nhất quán và tăng độ hỗ trợ của tập luật
quyết định.
2) Tập rút gọn của các phương pháp thuộc Nhóm 2 bảo toàn độ chắc
chắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định.
3) Tập rút gọn của các phương pháp thuộc Nhóm 3 bảo toàn độ chắc
chắn, độ nhất quán và tăng độ hỗ trợ của tập luật quyết định.
Từ kết quả nghiên cứu về sự thay đổi giá trị độ chắc chắn, độ nhất quán,
độ hỗ trợ trên ba tập rút gọn của ba nhóm phương pháp nêu trên, tác giả [1] đã
đưa ra kết quả về sự lựa chọn các phương pháp phù hợp như sau:
1) Tất cả các phương pháp đều phù hợp với bảng quyết định nhất quán vì
đều bảo toàn độ chắc chắn của tập luật quyết định bằng 1.
2) Với bảng quyết định không nhất quán, tập rút gọn Pawlak làm giảm
độ chắc chắc của tập luật, do đó các phương pháp thuộc Nhóm 1 (tìm tập rút
gọn Pawlak) không phù hợp. Các phương pháp thuộc Nhóm 2 và Nhóm 3 phù
hợp vì tập rút gọn bảo toàn độ chắc chắn của tập luật.
Với các phương pháp phù hợp, từ kết quả nghiên cứu về sự thay đổi giá
trị các độ đo đánh giá hiệu năng tập luật quyết định và kết quả nghiên cứu về
mối liên hệ giữa các tập rút gọn, tác giả [1] đã chứng minh tập rút gọn tốt nhất
tìm được bởi các phương pháp thuộc Nhóm 2 có chất lượng phân lớp tốt hơn