Tải bản đầy đủ - 0 (trang)
Hình 3.2 – Hiển thị trên ma trận scatterplot 2 chiều kết quả gom cụm của kMean sử dụng hàm cclust

Hình 3.2 – Hiển thị trên ma trận scatterplot 2 chiều kết quả gom cụm của kMean sử dụng hàm cclust

Tải bản đầy đủ - 0trang

48

-



Không xác định được mức độ ảnh hưởng của thuộc tính đến q trình tạo

nhóm.



Mặc dù có những khuyết điểm trên nhưng trong thực tế giải thuật gom cụm kMeans

được sử dụng rất phổ biến do tính đơn giản và dễ hiểu của nó.

Hướng khắc phục:

-



Với dữ liệu nhỏ, thuật tốn có thể có những hạn chế. Vì vậy, để khắc phục được



-



những hạn chế trên, nên sử dụng thuật toán kMeans trong trường hợp dữ liệu

lớn

Với những hạn chế về việc phân nhóm, ta có thể dùng phương pháp xác định

trung tuyến thay vì xác định mean



Hướng phát triển:

-



Phát triển giải thuật trong trường hợp các kiểu dữ liệu phức tạp

Làm tăng tốc độ xử lí

Xử lí vấn đề các tham số đầu vào của giải thuật

Diễn dịch kết quả sinh ra

Phương pháp kiểm chứng chất lượng mơ hình



3.2. Giải thuật luật kết hợp

3.2.1. Luật kết hợp trong khai phá dữ liệu

a. Mục đích

Mục đích của luật kết hợp là tìm ra các mối quan hệ giữa các đối tượng trong

khối lượng lớn dữ liệu, tìm ra sự kết hợp hay tương quan giữa các items

b. Nội dung cơ bản của luật kết hợp

Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn.

T = {t1, t2, …, tn}. T gọi là cơ sở dữ liệu giao dịch (Transaction Database)

Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset)

I = {i1, i2, …, im}. Một itemset gồm k items gọi là k-itemset

Luật kết hợp R có dạng: itemset1 => itemset2

Trong đó itemset1, itemset2 khơng giao nhau và itemset2 không rỗng

Ý nghĩa của luật R là nếu giao dịch có chứa itemset1 thì nó cũng chứa itemset2

Ví dụ, nếu X ={Apple, Banana} và Y= Cherry, Durian} và ta có luật kết hợp X=>Y thì

chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua

Cherry và Durian.



49

Theo quan điểm thống kê, X được xem là biến độc lập (Independent Variable)

còn Y được xem là biến phụ thuộc (Dependent Variable)

Những khái niệm cơ bản được sử dụng trong giải thuật luật kết hợp:

-



Item: cặp thuộc tính = giá trị

Itemset I: tập các item

Transaction: giao dịch

Support của itemset I: độ hỗ trợ sup(I) là số lượng các giao dịch chứa I

Frequent itemset I: tập itemset thường xuyên là tập có độ hỗ trợ lớn hơn

hoặc bằng độ hỗ trợ tối thiểu minsup, sup(I)



-



minsup



Tính chất tập con (subset): mọi tập con của 1 itemset thường xuyên cũng

phải thường xuyên



-



Support của luật kết hợp R: I



J: sup(R) độ hỗ trợ của luật R là tần



suất của giao dịch chứa tất cả các items trong cả hai tập I và J. Luật kết

hợp là luật mạnh nếu độ hỗ trợ của nó lớn hơn bằng ngưỡng giá trị nào đó

-



Độ tin cậy (Confidence) của luật kết hợp R: I



J: conf(R): là xác suất



xảy ra J khi đã biết I. Độ tin cậy của luật R được tính bằng độ hỗ trợ của

luật R chia cho độ hỗ trợ của vế trái I của luật R:

conf(R) = sup(R)/sup(I)

3.2.2. Giải thuật luật kết hợp Apriori

Giải thuật Apriori khám phá luật kết hợp bao gồm 2 bước chính:

-



Tìm các tập itemset thường xun (phổ biến)

Sinh luật



Tư tưởng chính của thuật tốn Apriori là:

-



Tìm tất cả frequent itemsets: k-itemset (itemsets gồm k items) được dùng

để tìm (k+1)- itemset.



-



Đầu tiên tìm 1-itemset (ký hiệu L1). L1 được dùng để tìm L2 (2-itemsets).

L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi khơng có kitemset được tìm thấy



-



Từ frequent itemsets sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa

mãn 2 tham số min_sup và min_conf)



Các bước của thuật toán Apriori:



50

1. Duyệt (Scan) tồn bộ transaction database để có được support S của 1-itemset, so

sánh S với min_sup, để có được 1-itemset (L1)

2. Sử dụng Lk-1 nối (join) Lk-1 để sinh ra candidate k-itemset. Loại bỏ các itemsets

không phải là frequent itemsets thu được k-itemset

3. Scan transaction database để có được support của mỗi candidate k-itemset, so sánh

S với min_sup để thu được frequent k –itemset (Lk)

4. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy frequent

itemsets)

5. Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I

6. Với mỗi tập con S không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy

(Confidence) của nó > =min_conf

3.2.3. Minh họa thuật tốn

Ví dụ ta có có sở dữ liệu giao dịch bán hàng gồm 5 giao dịch như sau:

Bảng 3.3 – Bảng dữ liệu minh họa giải thuật luật kết hợp Apriori



Tid

1

2

3

4

5



Danh sách các items

Bia, tã lót, bột trẻ em, bánh mỳ, ơ

Tã lót, bột trẻ em

Bia, tã lót, sữa

Tã lót, bia, chất tẩy rửa

Bia, sữa, coca-cola



Bước 1: xác định tập 1-itemset có chứa 1 item, sau đó bỏ các tập itemset có độ hỗ trợ

nhỏ hơn 2/5 (40%) giữ lại 1-itemset thường xuyên như sau:

C1

1-itemset

Bia

Tã lót

Bột trẻ em

Bánh mỳ

ơ

Sữa

Chất tẩy rửa

Coca-cola



support

4/5

4/5

2/5

1/5

1/5

2/5

1/5

1/5



L1

1-itemset

Bia

Tã lót

Bột trẻ em

Sữa



support

4/5

4/5

2/5

2/5



51

Bước 2: Dùng tập các 1-itemset để sinh ra tập 2-itemset độ dài 2 item, sau đó bỏ các

tập itemset có độ hỗ trợ nhỏ hơn 2/5 (40%) giữ lại 1-itemset thường xuyên như sau:

C2

2-itemset

Bia, tã lót

Bia, bột trẻ em

Bia, sữa

Tã lót, bột trẻ

em

Tã lót, sữa

Bột trẻ em, sữa



support

3/5

0

2/5

2/5



L2

2-itemset

Bia, tã lót

Bia, sữa

Tã lót, bột trẻ em



support

3/5

2/5

2/5



0

0



Bước 3: dùng các tập 2-itemset để sinh ra tập 3-itemset có độ dài 3 item, sau đó bỏ

các tập itemset có độ hỗ trợ nhỏ hơn 2/5 (40%) giữ lại 1-itemset thường xuyên như

sau:

C3

3-itemset

Bia, tã lót,sữa

Bia, tã lót, bột trẻ em

Bia, sữa, bột trẻ em

Tã lót, sữa, bột trẻ em



support

1/5

1/5

0

0



L3= rỗng

(Stop)



Bước 4: minsup = 40%, minconf = 70%

itemsets

Bia, tã lót

Tã lót, bia

Bia, sữa

Sữa, bia

Tã lót, bột trẻ em

Bột trẻ em, tã lót



Support(A,B)

60%

60%

40%

40%

40%

40%



Support (A)

80%

80%

80%

40%

80%

40%



Confidence

75%

75%

50%

100%

50%

100%



Kết quả ta có các luật kết hợp sau (với min_sup= 40%, min_conf=70%)

R1: Beer => Diaper (support =60%, confidence = 75%)

R2: Diaper =>Beer (support =60%, confidence = 75%)

R3: Milk =>Beer (support =40%, confidence = 100%)

R4: Baby Powder => Diaper (support =40%, confidence = 100%)

Từ kết quả trên ta thấy tập các luật được sinh ra có luật có thể tin được (R4), có

luật cần phải khảo sát thêm (R3), có luật thì có vẻ khó tin (R2). Ví dụ này sinh ra các

luật có thể khơng thực tế vì dữ liệu dùng để phân tích rất nhỏ.



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Hình 3.2 – Hiển thị trên ma trận scatterplot 2 chiều kết quả gom cụm của kMean sử dụng hàm cclust

Tải bản đầy đủ ngay(0 tr)

×