Tải bản đầy đủ - 0 (trang)
Phân lớp trong khai phá dữ liệu

Phân lớp trong khai phá dữ liệu

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Ở bước thứ nhất, ta xây dựng một mơ hình phân lớp mơ tả một bộ xác định trước

các lớp dữ liệu hay khái niệm. Đây là bước học (hay giai đoạn huấn luyện), ở đó một

thuật tốn phân lớp xây dựng nên mơ hình phân lớp bằng cách phân tích hoặc “học hỏi

từ” một tập huấn luyện hình thành từ các bản ghi trong CSDL và các nhãn lớp liên kết

với chúng. Mỗi bản ghi X được biểu diễn bởi một vector thuộc tính gồm n-chiều, X =

(x1, x2, …, xn), mơ tả n giá trị đo đã thực hiện trên bản ghi đó từ n thuộc tính tương

ứng của CSDL A1, A2, …, An. Mỗi bản ghi X được giả định là thuộc về một lớp được

quy định trước, như được xác định bởi một thuộc tính khác của CSDL gọi là thuộc tính

nhãn lớp.







Trong các tài liệu về máy học, các bản ghi huấn luyện thường được gọi là mẫu



H



U



huấn luyện hoặc ví dụ huấn luyện.



TẾ



Ở bước thứ hai (Hình 1.2 (b)), mơ hình tìm được ở bước thứ nhất sẽ được dùng



N

H



cho việc phân loại những dữ liệu mới. Trước hết, ta đánh giá độ chính xác dự đốn

(predictive accuracy) của mơ hình phân loại ấy. Nếu như ta dùng tập huấn luyện để



KI



đánh giá độ chính xác của mơ hình phân lớp thì việc đánh giá này nhiều khả năng là





C



q lạc quan, bởi vì mơ hình ấy có khuynh hướng quá khớp dữ liệu (tức là trong q



H



trình học, nó có thể sáp nhập ln một số trường hợp bất thường của dữ liệu huấn



Đ



ẠI



luyện, vốn không hiện diện trong tổng thể tập dữ liệu nói chung). Vì thế, ta dùng một



G



tập kiểm tra, bao gồm các bản ghi kiểm tra và các nhãn lớp liên kết với chúng, để thực







N



hiện việc đánh giá này. Các bản ghi kiểm tra này độc lập với các bản ghi huấn luyện,



Ư



nghĩa là chúng không được dùng để xây dựng mơ hình phân lớp.



TR



Độ chính xác của một mơ hình phân lớp trên một tập kiểm tra xác định là tỷ lệ

các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mơ hình phân lớp ấy. Nhãn

lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đốn lớp của mơ hình

phân lớp học ứng với bản ghi đó.

Ví dụ, các luật phân lớp học được trong Hình 1.2 (a) từ việc phân tích dữ liệu của

những đơn xin vay tiền lúc trước, nếu có độ chính xác cao khi phân lớp tập kiểm tra,

thì có thể được dùng để chuẩn thuận hoặc bác những đơn xin vay tiền mới hoặc sẽ có

trong tương lai, như được minh họa trong Hình 1.2 (b).



SVTH: Nguyễn Ngọc Tri



8



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



4.1.1. Phân lớp bằng phương pháp cây quyết định

Quy nạp cây quyết định (decision tree induction) [5] [10] là việc tìm kiếm các

cây quyết định từ những bản ghi huấn luyện đã có nhãn lớp. Mỗi cây quyết định

(decision tree) là một cấu trúc cây kiểu lưu đồ, trong đó mỗi nút trong biểu thị một sự

kiểm tra trên một thuộc tính nào đó, mỗi nhánh biểu diễn một kết quả của sự kiểm tra

đó, còn mỗi nút lá chứa một nhãn lớp. Nút ở trên cùng của cây là nút gốc, chứa tên của

thuộc tính cần kiểm tra. Hình 1.3 cho thấy một cây quyết định tiêu biểu. Các nút trong

được biểu diễn bằng các hình chữ nhật, còn các nút lá được biểu diễn bằng các hình

bầu dục. Một số thuật toán cây quyết định chỉ sinh ra các cây nhị phân (trong đó mỗi







nút trong rẽ nhánh đến hai nút khác), trong khi những thuật toán cây quyết định khác



H



U



có thể sinh ra những cây khơng nhị phân.



TẾ



Các cây quyết định được dùng cho phân lớp như thế nào? Cho một bản ghi X nào



N

H



đó mà ta chưa biết nhãn lớp liên kết với nó, các giá trị thuộc tính của bản ghi đó được



KI



kiểm tra so với cây quyết định. Dựa theo những cuộc kiểm tra đó, ta lần ra một đường





C



đi từ gốc đến một nút lá chứa kết quả dự đoán lớp dành cho bản ghi ấy. Các cây quyết

định có thể dễ dàng được chuyển đổi thành các luật phân lớp, tức hình thức phân loại



TR



Ư







N



G



Đ



ẠI



H



đơn giản và dễ hiểu nhất đối với con người.



Hình 1.3. ví dụ về cây quyết định



4.1.2. Phân lớp dữ liệu bằng giải thuật học ILA

- Thuật giải ILA [8] [10]được dùng để xác định các luật phân loại cho tập hợp

các mẫu học. Thuật giải này thực hiện theo cơ chế lặp, để tìm luật riêng đại diện cho

tập mẫu của từng lớp. Sau khi xác định được luật, thuật giải sẽ loại bỏ các mẫu mà luật



SVTH: Nguyễn Ngọc Tri



9



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



này bao hàm, đồng thời thêm luật mới này vào tập luật. Kết quả có được là một danh

sách có thứ tự các luật.

- Mô tả thuật giải ILA:

+ Bước 1: Chia bảng con có chứa m mẫu thành n bảng con. Một bảng con ứng

với một giá trị của thuộc tính phân lớp (Lặp lại từ bước 2 đến bước 8 cho mỗi bảng con).

+ Bước 2: Khởi tạo số lượng thuộc tính kết hợp j với j = 1.

+ Bước 3: Với mỗi bảng con đang xét, phân chia các thuộc tính của nó thành

một danh sách các thuộc tính kết hợp, mỗi thành phần của danh sách có j thuộc tính

phân biệt.







+ Bước 4: Với mỗi kết hợp các thuộc tính trong danh sách trên, đếm số lần



H



U



xuất hiện các giá trị cho các thuộc tính trong kết hợp đó ở các dòng chưa bị khóa của



TẾ



bảng đang xét nhưng nó khơng được xuất hiện cùng giá trị ở những bảng con khác.



N

H



Chọn ra một kết hợp trong danh sách sao cho nó có giá trị tương ứng xuất hiện nhiều

nhất và được gọi là Max_combination.



KI



+ Bước 5: Nếu Max_combination = 0 thì j = j+1 quay lại bước 3.





C



+ Bước 6: Khóa các dòng ở bảng con đang xét mà tại đó giá trị bằng với giá trị



H



tạo ra Max_combination.



Đ



ẠI



+ Bước 7: Thêm vào R luật mới với giả thuyết là các giá trị tạo ra



G



Max_combination kết nối các bộ này bằng phép AND, kết luận là giá trị của thuộc tính







N



quyết định trong bảng con đang xét.



Ư



+ Bước 8: Nếu tất cả các dòng đều khóa:



TR



Nếu còn bảng con thì qua bảng con tiếp theo và quay lại bước 2.

Ngược lại chấm dứt thuật toán.

Ngược lại quay lại bước 4.



4.1.3. Phân lớp dữ liệu bằng mạng Nạve Bayes

Các mơ hình phân lớp dựa theo Bayes (Bayesian classifier) [9] là loại mơ hình

phân lớp theo lý thuyết thống kê. Chúng có thể dự đốn xác suất của các thành viên

lớp, chẳng hạn xác suất để một bản ghi nhất định thuộc về một lớp cụ thể nào đó. Phân

lớp dựa theo Bayes căn cứ vào nền tảng lý thuyết là định lý Bayes (được đặt theo tên

của Thomas Bayes, nhà toán học Anh vào thế kỷ 18).



SVTH: Nguyễn Ngọc Tri



10



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Thuật tốn phân lớp Nạve Bayes (NB) giả định rằng ảnh hưởng của một giá trị

thuộc tính nào đó trên một lớp nhất định là độc lập với các giá trị của các thuộc tính

khác. Giả định này được gọi là sự độc lập theo điều kiện lớp (class-conditional

independence).

- Ưu điểm

+ Về thời gian học (tức thời gian xây dựng mô hình): ít hơn so với phương

pháp quy nạp cây quyết định, và ít hơn rất nhiều so với mạng nơ-rơn, nhất là đối với

dữ liệu rời rạc.

+ Hiệu năng phân lớp (độ chính xác và tốc độ) cao khi dùng với CSDL lớn.







+ Thuật toán dễ hiểu và dễ hiện thực.



H



U



- Nhược điểm



TẾ



+ Do NB giả định là các thuộc tính độc lập với nhau, nên khi các thuộc tính có



N

H



sự phụ thuộc lẫn nhau (ví dụ, trong giáo dục có một số mơn học có ý nghĩa tiên quyết

đối với một số mơn học khác) thì phương pháp NB trở nên thiếu chính xác.



KI



+ NB khơng sinh ra được những mơ hình phân lớp dễ hiểu đối với người dùng





C



không chuyên về KPDL.



ẠI



H



4.1.4. Phân lớp dữ liệu bằng Neural Network



Đ



Lĩnh vực học bằng các mạng nơ-rôn nhân tạo (artificial neural network – ANN)



G



[8] [10], lúc đầu được khởi xướng bởi các nhà tâm lý học và các nhà sinh học thần







N



kinh muốn tìm cách xây dựng và kiểm tra những mơ hình tính tốn tương tự với mạng



Ư



lưới các tế bào thần kinh (neuron) của con người. Một mạng nơ-rôn nhân tạo, hay chỉ



TR



vắn tắt là mạng nơ-rôn, đôi khi còn được gọi là multilayer perceptron (MLP), là một

tập hợp các nút xuất/nhập nối kết với nhau, trong đó mỗi đường nối kết có một trọng

số liên kết với nó. Trong giai đoạn học, mạng này học bằng cách điều chỉnh các trọng

số để dự đoán được nhãn lớp đúng đắn của các bản ghi nhập vào.

- Ưu điểm

+ Các mơ hình học được từ mạng nơ rơn có khả năng chịu đựng đối với dữ

liệu nhiễu cao cũng như khả năng phân lớp được những mẫu hình mà chúng chưa từng

được huấn luyện.

+ Chúng rất thích hợp đối với dữ liệu nhập và xuất có trị liên tục.



SVTH: Nguyễn Ngọc Tri



11



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



+ Các thuật tốn mạng nơ-rơn vốn có sẵn tính song song; có thể dùng các kỹ

thuật song song hóa để tăng tốc q trình tính tốn.

+ Ngồi ra, gần đây đã có nhiều kỹ thuật được xây dựng để rút trích ra các luật

phân lớp dễ hiểu từ các mạng nơ-rôn học được.

- Nhược điểm

+ Học bằng mạng nơ rôn đòi hỏi thời gian huấn luyện phải dài, vì thế thích

hợp hơn với các ứng dụng nào chấp nhận điều này.

+ Thuật tốn xây dựng mạng nơ rơn cần một số tham số mà thường thì chỉ

được xác định tốt nhất thơng qua thí nghiệm, như cấu trúc.







+ Các mơ hình học bằng mạng nơ rơn đã bị chỉ trích vì tính khó hiểu của



H



U



chúng; con người khó diễn giải được ý nghĩa biểu tượng đằng sau các trọng số học và



Khai phá dữ liệu sử dụng luật kết hợp



N

H



4.2.



TẾ



ý nghĩa của các “đơn vị ẩn” trong mạng.



KI



4.2.1. Luật kết hợp trong CSDL





C



Gọi I = {I1, I2… Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục.

Gọi D là một CSDL, trong đó mỗi bản ghi t là một giao dịch và chứa các tập

⸦ I.



ẠI



H



ục, t



m



Đ



Định nghĩa 1: Một luật kết hợp là một biểu thức có dạng X => Y, trong đó X, Y



N





mệnh đề kết quả.



G



⸦ I là các tập mục gọi là các itemset, và X∩Y= Ø. Ở đây, X được gọi là tiền đề, Y là



TR



Ư



Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).

Định nghĩa 2: Độ hỗ trợ của luật kết hợp X => Y là tỷ lệ phần trăm các bản ghi X

U Y với tổng số các giao dịch có trong CSDL.

Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy là tỷ lệ của số

giao dịch có chứa X U Y với số giao dịch có chứa X. Đơn vị tính %.

Việc khai thác các luật kết hợp từ CSDL chính là việc tìm tất cả các luật có độ hỗ

trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác

định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và

minconf.

Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn đề sau đây:

- Tìm tất cả các tập phổ biến có độ hỗ trợ lớn hơn hoặc bằng minsup.

SVTH: Nguyễn Ngọc Tri



12



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



- Tạo ra các luật mong muốn sử dụng các tập phổ biến có độ tin cậy lớn hơn hoặc

bằng minconf.



4.2.2. Tính ứng dụng

Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa

học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khốn, tài

chính và đầu tư, ... Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về: nguồn gốc, điều

kiện áp dụng, phạm vi ứng dụng, mục đích ứng dụng. Những đặc điểm này được thể

hiện bằng mơ hình sau:

Tham chiếu



Lựa chọn



dụng



đến tập luật R



luật



Ứng dụng



U







u cầu sử



TẾ



H



Hình 1.4: Mơ hình ứng dụng luật

Trong đó:



N

H



- u cầu sử dụng: là phạm vi tính ứng dụng của tập luật ví dụ như về khoa học,



KI



kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khốn, …





C



- Tham chiếu đến tập luật R: ở giai đoạn này các tập luật được tham chiếu tại đây



H



là các tập luật được sinh ra từ CSDL chứa tác nhân yêu cầu sử dụng.



G



cho phạm vi sử dụng.



Đ



ẠI



- Lựa chọn luật: ở bước này chúng ta tiến hành lọc các luật hữu ích nhất phục vụ







N



- Ứng dụng: đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho đến khi thi



Ư



hành luật.



TR



Mơ hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác luật kết

hợp trong CSDL.



Thực tế, ứng dụng của khai thác luật kết hợp trong CSDL giáo dục là một phạm

trù của KPDL nên ứng dụng của nó rất rộng lớn, nhất là trong sự phát triển của xã hội

hiện nay. Ngoài ra, một tập hợp con đặc biệt của luật kết hợp gọi là luật kết hợp lớp

(Class Association rules –CARs) dùng để tích hợp phân loại và khai phá luật kết hợp.

Tóm lại, tính ứng dụng của khai thác luật kết hợp trong CSDL giáo dục là việc

ứng dụng các tập luật tìm thấy trong đó nhằm vào những mục đích cụ thể và đạt được

kết quả tốt.



SVTH: Nguyễn Ngọc Tri



13



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



5. Kỹ thuật khai phá dữ liệu sử dụng cây quyết định

5.1.



Giới thiệu kỹ thuật khai phá dữ liệu sử dụng cây quyết định



Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã được các nhà khoa học

trong nhiều lĩnh vực khác nhau đề xuất như mạng nơ rơn, mơ hình thống kê tuyến tính

bậc 2, cây quyết định, di truyền, …. Trong số những mơ hình đó, cây quyết định với

những ưu điểm của mình được đánh giá là một cơng cụ mạnh, phổ biến và đặc biệt

thích hợp cho KPDL nói chung và phân lớp dữ liệu nói riêng.

Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh;

đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh







SQL để có thể được sử dụng để truy nhập CSDL một cách hiệu quả. Cuối cùng, việc



H



U



phân lớp dựa trên cây quyết định đạt được sự tương tự và đơi khi là chính xác hơn so



Các vấn đề trong khai phá dữ liệu sử dụng cây quyết định



N

H



5.2.



TẾ



với các phương pháp phân lớp khác.



KI



Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết định gồm:





C



xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liên tục, chọn



H



phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu huấn luyện với những giá



ẠI



trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện



G



Tránh “quá khớp” dữ liệu



N



5.3.



Đ



hiệu năng tính tốn.



Ư







Thế nào là “q khớp” [8][10] dữ liệu? Có thể hiểu đây là hiện tượng cây quyết định



TR



chứa một số đặc trưng riêng của tập dữ liệu huấn luyện, nếu lấy chính tập dữ liệu huấn

luyện để kiểm tra lại mơ hình phân lớp thì độ chính xác sẽ rất cao, trong khi đối với những

dữ liệu tương lai khác nếu sử dụng cây đó lại khơng đạt được độ chính xác cao.

Q khớp dữ liệu là một khó khăn đáng kể đối với học bằng cây quyết định và

những phương pháp học khác. Đặc biệt khi số lượng mẫu trong tập dữ liệu huấn luyện

quá ít, hay có nhiễu trong dữ liệu.

Có hai phương pháp tránh “quá khớp” dữ liệu trong cây quyết định:

- Dừng phát triển cây sớm hơn bình thường, trước khi đạt tới điểm phân lớp hoàn

hảo tập dữ liệu huấn luyện. Với phương pháp này, một thách thức đặt ra là phải ước

lượng chính xác thời điểm dừng phát triển cây.

- Cho phép cây có thể “quá khớp” dữ liệu, sau đó sẽ cắt, tỉa cây.

SVTH: Nguyễn Ngọc Tri



14



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Mặc dù phương pháp thứ nhất có vẻ trực tiếp hơn, nhưng với phương pháp thứ hai

thì cây quyết định được sinh ra được thực nghiệm chứng minh là thành công hơn trong

thực tế. Hơn nữa việc cắt tỉa cây quyết định còn giúp tổng quát hóa, và cải thiện độ chính

xác của mơ hình phân lớp. Dù thực hiện phương pháp nào thì vấn đề mấu chốt ở đây là

tiêu chuẩn nào được sử dụng để xác định kích thước hợp lý của cây cuối cùng.



5.4.



Thao tác với thuộc tính liên tục



Việc thao tác với thuộc tính liên tục [9] trên cây quyết định hồn tồn khơng đơn

giản như với thuộc tính rời rạc.

Thuộc tính rời rạc có tập giá trị (domain) xác định từ trước và là tập hợp các giá







trị rời rạc. Ví dụ loại ơ tơ là một thuộc tính rời rạc với tập giá trị là: {xe tải, xe khách,



H



U



xe con, taxi}.Việc phân chia dữ liệu dựa vào phép kiểm tra giá trị của thuộc tính rời



TẾ



rạc được chọn tại một ví dụ cụ thể có thuộc tập giá trị của thuộc tính đó hay khơng:



N

H



value (A) ∈ X với X ⊂ domain (A). Đây là phép kiểm tra logic đơn giản, khơng tốn



KI



nhiều tài ngun tính tốn. Trong khi đó, với thuộc tính liên tục (thuộc tính dạng số)





C



thì tập giá trị là khơng xác định trước. Chính vì vậy, trong quá trình phát triển cây, cần

sử dụng kiểm tra dạng nhị phân: value (A) ≤ θ. Với θ là hằng số ngưỡng (threshold)



ẠI



H



được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau



Đ



(theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu huấn



G



luyện. Điều đó có nghĩa là nếu thuộc tính liên tục A trong tập dữ liệu huấn luyện có d







N



giá trị phân biệt thì cần thực hiện d-1 lần kiểm tra value (A) ≤ θi với i = 1..d-1 để tìm



TR



Ư



ra ngưỡng θbest tốt nhất tương ứng với thuộc tính đó. Việc xác định giá trị của θ và

tiêu chuẩn tìm θ tốt nhất tùy vào chiến lược của từng thuật toán.



5.5.



Đánh giá cây quyết định trong lĩnh vực KPDL



5.5.1. Ưu điểm của cây quyết định

- Khả năng sinh ra các luật dễ hiểu

Cây quyết định có khả năng sinh ra các luật có thể chuyển đổi được sang dạng

tiếng Anh, hoặc các câu lệnh SQL, đây là ưu điểm nổi bật của kỹ thuật này. Thậm chí

với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi

theo bất cứ đường nào trên cây là dễ dàng theo nghĩa phổ biến và rõ ràng. Do vậy sự

giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối minh bạch.

- Khả năng thực thi trong những lĩnh vực hướng sử dụng luật:

SVTH: Nguyễn Ngọc Tri



15



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Phân lớp trong khai phá dữ liệu

Tải bản đầy đủ ngay(0 tr)

×