Tải bản đầy đủ - 0 (trang)
Hình 2.1 - Cây quyết định cho thuật toán ID3

Hình 2.1 - Cây quyết định cho thuật toán ID3

Tải bản đầy đủ - 0trang

32

Tuy nhiên thuật tốn ID3 khơng có khả năng xử lí đối với những dữ liệu có

chứa thuộc tính số, thuộc tính liên tục và khó khăn trong việc xử lý các dữ liệu

thiếu, dữ liệu nhiễu. Dữ liệu nhiễu là dữ liệu mà bao gồm dữ liệu mà không thể

được hiểu hoặc giải thích một cách chính xác bằng máy móc, chẳng hạn như văn

bản phi cấu trúc

Những hạn chế của ID3 được khắc phục trong thuật toán C4.5 dưới đây.

b. Thuật toán C4.5

 Giới thiệu thuật toán

Thuật toán C4.5 là thuật toán cải tiến từ thuật toán ID3. C4.5 sử dụng cơ chế lưu

trữ dữ liệu thường trú trong bộ nhớ nên nó chỉ thích hợp với những cơ sở dữ liệu nhỏ,

nó cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật

“if-then”. Kỹ thuật này cho phép giảm bớt kích thước tập luật và đơn giản hóa các luật

và độ chính xác so với nhánh tương ứng cây quyết định là tương đương.

 Trình bày thuật tốn

Cụ thể ta thực hiện theo các bước sau với tập dữ liệu T:

1.

2.



3.

4.



5.



6.



Tính tốn tần suất các giá trị trong các lớp của T

Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫu khác lớp thì

trả về một nút lá. Nếu khơng thì tạo một nút quyết định N

Với mỗi thuộc tính A tính Gain(A)

Tại nút N, thực hiện việc kiểm tra để chọn ra thuộc tính Ntest có giá trị

Gain tốt nhất (lớn nhất)

Nếu thuộc tính có giá trị Gain lớn nhất là thuộc tính liên tục thì tìm

ngưỡng cho phép tách của thuộc tính đó

Với mỗi tập con Ti được tách ra từ tập T (nếu Ntest là thuộc tính liên tục

thì tách theo ngưỡng, nếu Ntest là thuộc tính phân loại rời rạc thì tách

theo giá trị của các thuộc tính này) ta kiểm tra, nếu T i rỗng thì gán nút con

này của nút N là nút lá nếu khơng thì gán nút con này là nút được trả về

và thực hiện lại từ bước đầu với tập dữ liệu là Ti



Thay vì tỉa các nút như thuật toán ID3, C4.5 thực hiện tỉa các luật như sau:

-



Xây dựng cây quyết định cho phép phân loại đúng tối đa tập huấn luyện

Biến đổi cây thành luật suy diễn sao cho mỗi nhánh từ gốc đến lá tương



-



ứng một luật

Tỉa từng luật bằng cách bỏ bớt các điều kiện thành phần nếu sau khi bỏ độ



-



chính xác tăng lên

Sắp xếp các luật đã được tỉa theo độ chính xác trên tập kiểm tra. Sử dụng

luật theo thứ tự đó để phân loại ví dụ mới.



33

 Xử lí trong trường hợp dữ liệu thiếu

Dữ liệu thiếu là giá trị của thuộc tính khơng xuất hiện trong một vài trường hợp

có thể do lỗi trong q trình nhập bản ghi vào cơ sở dữ liệu hoặc giá trị của thuộc tính

đó được đánh giá là khơng cần thiết trong những trường hợp đó.

Khi đó ta tính information Gain (G) theo cơng thức 2.11:



Trong đó:

S là tập dữ liệu huấn luyện

B là tập dữ liệu test

Tập con S0 là tập con các case trong S mà có giá trị thuộc tính Aa khơng biết

Si biễu diễn các case với đầu ra là bi trong B

Từ đó P(S, B) cũng thay đổi như sau:



 Trường hợp thuộc tính liên tục

Ta thực hiện theo các bước sau:

1. Sắp xếp các case trong tập dữ liệu huấn luyện theo thứ tự tăng dần hoặc giảm

dần các giá trị liên tục của thuộc tính liên tục A đang xét ta được tập giá trị



2. Chia tập dữ liệu thành 2 tâp con theo ngưỡng



nằn giữa hai



giá trị liền kề nhau

3. Xét (n-1) ngưỡng θ có thể có ứng với n giá trị của thuộc tính A bằng cách tính

Information gain hay Gain ratio với từng ngưỡng đó. Ngưỡng có giá trị của

Information gain hay Gain ratio lớn nhất sẽ được chọn làm ngưỡng phân chia

của thuộc tính đó.

 Kết luận

Thuật tốn C4.5 có cơ chế sinh cây quyết định hiệu quả và chặt chẽ, có các cơ

chế xử lí với giá trị lỗi, thiếu và chống quá vừa dữ liệu (là trường hợp nếu khơng có

case xung đột thì cây quyết định sẽ phân lớp chính xác tồn bộ các case trong tập dữ



34

liệu đào tạo nhưng đôi khi dữ liệu lại chứa những đặc tính cụ thể nên khi áp dụng cây

quyết định đó vào tập dữ liệu khác thì kết quả khơng còn chính xác như trước). Hơn

nữa, C4.5 còn có phần chuyển đổi từ cây quyết định sang luật làm tăng độ chính xác

và dễ hiểu của kết quả phân lớp. Do đó có thể nói thuật tốn này là thuật toán hiệu quả

nhất trong học cây quyết định.

2.2.3. Cài đặt thuật tốn trên ngơn ngữ R

Giải thuật học cây quyết định được cài đặt trong gói tree với hàm và tham số:

tree (formula, data, …, split=c(“deviance”,”gini”),…, minsize,… )

trong đó:

formula: biểu thức dự đốn (nhãn), dùng chung cho cả phân lớp và hồi quy

data: khung chứa dữ liệu học có chứa cả biểu thức dự đốn (nhãn)

split: hàm phân hoạch dữ liệu

minsize: không phân hoạch tiếp nếu số phần tử của một nút nhỏ hơn minsize

Các tham số còn lại có thể dùng đến

Gói thư viện này cũng có hàm predict() như sau:

predict (object, new data, type=c(“vector”, “tree”, “class”,”where”),…)

Tham số:

object: mơ hình học cây quyết định dùng để dự đoán nhãn

newdata: tập dữ liệu kiểm tra (dự đoán nhãn)

type: kiểu dự đốn

Các tham số còn lại có thể dùng đến

a. Cài đặt thuật toán học cây quyết định với tập dữ liệu iris



35



Biểu đồ:



36



Hình 2.2 – Cây quyết định tạo ra từ thuật toán học cây quyết định trong R



b. Cài đặt thuật toán C4.5 với bộ dữ liệu Iris



37



Cuối cùng ta thu được cây quyết định như hình 2.4:



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Hình 2.1 - Cây quyết định cho thuật toán ID3

Tải bản đầy đủ ngay(0 tr)

×