Tải bản đầy đủ - 0 (trang)
Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết

Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết

Tải bản đầy đủ - 0trang

25

P (có) P (mưa|có) P (trung bình|có) P (bình thường|có) P (mạnh|có) = 0.021

P (khơng) P (mưa|khơng) P (trung bình|khơng) P (bình thường|khơng) P (mạnh|khơng)

= 0.0069

Như vậy, theo phân loại Bayes đơn giản, ví dụ đang xét sẽ được phân loại là

“có”.

Tuy nhiên xác xuất thực của nhãn “có” là: 0.021/ (0.021+0.0069) = 0.75

Xác suất thực của nhãn “không” là: 0.0069/ (0.021+0.0069) = 0.25



2.2.4. Cài đặt thuật tốn trên ngơn ngữ R

Để thực hiện giải thuật Bayes đơn giản, trong R có hỗ trợ hàm naiveBayes()

trong gói thư viện e1071 như sau:

naiveBayes (x, y, laplace =0,…)

Trong đó:

x là tập dữ liệu học (ma trận, khung dữ liệu) không chứa nhãn (lớp)

y là nhãn của tập dữ liệu học

laplace là ước lượng Laplace

Các tham số còn lại có thể dùng đến

Ngồi ra ta cần sử dụng thêm hàm predict() cũng nằm trong gói thư viện e1071

như sau:

predict(object, new data,…)

Trong đó:

object: mơ hình học Bayes đơn giản dùng để dự đốn nhãn

new data: tập dữ liệu kiểm tra (dự đoán nhãn)

Các tham số còn lại có thể dùng đến

a. Sử dụng bộ dữ liệu Iris



26

Kết quả thu được như sau:



b. Sử dụng bộ dữ liệu thời tiết

Dựa vào bảng dữ liệu về thời tiết để dự đốn nhãn cho ví dụ:

< Trời = mưa, nhiệt độ= trung bình, độ ẩm= bình thường, gió = mạnh >



Kết quả thu được như sau:



Kết quả trên cho thấy nhãn của mẫu cần dự đoán sẽ là “có”.



2.2.5. Kết luận

a). Ưu điểm

-



Cho kết quả khá tốt trong thực tế mặc dù giả thiết về tính độc lập trong thực tế



không bao giờ đúng

- Phân lớp không yêu cầu phải ước lượng một cách chính xác sác xuất

- Dễ cài đặt, học nhanh, kết quả dễ hiểu

- Có nhiều ứng dụng trong thực tế như lọc thư rác, phân loại văn bản tự động…

b). Nhược điểm

- Giả thiết trong thực tế về tính độc lập là khơng đúng

- Khi dữ liệu có nhiều thuộc tính dư thừa thì phương pháp Nạve Bayes khơng còn

hiệu quả



27

- Dữ liệu liên tục có thể khơng tn theo phân phối chuẩn

c). Bàn luận:

- Vấn đề tính xác suất trên thực tế

Phân loại Bayes đơn giản đòi hỏi tính xác suất các điều kiện thành phần P (x k|ci).

Xác xuất này được tính bằng nc/n, trong đó nc là số lần xk và ci xuất hiện đồng thời

trong tập huấn luyện, n là số lần ci xuất hiện

Trong nhiều trường hợp, giá trị nc có thể bằng 0 nên nó sẽ ảnh hưởng tới độ

chính xác khi tính xác xuất điều kiện vì khi nc=0 thì bất kể các thành phần khác có giá

trị như thế nào, xác xuất điều kiện cuối cùng cũng bằng 0.

-



Khắc phục



Ta có thể sử dụng kỹ thuật làm trơn để khắc phục vấn đề trên theo cơng thức:



trong đó:

p là xác xuất tiền nghiệm của



(nếu khơng có thêm thơng tin gì khác thì xác



suất tiền nghiệm thường được tính p =1/u với u là số thuộc tính của thuộc tính



). Ví



dụ xác suất quan sát thấy Trời = nắng sẽ là 1/3 vì thuộc tính Trời có 3 giá trị.

m là tham số cho phép xác định ảnh hưởng của p tới công thức. Khi m=0 thì

cơng thức khơng thay đổi, khi



thì xác suất hậu nghiệm sẽ bằng p (



)



2.3. Thuật toán học cây quyết định

2.3.1. Giới thiệu về cây quyết định

Phương pháp học cây quyết định thuộc loại học có giám sát, được sử dụng cho

việc học các hàm phân loại từ dữ liệu huấn luyện, trong đó cây quyết định được sử

dụng làm biểu diễn xấp xỉ của hàm phân loại, tức là hàm có đầu ra là các giá trị rời rạc.

Khái niệm cây quyết định:

Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng

dựa vào dãy các luật. Cây quyết định nhận đầu vào là một bộ giá trị thuộc tính mơ tả

một đối tượng hay một tình huống và trả về một giá trị rời rạc. Mỗi bộ thuộc tính đầu

vào được gọi là một mẫu hay một ví dụ, đầu ra gọi là loại hay nhãn phân loại. Các

thuộc tính đầu vào có thể nhận các kiểu dữ liệu khác nhau (Binary, Nominal,



28

Quantitative Values, Ordinal) trong khi đó thuộc tính đầu ra phải có kiểu dữ liệu là

Binary hoặc Ordinal.

Cây quyết định được biểu diễn dưới dạng cấu trúc cây. Mỗi nút trung gian, tức là

nút không phải nút lá, tương ứng với phép kiểm tra một thuộc tính. Mỗi nhánh phía

dưới của nút đó tương ứng với một giá trị của thuộc tính hay một kết quả của phép thử.

Khác với nút trung gian, nút lá khơng chứa thuộc tính mà chứa nhãn phân loại.

Tóm lại, khi cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp của

nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết.

2.3.2. Thuật tốn học cây quyết định

Có rất nhiều thuật tốn khác nhau được sử dụng để học cây quyết định từ dữ liệu

như ID3, C4.5, Quinlan, độ lộn xộn, Sprint, thuật giải ILA… Trong phần này sẽ giới

thiệu thuật toán ID3, C4.5

a. Thuật toán ID3

 Giới thiệu thuật toán

Giải thuật ID3 là học cây quyết định từ một tập các ví dụ rèn luyện có:

Đầu vào: là một tập các ví dụ, mỗi ví dụ bao gồm các thuộc tính mơ tả một tình huống,

hay một đối tượng nào đó và một giá trị phân loại của nó.

Đầu ra: cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn

luyện và hi vọng là phân loại đúng các ví dụ chưa gặp trong tương lai.

 Trình bày thuật tốn

Thuật tốn được mơ tả như sau:

-



Khởi đầu: nút hiện thời là nút gốc chứa toàn bộ tập dữ liệu huấn luyện

Tại nút hiện thời n, lựa chọn thuộc tính:

• Chưa được sử dụng ở nút tổ tiên (tức là nút nằm trên đường đi từ gốc tới

nút hiện thời)

• Cho phép phân chia tập dữ liệu hiện thời thành các tập con một cách tốt

nhất

• Với mỗi giá trị thuộc tính được chọn thêm một nút con bên dưới

• Chia các ví dụ ở nút hiện thời về các nút con theo giá trị thuộc tính được



-



chọn

Lặp đệ quy cho tới khi:

• Tất cả thuộc tính đã được sử dụng ở các nút phía trên, hoặc

• Tất cả ví dụ tại nút hiện thời có cùng nhãn phân loại

• Nhãn của nút được lấy theo đa số nhãn của ví dụ tại nút hiện thời



29

Thuật toán xây dựng cây quyết định bằng cách ở mỗi bước kiểm tra cố gắng

chọn thuộc tính (nút nhánh) đơn giản nhất. Để xác định độ đơn giản của thuộc tính,

ID3 sử dụng giá trị độ đo là Entropy thông tin làm mức độ đo đồng nhất của tập dữ

liệu. Entropy thơng tin được tính theo cơng thức:



Trong đó:



là xác suất của các nhãn phân loại



Độ tăng thông tin (Information Gain) ký hiệu IG, là chỉ số đánh giá độ tốt của

thuộc tính trong việc phân chia tập dữ liệu thành những tâp con đồng nhất. Độ tăng

thông tin được tính như sau:



trong đó: S là tập dữ liệu ở nút hiện tại

A là thuộc tính

là tập các giá trị của thuộc tính A

là tập các mẫu có giá trị thuộc tính A bằng





là lực lượng của các tập hợp tương ứng



Giá trị của IG được sử dụng để lựa chọn thuộc tính tốt nhất tại mỗi nút. Thuộc

tính được lựa chọn là thuộc tính có IG lớn nhất.

 Bài toán và lời giải

Giả sử ta sử dụng bảng dữ liệu dự đoán viêc chơi tennis như bảng 2.4:

Ta phân lớp “+” là lớp có chơi tennis, lớp “-” là lớp không chơi tennis.

S = [9+, 5-], H(S) =

Với thuộc tính Trời:

Values (Trời) = {nắng, mưa, u ám}



30



Với thuộc tính Nhiệt độ:

Values (Nhiệt độ) = {cao, trung bình, thấp}



Tương tự với các thuộc tính Độ ẩm, Gió ta có:



Ta thấy thuộc tính có giá trị IG lớn nhất là thuộc tính Trời được sử dụng cho nút gốc.

Đối với nhánh Trời u ám toàn bộ các nhãn đều là “có” nên q trình học cây cho

nhánh này dừng lại với nút lá có nhãn là “có”.

Đối với nhánh Trời mưa và nắng, quá trình học cây được tiếp tục với tập dữ liệu con

tại nhánh đó.

Q trình tính được thực hiện như sau:

Với thuộc tính Nhiệt độ:

Values (Nhiệt độ) = {cao, trung bình, thấp}



Tương tự với thuộc tính độ ẩm, gió ta có:



31



Thuộc tính Độ ẩm có giá trị IG lớn nhất nên được chọn làm nút tiếp theo trong nhánh

này.

Tương tự ta tiếp tục tính cho nhánh Trời mưa có kết quả như sau:



Nhận thấy thuộc tính Gió có IG lớn nhất nên được chọn làm nút tiếp theo cho nhánh

này.

Cuối cùng ta được cây quyết định như hình 2.1:



Hình 2.1 - Cây quyết định cho thuật tốn ID3



 Kết luận. Thuật tốn ID3 có một số đặc điểm sau:

- Là thuật tốn tìm kiếm cây quyết định phù hợp với dữ liệu huấn luyện

- Là phương pháp tìm kiếm tham lam, từ trên xuống, bắt đầu từ cây rỗng.

- Có khuynh hướng lựa chọn cây quyết định đơn giản tức là cây có ít nút, trong

đó những nút tương ứng với thuộc tính có độ tăng thơng tin lớn được xếp ở

gần gốc hơn



32

Tuy nhiên thuật toán ID3 khơng có khả năng xử lí đối với những dữ liệu có

chứa thuộc tính số, thuộc tính liên tục và khó khăn trong việc xử lý các dữ liệu

thiếu, dữ liệu nhiễu. Dữ liệu nhiễu là dữ liệu mà bao gồm dữ liệu mà không thể

được hiểu hoặc giải thích một cách chính xác bằng máy móc, chẳng hạn như văn

bản phi cấu trúc

Những hạn chế của ID3 được khắc phục trong thuật toán C4.5 dưới đây.

b. Thuật toán C4.5

 Giới thiệu thuật toán

Thuật toán C4.5 là thuật toán cải tiến từ thuật toán ID3. C4.5 sử dụng cơ chế lưu

trữ dữ liệu thường trú trong bộ nhớ nên nó chỉ thích hợp với những cơ sở dữ liệu nhỏ,

nó cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật

“if-then”. Kỹ thuật này cho phép giảm bớt kích thước tập luật và đơn giản hóa các luật

và độ chính xác so với nhánh tương ứng cây quyết định là tương đương.

 Trình bày thuật tốn

Cụ thể ta thực hiện theo các bước sau với tập dữ liệu T:

1.

2.



3.

4.



5.



6.



Tính tốn tần suất các giá trị trong các lớp của T

Kiểm tra các mẫu, nếu thuộc cùng một lớp hoặc có rất ít mẫu khác lớp thì

trả về một nút lá. Nếu khơng thì tạo một nút quyết định N

Với mỗi thuộc tính A tính Gain(A)

Tại nút N, thực hiện việc kiểm tra để chọn ra thuộc tính Ntest có giá trị

Gain tốt nhất (lớn nhất)

Nếu thuộc tính có giá trị Gain lớn nhất là thuộc tính liên tục thì tìm

ngưỡng cho phép tách của thuộc tính đó

Với mỗi tập con Ti được tách ra từ tập T (nếu Ntest là thuộc tính liên tục

thì tách theo ngưỡng, nếu Ntest là thuộc tính phân loại rời rạc thì tách

theo giá trị của các thuộc tính này) ta kiểm tra, nếu T i rỗng thì gán nút con

này của nút N là nút lá nếu khơng thì gán nút con này là nút được trả về

và thực hiện lại từ bước đầu với tập dữ liệu là Ti



Thay vì tỉa các nút như thuật toán ID3, C4.5 thực hiện tỉa các luật như sau:

-



Xây dựng cây quyết định cho phép phân loại đúng tối đa tập huấn luyện

Biến đổi cây thành luật suy diễn sao cho mỗi nhánh từ gốc đến lá tương



-



ứng một luật

Tỉa từng luật bằng cách bỏ bớt các điều kiện thành phần nếu sau khi bỏ độ



-



chính xác tăng lên

Sắp xếp các luật đã được tỉa theo độ chính xác trên tập kiểm tra. Sử dụng

luật theo thứ tự đó để phân loại ví dụ mới.



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 2.4 – Bảng cơ sở dữ liệu thời tiết

Tải bản đầy đủ ngay(0 tr)

×