Tải bản đầy đủ - 0 (trang)
Bảng 3.4 - Bảng dữ liệu đầu vào cho giải thuật Apriori

Bảng 3.4 - Bảng dữ liệu đầu vào cho giải thuật Apriori

Tải bản đầy đủ - 0trang

53

b. Chương trình Ta sử dụng tập dữ liệu đầu vào là một file excel có dạng như sau:

Lưu ý: Mơ hình luật kết hợp chỉ áp dụng cho các dữ liệu rời rạc. Nếu dữ liệu là liên tục

thì phải tiến hành rời rạc hóa dữ liệu.

Chương trình trong R



Đánh giá tổng quát về các luật:



54



Kết quả gồm 18 luật kết hợp như dưới đây:



Chọn các luật có vế phải chứa “play=”



Kết quả thực hiện với phần mềm Weka như sau:



55



Ta thấy kết quả thực hiện với R hiển thị rất rõ ràng bao gồm cả rhs (vế phải), lhs

(vế trái), support (độ hỗ trợ của luật), confidence (độ tin cậy của luật), lift. Ta có thể sử

dụng thêm câu lệnh để lựa chọn ra những tập con tùy ý theo mục đích mong muốn.

Trong khi đó Weka chỉ hiển thị rhs, lhs và confidence.



3.3.



Các thông số đánh giá giải thuật



Một số chỉ số thông dụng được dùng để đánh giá một giải thuật máy học. Giả

sử để đánh giá một bộ phân loại hai lớp tạm gọi là dương và âm:

Số đúng dương (TP- True positive): số phần tử dương được phân loại dương.

Số sai âm (FN- False negative): số phần tử dương được phân loại âm.

Số đúng âm (TN- True negative): số phần tử âm được phân loại âm.

Số sai dương (FP- False positive): số phần tử âm được phân loại dương.

TP Rate: tỉ lệ những phần tử được phân loại lớp x mà đúng trên tổng số những

phần tử thuộc lớp x. Cho biết tỉ lệ lớp x được phân loại đúng là bao nhiêu, tương tự với

recall.

TP Rate=



(3.12)



FP Rate: tỉ lệ những phần tử được phân loại lớp x, nhưng mà nó

khơng thuộc lớp x (phân loại sai) chia cho tổng những phần tử không

thuộc lớp x. Cho biết lớp x bị phân loại sai là bao nhiêu.



56

FP Rate=

(3.13)



Độ chính xác (precision): tỉ lệ những phần tử thật sự là lớp x trên tổng số những

phần tử được phân loại vào lớp x. Số kết quả chính xác chia cho số kết quả trả về.

Precisi



(3.14)



on=

Độ bao phủ (recall): có ý nghĩa tương tự như TP rate.

Re



(3.15)



call=

Độ đo F1: chỉ số cân bằng giữa độ chính xác (precision) và độ bao phủ (recall).

Nếu độ chính xác, độ bao phủ cao và cân bằng thì độ đo F1 lớn, còn độ chính xác và

hồi tưởng nhỏ và khơng cân bằng thì độ đo F1 nhỏ.

(3.16)

F1=



3.4. Kết luận

Luật kết hợp được ứng dụng rất nhiều trong thực tế, ln nằm trong nhóm đầu

của các giải thuật ứng dụng thành công của khai mỏ dữ liệu. Giải thuật Apriori cũng

góp mặt vào trong nhóm 10 giải thuật quan trọng của khai mỏ dữ liệu. Giải thuật luật

kết hợp có một số ưu nhược điểm như sau:

Ưu điểm:

-



Được sử dụng nhiều trong ứng dụng khai mỏ dữ liệu như đầu tư sản xuất,



-



marketing, phân tích rủi ro…

Kết quả sinh ra các luật dễ hiểu



57

Nhược điểm:

-



Giải thuật khám phá luật kết hợp thường sinh ra tập khổng lồ các luật kết hợp,

thường chứa cả các luật dư thừa, mâu thuẫn dẫn đến cần có chiến lược để lựa

chọn tập luật tốt, hữu ích.



PHỤ LỤC 1:



GIỚI THIỆU NGƠN NGỮ R

1.2. Giới thiệu về ngôn ngữ R

1.2.1. Tổng quan về ngôn ngữ R

R là một ngơn ngữ lập trình hàm cấp cao được đề xuất bởi R.Ihaka và

R.Gentlement [13]. R là phần mềm miễn phí mã nguồn mở chạy trên nhiều nền phần

cứng như Intel, Power PC, Alpha, Sparc và trên nhiều hệ điều hành khác nhau như

Unix, Linux, Windows, Mac.

R là một mơi trường dành cho tính tốn thống kê. Nó hỗ trợ rất nhiều cơng cụ

cho phân tích dữ liệu, khám phá tri thức và khai mỏ dữ liệu.



58

Tóm lại, “R là một phần mềm sử dụng cho phân tích thống kê và đồ thị. Bản

chất của R là một ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác

nhau, từ tính tốn đơn giản, tốn học giả trí, tính tốn ma trận đến các phân tích thống

kê phức tạp. Vì là một ngơn ngữ nên người ta có thể sử dụng R để phát triển thành các

phần mềm chun mơn cho một vấn đề tính toán cá biệt.”



1.2.2. Cài đặt và chạy R

Để sử dụng ngôn ngữ R trước hết cần download và cài đặt R. Để tải phần mềm

R chúng ta vào địa chỉ http://cran.R-project.org, chọn download R tùy theo hệ điều

hành đang sử dụng là Windows, Linux hay Mac; sau đó click chọn “install R for the

first time” và download R. Khi download xong, tiến hành giải nén file vừa download

và cài đặt bằng cách ấn “Next” cho đến khi “Finish”. Khi đã cài đặt thành công, trên



desktop xuất hiện icon:

Khởi động R bằng cách click vào icon R trên desktop; xuất hiện giao diện như

hình 1.2:



59

Hình 1.2 - Giao diện lập trình của ngôn ngữ R

R sử dụng dưới dạng “command line” tức: gõ trực tiếp lệnh vào prompt màu đỏ

trên hình. Câu lệnh được thực thi sau khi nhấn enter.

Các lệnh tuân thủ nghiêm ngặt theo luật của R. Nếu lệnh gõ ra đúng R sẽ cho

prompt khác hay cho kết quả tùy theo lệnh. Nếu lệnh gõ ra không đúng R hiện thơng

báo là khơng đúng hay khơng hiểu.

Muốn thốt khỏi R cần nhấn nút [X] phía bên trên góc trái hoặc gõ lệnh q().



1.2.3. Một số phép toán và hàm trong R

R cung cấp các hàm để phân tích căn bản và đơn giản. Muốn phân tích phức tạp

hơn, cần tải về máy tính một số package khác. Package là một phần mềm nhỏ được các

nhà thống kê phát triển để giải quyết các vấn đề cụ thể và chạy trong R. Ví dụ package

chứa các hàm vẽ đồ thị, xây dựng cây quyết định ứng dụng trong khai phá dữ

liệu… Để sử dụng các package này, cần tải về, cài đặt nó. Để cài đặt package, trong

của sổ làm việc của R, chọn Packages -> Install package(s); chọn ngơn ngữ và sau đó

tìm package muốn cài và click “OK”. Như vậy, ta có thể sử dụng các hàm có sẵn trong

thư viện này bằng cách gõ lệnh library (tên package) sau đó gọi hàm trong đó.

R là một ngơn ngữ lập trình bậc cao. Tất cả cơng việc được làm thơng qua hàm.

Ta có thể truyền các thơng số cho hàm, giá trị trả về của hàm có thể lưu vào một đối

tượng biến, nhờ vào phép gán. Để gán một đối tượng ta dùng kí hiệu “=” hoặc “<-“,

ví dụ gán “x=5”, có thể viết “x=5” hoặc “x<-5”. Để hiển thị giá trị của biến, gõ tên

biến đó rồi nhấn Enter hoặc sử dụng lệnh print(tên biến) hoặc cat(tên biến). R cung

cấp lệnh help() để giúp người sử dụng có thể hiểu rõ quy luật từng hàm. Ví dụ, muốn

biết hàm lm() có những thơng số nào ta chỉ cần gõ help(lm) hay ?lm, một tab mới sẽ

được hiện ra trên trình duyệt chứa thơng tin về hàm đó.

a. Một số hàm tính tốn thơng dụng trong R

-



Các hàm dùng cho tính tốn đơn giản



R hỗ trợ tất cả các hàm về tính tốn đơn giản như cộng, trừ, nhân, chia, bình

phương, căn bậc hai, logarit, lũy thừa, các hàm lượng giác,…

-



Một số hàm sử dụng đối với dãy số, vector

• c() : dùng để tạo ra vector và gán trực tiếp đến đối tượng trong R



60

• Hàm seq() cho phép tạo ra dãy số trong R. Cú pháp: seq(số bắt đầu của dãy,



-



-



số kết thúc của dãy, by=khoảng cách của các số trong dãy)

• Hàm sum(): tính tổng của các số trong dãy

• Hàm sample(): dùng để lấy mẫu ngẫu nhiên các giá trị trong một tập nào đó

• Hàm mean(): dùng để tính giá trị trung bình của dãy số

• Hàm sd(): tính độ lệch chuẩn của dãy số

• Hàm summary(): tóm tắt các kết quả trong các kết quả khác nhau

• Hàm rnorm(số giá trị): mô phỏng số các giá trị normal

Một số hàm đối với ma trận

• Hàm matrix(): dùng để tạo ma trận

• Hàm t(): hàm chuyển vị của ma trận

• Hàm diag(): tạo giá trị cho đường chéo của ma trận

• Hàm det(): hàm tính định thức của ma trận

• Hàm eigen(): hàm tính giá trị riêng của ma trận

Một số hàm dùng trong tính tốn xác suất

• Hàm tính hốn vị: prod()

• Hàm tính tổ hợp



: choosen(n,k)



Các biến số ngẫu nhiên và hàm phân phối [9] được tóm tắt trong bảng 1.1:



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 3.4 - Bảng dữ liệu đầu vào cho giải thuật Apriori

Tải bản đầy đủ ngay(0 tr)

×