Tải bản đầy đủ - 0 (trang)
6 Phương pháp đánh giá

6 Phương pháp đánh giá

Tải bản đầy đủ - 0trang

GVHD: Th.S Mai Thu Giang



H



Hình 1 . 9 Precision và Recall



U







Khóa luận tốt nghiệp



TẾ



1.6.2 Precision và Recall



N

H



Precision và Recall là một phép đo hiệu quả và thường được sử dụng đối với bài



KI



tốn phân loại có tập dữ liệu của các lớp chênh lệch nhau rất nhiều. [13]





C



Xét bài toán nhị phân, ta xem một lớp là positive và lớp còn lại là negative.

Với cách xác định một lớp là positive, Precision được định nghĩa là tỉ lệ số điểm



ẠI



H



true positive trong số những điểm được phân loại là positive (TP + FP). Recall được



Đ



định nghĩa là tỉ lệ số điểm true positive trong số những điểm là positive (TP + FN)

TP

TP + FP



(1.9)



TR



Ư







N



G



𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =



SVTH: Trương Văn Quốc Anh



21



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang

𝑅𝑒𝑐𝑎𝑙𝑙 =



TP

TP + FN



(1.10)



Có thể nhận thấy răng Precision và Recall đều là những đại lượng không âm nhỏ

hơn hoặc bằng một.



Chỉ số Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là

cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức là tỉ lệ bỏ sót các điểm



Hình 1 . 10 Biểu đồ Lift-chart



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



TẾ



H



U







thực sự positive thấp.



1.6.3 Gain – Lift chart

Lift là độ đo về hiệu quả của một mơ hình dự đốn và được tính bằng tỷ số giữa

kết quả thu được có và khơng có mơ hình dự đốn. Gain và Lift chart là cơng cụ trực

quan để đánh giá hiệu quả của một mô hình hai biểu đồ này gồm có đường cong lift và

baseline. [13]



1.6.4 Root Means Square Error

Độ đo này thường được sử dụng trong việc đánh giá độ khớp của mô hình dự

đốn so với dữ liệu huấn luyện và được tính bằng căn bậc hai của giá trị tuyệt đối của

hệ số tương quan giữa giá trị thực với giá trị dự đốn. [13]



SVTH: Trương Văn Quốc Anh



22



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang

(1.11)



N

H



TẾ



H



U







∑𝑛𝑡=1 𝑦� − 𝑦𝑡 )2

𝑅𝑀𝑆𝐸 = �

𝑛





C



KI



Hình 1 . 11 Biểu đồ Root Means Square Error



H



1.6.5 Receiver Operator Characteristic (ROC)



ẠI



ROC là đồ thị biểu diễn hiệu xuất của một hệ thống phân loại nhị phân khi thay



G



Đ



đổi ngưỡng phân lớp. Đường cong ROC được tạo ra bằng cách vẽ tỷ lệ true positive so



N



với tỉ lệ false positive. [13]



Ư







Đường cong càng đi dọc theo biên trái và dọc theo biên phía trên của khơng gian



TR



ROC thì kết quả kiểm tra càng chính xác, ngược lại đường cong càng tiến tới thành

đường chéo 45 độ trong không gian ROC thì độ chính xác của kiểm tra càng thấp.



SVTH: Trương Văn Quốc Anh



23



GVHD: Th.S Mai Thu Giang



H



TẾ



Hình 1 . 12 Đồ thị ROC



U







Khóa luận tốt nghiệp



N

H



Trong một đồ thị ROC bao gồm các mơ hình khác nhau, mơ hình nào có vị trí





C



1.7 Giới thiệu phần mềm Weka



KI



càng cao thì có tỉ lệ chính xác càng cao.



H



1.7.1 Giới thiệu chung



ẠI



Weka là viết tắt của cụm từ Waikato Environment for Knowledge Analysis. Là



Đ



phần mềm khai phá dữ liệu được phát triển bởi đại học Waikato, New Zealand. [14]



N



G



Đây là một công cụ hiện đại được xây dựng nhằm mục tiêu phát triển các kỹ







thuật học máy và áp dụng chúng vào trong bài toán khai phá dữ liệu thực tế.



TR



Ư



Weka được xây dựng bằng ngôn ngữ Java, với cấu trúc gồm hơn 600 lớp và được

tổ chức thành 10 packages.

Weka có ba tính năng chính là:

- Khảo sát dữ liệu, bao gồm: tiền xử lý dữ liệu, phân lớp, phân cụm dữ liệu và

khai phá luật kết hợp

- Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng, so sánh và đánh

giá các giải thuật học máy và khai phá dữ liệu.

- Giao diện đồ họa: biểu thị trực quan dữ liệu dưới nhiều dạng đồ thị khác nhau

Các mơi trường chính của weka

• Explorer



SVTH: Trương Văn Quốc Anh



24



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Đây là mơi trường chính cho phép sử dụng tất cả khả năng của weka để khai phá

dữ liệu.

• Experimenter

Đây là mơi trường cho phép thực hành các thí nghiệm và thực hiện các kiểm tra

thống kê giữa các mơ hình học máy.

• KnowledgeFlow

Đây là môi trường cho phép thực hiện các bước của thí nghiệm bằng tương tác

đồ họa theo kiểu kéo thả.

• Simple CLI



U







Mơi trường Simple CLI cho phép thực hiện thí nghiệm theo giao diện đơn giản



H



kiểu dòng lệnh.



TẾ



• Workbench



N

H



Đây là sự kết hợp của các mơi trường nói trên, người sử dụng có thể tùy ý



TR



Ư







N



G



Đ



ẠI



H





C



KI



chuyển đổi mà khơng cần phải quay lại cửa sổ chính.



Hình 1 . 13 Cửa sổ chính của Weka



1.7.2 Mơi trường Explorer

Mơi trường Explorer gồm có các tab chính sau:

• Preprocess

Tab Preprocess cho phép người sử dụng có thể chọn và xử lý dữ liệu cần khai

phá.

• Classify



SVTH: Trương Văn Quốc Anh



25



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

6 Phương pháp đánh giá

Tải bản đầy đủ ngay(0 tr)

×