Tải bản đầy đủ - 0 (trang)
II. CHẠY TẬP HUẤN LUYỆN

II. CHẠY TẬP HUẤN LUYỆN

Tải bản đầy đủ - 0trang

Đồ án thuật toán



23



Đồ án thuật toán



24



Đồ án thuật toán

III.



TIẾN HÀNH KIỂM TRA MAIL SPAM



- Mình cũng sẽ tách mail cần kiểm tra thành 1 túi từ.

- Áp dụng phương pháp phân loại bayes đơn giản, ta sẽ tính tỉ lệ của từng từ trong

túi từ này có trong List túi từ spam và non-spam là bao nhiêu sau đó lấy tích của

chúng và nhân với tỉ lệ spam:non-spam và so sánh 2 kết quả.

Ví dụ: mail cần kiểm tra có 100 từ, tỉ lệ của từng từ trong List túi từ spam nhân với

nhau là A; tỉ lệ của từng từ trong túi từ non-spam là B. Tỉ lệ spam:non-spam là X:Y

(ban đầu là 50:50 nhưng con số này thay đổi sau mỗi lần thêm mail kiểm tra vào

tập huấn luyện)

- Để biết mail mới có phải là spam hay không ta so sánh A.X với B.Y. Nếu A.X >

B.Y thì mail mới là spam và ta thêm túi từ mới vào List túi từ spam ngược lại thì

mail mới là non-spam, ta thêm túi từ mới vào List túi từ non-spam và lưu lại.



25



Đồ án thuật toán



26



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

II. CHẠY TẬP HUẤN LUYỆN

Tải bản đầy đủ ngay(0 tr)

×