Tải bản đầy đủ - 0 (trang)
CHƯƠNG 3: KẾT QUẢ VÀ ỨNG DỤNG

CHƯƠNG 3: KẾT QUẢ VÀ ỨNG DỤNG

Tải bản đầy đủ - 0trang

Đồ án thuật toán

về ưu điểm và nhược điểm của bộ lọc trong quá trình hoạt động. Kết quả phân loại

thư rác nhìn chung là gần giống với các kết quả đánh giá thư bởi người dùng.

- Tuy nhiên, do thời gian có hạn cũng như các kiến thức chuyên môn về hệ thống

thư điện tử nên các kết luận rút ra được trong q trình nghiên cứu còn nhiều hạn

chế. Dưới đây là những ưu nhược điểm chính của bộ lọc thư rác Bayes.

- Những ưu điểm chính:

 Ưu điểm của bộ lọc thư rác Bayes đó là nó có thể được huấn luyện bởi chính

người dùng cơ sở. Đây có thể thể nói là ưu điểm lớn nhất, nó tạo ra được nét

đặc trưng về cách nhìn nhận thư rác của mỗi người dùng.

 Các thư rác mà một người dùng nhận được thường liên quan tới các hoạt

động trực tuyến của người dùng. Ví dụ, một người sử dụng có thể đã được

đăng ký vào một bản tin trực tuyến mà người sử dụng xem xét như là thư

rác. Đang xem thơng tin này có thể chứa các từ ngữ được phổ biến cho tất cả

các bản tin, chẳng hạn như tên của bản tin và nguồn gốc của nó địa chỉ

email. Bộ lọc thư rác Bayesian sẽ chỉ định một xác suất cao hơn dựa trên

cách nhìn nhận của người sử dụng.

 Thư điện thử hợp pháp sẽ nhận được nhìn nhận theo xu hướng khác nhau đối

với mỗi người. Ví dụ, trong mơi trường một công ty, tên công ty của bạn và

tên của khách hàng sẽ được đề cập thường xuyên. Các bộ lọc sẽ chỉ định một

thư rác xác suất thấp hơn cho các email có chứa các tên đó.

 Xác suất của các từ là duy nhất đối với mỗi người dùng và có thể lớn dần

theo thời gian huấn luyện, cùng với sự hiệu chỉnh việc huấn luyện mỗi khi

có thư lọc sai. Kết quả là, lọc thư rác Bayesian tăng độ chính xác khi được

đào tạo thường xuyên theo các quy tắc được xác định trước.

- Những nhược điểm chính:

 Một kỹ thuật được sử dụng bởi Spammer nhằm cố gắng để giảm tính hiệu

quả của bộ lọc thư rác là dựa vào chính ngun tắc hoạt động của nó. Kĩ

thuật này sẽ chèn các từ mà không phải là bình thường liên kết với các nội

dung spamvới số lượng lớn văn bảnhợp pháp(thu thập từ các nguồn tin tức

hợp pháp hay văn chương).Do đó giảm giá trị xác suất kết hợp của thư điện

tử là thư rác, làm cho nó càng có nhiều khả năng vượt qua bộ lọc thư rác

Bayes.

 Một kỹ thuật khác được sử dụng để che mắt bộ lọc thư rác Bayes đó là thay

thế các văn bản bằng hình ảnh, hoặc trực tiếp đặt liên kết chứa nội dung

spam đến hình ảnh. Tồn bộ nội dung của tin nhắn, hoặc một số phần của nó,

được thay thế bằng một hình ảnh có cùng một nội dung được trình bày lơi

17



Đồ án thuật tốn

cuốn người xem. Bộ lọc thư rác thường khơng thể phân tích hình ảnh này,

mà có thể chứa các từ nhạy cảm như "khiêu dâm". Tuy nhiên, nhiều hệ thống

thư điên tử đã vơ hiệu hố màn hình hiển thị của liên kết hình ảnh vì lý do

bảo mật, nhưng các spammer lại gửi liên kết đến hình ảnh ở xa có thể tiếp

cận với các mục tiêu spam ít hơn. Ngồi ra, một hình ảnh có kích thước lớn

hơn kích thước tương đương của văn bản. Do đó, các spammer cần nhiều

hơn nhu cầu băng thông để gửi tin nhắn trực tiếp bao gồm cả hình ảnh.

- Do vậy, sau bước tìm hiểu lý thuyết và ứng dụng thì hướng nghiên cứu tiếp của

đề tài nhằm tăng hiệu quả lọc là:

 Tìm ra cái nhìn chung về thư rác của những người dùng thư trong cùng hệ

thống thư điện tử. Bằng cách rút ra những email có xác suất là thư rác cao để

bổ xung vào tập huấn luyện chung cho tất cả mọi ngườinhằm gia tăng kinh

nghiệm cho bộ lọc.

 Ngăn chặn việc Spam bằng hình ảnh bằng việc đưa ra thơng báo là thư rác

nếu nó có nội dung chủ yếu là đồ họa. Đơn giản nhất là không cho hiển thị

hình ảnh khi người dùng duyệt thư trừ khi họ có nhu cầu xem hình ảnh thì tự

họ sẽ bật hiển thị.

 Tích hợp phân tích hình ảnh để lấy ra văn bản trong hình nhằm giảm việc lọc

sai do loại bỏ tất cả thư có nội dung chủ yếu đồ họa. Việc này đòi hỏi hệ

thống phải mạnh cùng thuật tốn phân tích hình ảnh thơng minh.

 Bổ xung thêm vào tập các từ trung tính tiếng Việt cho bộ lọc nhằm tăng tốc

và tiết kiệm tài nguyên cho cơ sở dữ liệu. Ví dụ như các từ trung tính tiếng

việt ứng với các từ trung tính tiếng Anh như: thì, là, ở, cái, con, và, hoặc, ....



18



Đồ án thuật toán



TÀI LIỆU THAM KHẢO

1. Nguyễn Quốc Đại, Lý thuyết Bayes, mạng Bayes.

2. Nguyễn Thanh Sơn, Lê Khánh Thuận; Lý thuyết xác suất và thống kê toán;

NXB Thống kê.

3. Azam. N, Dar. H. A, Marwat. S; Comparative study on Feature Space

Reduction for Spam Detection.

4. Wikipedia ;Bayesian Spam Filtering. Xem tại địa chỉ

http://en.wikipedia.org/wiki/Bayesian_spam_filtering.

5. Wikipedia ;Sequential Bayesian Filtering. Xem tại địa chỉ

http://en.wikipedia.org/wiki/Sequential_bayesian_filtering.

6. Nguyễn Văn Huy. Xem tại địa chỉ http://luanvan.co/luan-van/luan-van-thuattoan-bayes-va-ung-dung-39446/.



19



Đồ án thuật tốn



PHỤ LỤC

I.



DỮ LIỆU BAN ĐẦU



- Ban đầu mình sẽ chuẩn bị 1 tập huấn luyện gồm 10 file text đánh dấu là spam

và 10 file text đánh dấu là khơng spam (nếu bạn có càng nhiều file càng tốt). Tỉ

lệ ở đây là 50:50 tức là nhận 1 email tới thì khả năng nó là spam là 50%.



- Sau mỗi lần kiểm tra được đó có phải là email spam khơng ta lại thêm nó vào

tập huấn luyện và tỉ lệ sẽ khác dần đi. Ví dụ nhận được 10 email tiếp theo đều

khơng phải là spam thì tỉ lệ spam/non-spam sẽ là khoảng 30:70 như thế 1 email

mới sẽ có khả năng spam là 30%.

20



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 3: KẾT QUẢ VÀ ỨNG DỤNG

Tải bản đầy đủ ngay(0 tr)

×