Tải bản đầy đủ - 0 (trang)
Huấn luyện cho bộ lọc Bayes

Huấn luyện cho bộ lọc Bayes

Tải bản đầy đủ - 0trang

Đồ án thuật toán

thư rác. Neu như tổng g và b nhỏ hơn 5 thì thẻ sẽ bị loại bỏ. Xác suất tính được sẽ

nằm trong khoảng giá trị từ .01 đến .99. Xét cho cùng thì việc tính tốn ở trên

tương

ứng với cơng thức tính xác suất ở dạng luật Bayes đơn giản như sau:



Như vậy kết quả của q trình huấn luyện là một bảng băm hay nói khác hơn là

một cơ sở dữ liệu rút ra từ tập thư huấn luyện. Bảng băm này là ánh xạ của các thẻ

đến các giá trị xác xuất của chúng. Bảng băm này là cơ sở quyết định cho việc tính

tốn xác suất của một lá thư điện tử là thư rác.

CHƯƠNG 3: KẾT QUẢ VÀ ỨNG DỤNG

- Như đã nói từ đầu tốn học thống kê đóng vai trò rất quan trọng trọng trong mọi

lĩnh vực. Thống kê giúp cho việc nắm bắt đánh giá tình hình trở lên trực quan và

dễ hiểu hơn. Xử lý và ứng dụng dữ liệu thống kê đem lại hiệu quả lớn lao trong

việc tiên đốn và từ đó có thể xây dựng lên một hệ tự động hóa hoạt động chính

xác. Hướng tiếp cận thống kê theo lý thuyết Bayes khá đơn giản nhưng đem lại

hiệu quả rất cao chính vì thế mà nó được ứng dụng khá phổ biến trong hầu hết các

lĩnh vực.

- So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh

nghiệm được tích lũy áp dụng vào mơ hình phân loại đối tượng linh hoạt hơn, phù

hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách

suy luận thơng thường chính vì vậy mà các kết quả phân loại tương đối giống với

cách phân loại thông thường.

- Các kết quả đã đạt được là:

- Đồ án đã tập trung nghiên cứu về lý thuyết Bayes, từ bước cơ sở đó tìm hiểu tiếp

về một ứng dụng của nó liên quan trực tiếp đến ngành cơng nghệ thơng tin đó là

ứng dụng lọc thư rác. Q trình tìm hiểu về nguyên lý và cách thức hoạt động

củabộ lọc đã rút ra được những kết luận về ưu nhược điểm của tiếp cận thống kê

Bayes trong việc phân loại thư rác. Đối với vấn đề ứng dụng thực tế, khoá luận sử

dụng plugin BayesSpam như một đối tượng chính để tìm hiểu và nghiên cứu. Đối

với vấn đềáp dụng lý thuyết Bayes, khoá luận nghiên cứu xây dựng các cơng thức

tính xác suất sao cho việc xử lý thơng tin trở lên nhanh gọn và có độ chính xác cao.

- Từ việc tìm hiểuứng dụng BayesSpam, khố luận đã rút ra được một số nhận định

16



Đồ án thuật toán

về ưu điểm và nhược điểm của bộ lọc trong quá trình hoạt động. Kết quả phân loại

thư rác nhìn chung là gần giống với các kết quả đánh giá thư bởi người dùng.

- Tuy nhiên, do thời gian có hạn cũng như các kiến thức chuyên môn về hệ thống

thư điện tử nên các kết luận rút ra được trong q trình nghiên cứu còn nhiều hạn

chế. Dưới đây là những ưu nhược điểm chính của bộ lọc thư rác Bayes.

- Những ưu điểm chính:

 Ưu điểm của bộ lọc thư rác Bayes đó là nó có thể được huấn luyện bởi chính

người dùng cơ sở. Đây có thể thể nói là ưu điểm lớn nhất, nó tạo ra được nét

đặc trưng về cách nhìn nhận thư rác của mỗi người dùng.

 Các thư rác mà một người dùng nhận được thường liên quan tới các hoạt

động trực tuyến của người dùng. Ví dụ, một người sử dụng có thể đã được

đăng ký vào một bản tin trực tuyến mà người sử dụng xem xét như là thư

rác. Đang xem thơng tin này có thể chứa các từ ngữ được phổ biến cho tất cả

các bản tin, chẳng hạn như tên của bản tin và nguồn gốc của nó địa chỉ

email. Bộ lọc thư rác Bayesian sẽ chỉ định một xác suất cao hơn dựa trên

cách nhìn nhận của người sử dụng.

 Thư điện thử hợp pháp sẽ nhận được nhìn nhận theo xu hướng khác nhau đối

với mỗi người. Ví dụ, trong mơi trường một cơng ty, tên công ty của bạn và

tên của khách hàng sẽ được đề cập thường xuyên. Các bộ lọc sẽ chỉ định một

thư rác xác suất thấp hơn cho các email có chứa các tên đó.

 Xác suất của các từ là duy nhất đối với mỗi người dùng và có thể lớn dần

theo thời gian huấn luyện, cùng với sự hiệu chỉnh việc huấn luyện mỗi khi

có thư lọc sai. Kết quả là, lọc thư rác Bayesian tăng độ chính xác khi được

đào tạo thường xuyên theo các quy tắc được xác định trước.

- Những nhược điểm chính:

 Một kỹ thuật được sử dụng bởi Spammer nhằm cố gắng để giảm tính hiệu

quả của bộ lọc thư rác là dựa vào chính ngun tắc hoạt động của nó. Kĩ

thuật này sẽ chèn các từ mà khơng phải là bình thường liên kết với các nội

dung spamvới số lượng lớn văn bảnhợp pháp(thu thập từ các nguồn tin tức

hợp pháp hay văn chương).Do đó giảm giá trị xác suất kết hợp của thư điện

tử là thư rác, làm cho nó càng có nhiều khả năng vượt qua bộ lọc thư rác

Bayes.

 Một kỹ thuật khác được sử dụng để che mắt bộ lọc thư rác Bayes đó là thay

thế các văn bản bằng hình ảnh, hoặc trực tiếp đặt liên kết chứa nội dung

spam đến hình ảnh. Tồn bộ nội dung của tin nhắn, hoặc một số phần của nó,

được thay thế bằng một hình ảnh có cùng một nội dung được trình bày lơi

17



Đồ án thuật tốn

cuốn người xem. Bộ lọc thư rác thường khơng thể phân tích hình ảnh này,

mà có thể chứa các từ nhạy cảm như "khiêu dâm". Tuy nhiên, nhiều hệ thống

thư điên tử đã vô hiệu hố màn hình hiển thị của liên kết hình ảnh vì lý do

bảo mật, nhưng các spammer lại gửi liên kết đến hình ảnh ở xa có thể tiếp

cận với các mục tiêu spam ít hơn. Ngồi ra, một hình ảnh có kích thước lớn

hơn kích thước tương đương của văn bản. Do đó, các spammer cần nhiều

hơn nhu cầu băng thông để gửi tin nhắn trực tiếp bao gồm cả hình ảnh.

- Do vậy, sau bước tìm hiểu lý thuyết và ứng dụng thì hướng nghiên cứu tiếp của

đề tài nhằm tăng hiệu quả lọc là:

 Tìm ra cái nhìn chung về thư rác của những người dùng thư trong cùng hệ

thống thư điện tử. Bằng cách rút ra những email có xác suất là thư rác cao để

bổ xung vào tập huấn luyện chung cho tất cả mọi ngườinhằm gia tăng kinh

nghiệm cho bộ lọc.

 Ngăn chặn việc Spam bằng hình ảnh bằng việc đưa ra thơng báo là thư rác

nếu nó có nội dung chủ yếu là đồ họa. Đơn giản nhất là khơng cho hiển thị

hình ảnh khi người dùng duyệt thư trừ khi họ có nhu cầu xem hình ảnh thì tự

họ sẽ bật hiển thị.

 Tích hợp phân tích hình ảnh để lấy ra văn bản trong hình nhằm giảm việc lọc

sai do loại bỏ tất cả thư có nội dung chủ yếu đồ họa. Việc này đòi hỏi hệ

thống phải mạnh cùng thuật tốn phân tích hình ảnh thơng minh.

 Bổ xung thêm vào tập các từ trung tính tiếng Việt cho bộ lọc nhằm tăng tốc

và tiết kiệm tài nguyên cho cơ sở dữ liệu. Ví dụ như các từ trung tính tiếng

việt ứng với các từ trung tính tiếng Anh như: thì, là, ở, cái, con, và, hoặc, ....



18



Đồ án thuật toán



TÀI LIỆU THAM KHẢO

1. Nguyễn Quốc Đại, Lý thuyết Bayes, mạng Bayes.

2. Nguyễn Thanh Sơn, Lê Khánh Thuận; Lý thuyết xác suất và thống kê toán;

NXB Thống kê.

3. Azam. N, Dar. H. A, Marwat. S; Comparative study on Feature Space

Reduction for Spam Detection.

4. Wikipedia ;Bayesian Spam Filtering. Xem tại địa chỉ

http://en.wikipedia.org/wiki/Bayesian_spam_filtering.

5. Wikipedia ;Sequential Bayesian Filtering. Xem tại địa chỉ

http://en.wikipedia.org/wiki/Sequential_bayesian_filtering.

6. Nguyễn Văn Huy. Xem tại địa chỉ http://luanvan.co/luan-van/luan-van-thuattoan-bayes-va-ung-dung-39446/.



19



Đồ án thuật toán



PHỤ LỤC

I.



DỮ LIỆU BAN ĐẦU



- Ban đầu mình sẽ chuẩn bị 1 tập huấn luyện gồm 10 file text đánh dấu là spam

và 10 file text đánh dấu là không spam (nếu bạn có càng nhiều file càng tốt). Tỉ

lệ ở đây là 50:50 tức là nhận 1 email tới thì khả năng nó là spam là 50%.



- Sau mỗi lần kiểm tra được đó có phải là email spam khơng ta lại thêm nó vào

tập huấn luyện và tỉ lệ sẽ khác dần đi. Ví dụ nhận được 10 email tiếp theo đều

khơng phải là spam thì tỉ lệ spam/non-spam sẽ là khoảng 30:70 như thế 1 email

mới sẽ có khả năng spam là 30%.

20



Đồ án thuật toán



21



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Huấn luyện cho bộ lọc Bayes

Tải bản đầy đủ ngay(0 tr)

×