Tải bản đầy đủ - 0 (trang)
CHƯƠNG 2: PHÁT BIỂU VẤN ĐỀ

CHƯƠNG 2: PHÁT BIỂU VẤN ĐỀ

Tải bản đầy đủ - 0trang

Đồ án thuật toán

hiểu vấn đề một cách tường minh nhất. Chúng ta sẽ dùng cảm nhận về thư rác của

mỗi người để huấn luyện cho các bộ lọc thư rác của chính họ. Mỗi bộ lọc sẽ xử lý

thư rác tùy theo phong cách của từng người dùng thư điện tử. Và mơ hình thống kê

Bayes được áp dụng để thực thi ý tưởng này. Từ những đặc điểm trên, ta thấy rằng

việc xây dựng được một bộ lọc thư rác thơng minh có thể loại bỏ một cách chính

xác hiện nay là một nhiệm vụ còn nhiều thách thức.

2. Bài toán

- Thư điện tử là một trong những phương tiện để giao tiếp đáng tin cậy và hầu

như khơng tốn kém chi phí sử dụng. Phạm vi sử dụng của nó rộng khắp trên tồn

thế

giới và có thể dễ dàng truy cập bằng hầu hết các phương tiện truyền thơng đã biến



thành nạn nhân của những kẻ spam. Hậu quả đơn giản nhất là làm tốn băng thông

mạng và nghiêm trọng hơn là làm mất thời gian của người dùng thư điện tử, làm

lan

truyền vi rút máy tính. Có thời điểm người ta thống kê được rằng có đến 60% thư

điện tà là thư rác và mỗi ngày một người dung thư điện tử phải nhận ít nhất là 6 cú

spam.

- Chúng ta không thể đổi địa chỉ hòm thư mỗi lần bị spam bởi điều này khơng

những khơng hạn chế được thư rác mà có khi còn làm cho nó gia tăng. Vậy cần

phải tìm ra một giải pháp chống thư rác sử dụng bộ lọc được gắn thuật tốn phân

loại với tính năng hiệu quả và kĩ thuật đơn giản dễ cài đặt. Và một yêu cầu khơng

thể thiếu là

có làm sao với thuật tốn đó những kẻ spam hiểu rằng việc chúng cố tình spam là



dụng

3. Dùng luật Bayes tính xác suất

Tính xác suất cho mỗi thẻ ta dùng luật Bayes để tính. Giả sử ta cần tính xác

suất cho thẻ chứa tò ‘promotion ’.Từ này chúng ta thường xuyên gặp trong thư điện

tử mời chào dịch vụ maketing. Cơng thức tính theo luật Bayes:



Trong đó:

 Pr(S\ W) là xác suất mà thư mà chứa từ ‘promotion ’là thư rác

 Pr(S) là xác suất mà thư bất kì là thư rác

13



Đồ án thuật tốn

 P(W \S) là xác suất mà từ "promotion" xuất hiện trong thư rác

 Pr(H) là xác suất mà một bản tin bất ki không là thư rác

 P(W \H) là xác suất mà từ "promotion" xuất hiện trong thư rác

Như đã nói ở trên, những thống kê gần đây cho thấy 80% thư điện tử là thư rác

nên ta sẽ có:



Tuy nhiên để cho đơn giản và đã qua thực tế nên người ta chọn các xác suất

trước là giống nhau và đều có giá trị bằng 0.5. Tức là:



Bộ lọc mà dùng giả thiết này được gọi là "không đổi xứng", có nghĩa rằng chúng

khơng có sự đối xử phân biệt các thư đến. Giả thiết này cho phép rút gọn công

thức ở trên thành:



Bộ lọc thư rác Bayesspam vận dụng chính xác cơng thức trên để tính xác suất

cho mỗi từ đơn.

Sau khi đã tính được xác suất thư chứa từ đơn là thư rác ta cần kết hợp các xác suất

đơn đó lại thành một xác suất cuối cùng. Xác suất này dùng để đánh giá thư mà

chứa tất cả các từ đơn đó có xác suất là thư rác là bao nhiêu. Cơng thức tính xác

suất

kết hợp là:



Trong đó:

 p là xác suất thư đang xét là thư rác

 pl là xác suấtp(S\ W1), ứng với từ đầu tiên (ví dụ từ "promotion")

 p2 là xác suấtp(S\ W2) , ứng với từ thứ hai (ví dụ tò "offer")

 ...

 pN là xác suất p(S|W N), ứng với từ thứ N (ví dụ tò "home")

Kết quả p thường được dùng so sánh với một ngưỡng nào đó để quyết định

thư đang xét có xác suất p đó có là thư rác hay không. Neu p lớn hơn giá trị

14



Đồ án thuật tốn

ngưỡng,

thư đó sẽ bị đánh dấu là thư rác, ngược lại sẽ không bị đánh dấu là thư rác.



4. Huấn luyện cho bộ lọc Bayes

Sử dụng hai tập thư điện tà huấn luyện, một tập là thư rác và tập còn lại khơng

phải là thư rác. Mỗi tập chứa khoảng 4000 thư. Đem số lần xuất hiện của mỗi thẻ

trong mỗi tập thư điện tử. Mỗi lần đếm kết thúc với hai bảng băm. Mỗi bảng băm

tương ứng với mỗi tập thư điện tử, bảng này là ánh xạ các thẻ đến số lần xuất hiện

của thẻ đó.

Tiếp theo chúng ta tạo ra bảng băm thứ 3, bảng băm này ánh xạ mỗi thẻ tới

xác suất mà một email chứa nó là email spam. Ta tính theo cơng thức sau đây



Trong đó:

 N good ứng với số thư không phải là thư rác.

 N bad ứng với số thư là thư rác.

Công thức trên được diễn tả theo các biểu thức của ngôn ngữ Arc. Mỗi biểu

thức là một cặp dấu ngoặc đơn. Trong ngoặc là một danh sách với biểu thức đứng ở

vị trí đầu tiên theo sau là các tham số. Thực hiện biểu thức từ trái qua phải.

Ví dụ:

(< (+ g b) 5) tương đương với (g + b) < 5.

Công thức này sẽ tính xác suất cho một từ hay thẻ (word) như sau: Thẻ được

lấy từ trong bảng good, là bảng băm các thẻ của tập thư không phải là thư rác và

nhân

đôi lên. Nhân đôi lên để giảm độ chênh lệch xác suất giữa thư rác và không phải

thư

rác, tăng độ chính xác trong việc phân loại. Tiếp theo cũng thẻ đó ta lấy từ bảng

bad,

là bảng băm các thẻ tập thư rác. Như yậy ta có chỉ số g ứng với 2 lần suất hiện của

thẻ

trong tập thư không phải thư rác và b ứng với số lần xuất hiện của thẻ trong trong

tập

15



Đồ án thuật toán

thư rác. Neu như tổng g và b nhỏ hơn 5 thì thẻ sẽ bị loại bỏ. Xác suất tính được sẽ

nằm trong khoảng giá trị từ .01 đến .99. Xét cho cùng thì việc tính tốn ở trên

tương

ứng với cơng thức tính xác suất ở dạng luật Bayes đơn giản như sau:



Như vậy kết quả của quá trình huấn luyện là một bảng băm hay nói khác hơn là

một cơ sở dữ liệu rút ra từ tập thư huấn luyện. Bảng băm này là ánh xạ của các thẻ

đến các giá trị xác xuất của chúng. Bảng băm này là cơ sở quyết định cho việc tính

tốn xác suất của một lá thư điện tử là thư rác.

CHƯƠNG 3: KẾT QUẢ VÀ ỨNG DỤNG

- Như đã nói từ đầu tốn học thống kê đóng vai trò rất quan trọng trọng trong mọi

lĩnh vực. Thống kê giúp cho việc nắm bắt đánh giá tình hình trở lên trực quan và

dễ hiểu hơn. Xử lý và ứng dụng dữ liệu thống kê đem lại hiệu quả lớn lao trong

việc tiên đốn và từ đó có thể xây dựng lên một hệ tự động hóa hoạt động chính

xác. Hướng tiếp cận thống kê theo lý thuyết Bayes khá đơn giản nhưng đem lại

hiệu quả rất cao chính vì thế mà nó được ứng dụng khá phổ biến trong hầu hết các

lĩnh vực.

- So với các phương pháp khác, phương pháp thống kê Bayes lập luận theo kinh

nghiệm được tích lũy áp dụng vào mơ hình phân loại đối tượng linh hoạt hơn, phù

hợp với đặc trưng của bài toán hơn. Các cơ chế ước lượng cũng gần gũi với cách

suy luận thơng thường chính vì vậy mà các kết quả phân loại tương đối giống với

cách phân loại thông thường.

- Các kết quả đã đạt được là:

- Đồ án đã tập trung nghiên cứu về lý thuyết Bayes, từ bước cơ sở đó tìm hiểu tiếp

về một ứng dụng của nó liên quan trực tiếp đến ngành cơng nghệ thơng tin đó là

ứng dụng lọc thư rác. Quá trình tìm hiểu về nguyên lý và cách thức hoạt động

củabộ lọc đã rút ra được những kết luận về ưu nhược điểm của tiếp cận thống kê

Bayes trong việc phân loại thư rác. Đối với vấn đề ứng dụng thực tế, khoá luận sử

dụng plugin BayesSpam như một đối tượng chính để tìm hiểu và nghiên cứu. Đối

với vấn đềáp dụng lý thuyết Bayes, khoá luận nghiên cứu xây dựng các cơng thức

tính xác suất sao cho việc xử lý thông tin trở lên nhanh gọn và có độ chính xác cao.

- Từ việc tìm hiểuứng dụng BayesSpam, khoá luận đã rút ra được một số nhận định

16



Đồ án thuật toán

về ưu điểm và nhược điểm của bộ lọc trong quá trình hoạt động. Kết quả phân loại

thư rác nhìn chung là gần giống với các kết quả đánh giá thư bởi người dùng.

- Tuy nhiên, do thời gian có hạn cũng như các kiến thức chuyên môn về hệ thống

thư điện tử nên các kết luận rút ra được trong q trình nghiên cứu còn nhiều hạn

chế. Dưới đây là những ưu nhược điểm chính của bộ lọc thư rác Bayes.

- Những ưu điểm chính:

 Ưu điểm của bộ lọc thư rác Bayes đó là nó có thể được huấn luyện bởi chính

người dùng cơ sở. Đây có thể thể nói là ưu điểm lớn nhất, nó tạo ra được nét

đặc trưng về cách nhìn nhận thư rác của mỗi người dùng.

 Các thư rác mà một người dùng nhận được thường liên quan tới các hoạt

động trực tuyến của người dùng. Ví dụ, một người sử dụng có thể đã được

đăng ký vào một bản tin trực tuyến mà người sử dụng xem xét như là thư

rác. Đang xem thơng tin này có thể chứa các từ ngữ được phổ biến cho tất cả

các bản tin, chẳng hạn như tên của bản tin và nguồn gốc của nó địa chỉ

email. Bộ lọc thư rác Bayesian sẽ chỉ định một xác suất cao hơn dựa trên

cách nhìn nhận của người sử dụng.

 Thư điện thử hợp pháp sẽ nhận được nhìn nhận theo xu hướng khác nhau đối

với mỗi người. Ví dụ, trong mơi trường một công ty, tên công ty của bạn và

tên của khách hàng sẽ được đề cập thường xuyên. Các bộ lọc sẽ chỉ định một

thư rác xác suất thấp hơn cho các email có chứa các tên đó.

 Xác suất của các từ là duy nhất đối với mỗi người dùng và có thể lớn dần

theo thời gian huấn luyện, cùng với sự hiệu chỉnh việc huấn luyện mỗi khi

có thư lọc sai. Kết quả là, lọc thư rác Bayesian tăng độ chính xác khi được

đào tạo thường xuyên theo các quy tắc được xác định trước.

- Những nhược điểm chính:

 Một kỹ thuật được sử dụng bởi Spammer nhằm cố gắng để giảm tính hiệu

quả của bộ lọc thư rác là dựa vào chính ngun tắc hoạt động của nó. Kĩ

thuật này sẽ chèn các từ mà không phải là bình thường liên kết với các nội

dung spamvới số lượng lớn văn bảnhợp pháp(thu thập từ các nguồn tin tức

hợp pháp hay văn chương).Do đó giảm giá trị xác suất kết hợp của thư điện

tử là thư rác, làm cho nó càng có nhiều khả năng vượt qua bộ lọc thư rác

Bayes.

 Một kỹ thuật khác được sử dụng để che mắt bộ lọc thư rác Bayes đó là thay

thế các văn bản bằng hình ảnh, hoặc trực tiếp đặt liên kết chứa nội dung

spam đến hình ảnh. Tồn bộ nội dung của tin nhắn, hoặc một số phần của nó,

được thay thế bằng một hình ảnh có cùng một nội dung được trình bày lơi

17



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 2: PHÁT BIỂU VẤN ĐỀ

Tải bản đầy đủ ngay(0 tr)

×