Tải bản đầy đủ - 0 (trang)
Thuật toán phân loại văn bản Naive Bayes classifier

Thuật toán phân loại văn bản Naive Bayes classifier

Tải bản đầy đủ - 0trang

Đồ án thuật tốn



Trong đó: D là tài liệu cần phân loại, Ci là một tài liệu bất kì. Theo giả định

của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập với ngữ cảnh xuất

hiện

các từ đồng thời cũng độc lập với vị trí của các từ trong tài liệu. Xác suất P(D |Cj)

được tính toán từ tần suất xuất hiện của các từ đơn wi (word) trong tài liệu D



1 là tổng số từ w trong tài liệu D:

Như vậy biểu thức (1) có thể được viết lại như sau:



Giá trị lớn nhất của xác suất P(Cj | D ) được đưa ra bởi nguời làm công tác phân

loại. Giá trị này được gọi là ngưỡng hay ranh rới giữa các lớp văn bản mà chúng có

thể chứa tài liệu D.

Ví dụ: Phân loại thư điện tử bằng Naive Bayes classifier

Đây là một ví dụ về làm việc naive Bayesian để phân loại các tài liệu phân loại

vấn đề. Xem xét các vấn đề của phân loại các tài liệu theo nội dung của họ, ví dụ

vào

thư rác và khơng phải là thư rác trong các thư điện tô. Hãy tưởng tượng rằng các

tài



9



Đồ án thuật tốn

liệu được lấy ra tò một số lớp học của các tài liệu có thể làm mơ hình như là bộ các

từ

mà ở đây xác suất từ thứ i của một tài liệu xảy ra trong một tài liệu từ lớp c có thể

được viết như:



Xử lý như vậy đã đơn giản các ý tưởng, hơn nữa bằng cách giả sử rằng xác suất

của một tò trong một tài liệu là độc lập với chiều dài của một tài liệu hoặc tất cả

các tài

liệu cùng một chiều dài.

Sau đó, xác suất của một tài liệu D, cho một lớp học c, là



Câu hỏi mà mong muốn có câu trả lời là: "xác suất nào để một tài liệu D thuộc

về một lớp học C?" Nói cách khác, P ( C | D ) ?

Bây giờ, theo định nghĩa:







Nên có:



10



Đồ án thuật tốn



Giả định rằng thời điểm chỉ có hai lớp học, s và s (ví dụ như thư rác và

không phải là thư rác).



Bằng cách sử dụng các kết quả Bayesian trên, có thể viết:



Do đó:



Vì vậy có thể viết:



Và như vậy



11



Đồ án thuật toán



Cuối cùng, các tài liệu có thể được phân loại như sau:

Nếu nó là thư rác



ngược lại nó khơng phải là thư rác.

CHƯƠNG 2: PHÁT BIỂU VẤN ĐỀ

1. Đặt vấn đề

- Thư rác bắt đầu được gọi là "spam" sau chương trình truyền hình có tên "Monty

Python’s Flying Circus". Trong show truyền hình này, một nhóm cướp biển

Vikings đã vào ăn trong một nhà hàng chuyên phục vụ đồ hộp (spam), rồi hát toáng

lên một ca khúc lặp đi lặp lại 2 chữ "quảng cáo". Ý nghĩa ban đầu của thư rác rất rõ

ràng: Một thứ lặp đi lặp lại và gây ra sự bực tức, khó chịu cho những người xung

quanh. Đó chỉ là trong một phạm vi hẹp còn trong mơi trường internet khi khơng

còn

khoảng cách về địa lý nữa thì sẽ có rất nhiều người phải chịu sự bực tức, cảnh

nhàm

chán gây ức chế tâm lý và cực kỳ mất thời gian vào nó.

- Phần lớn các thư khơng mời mà đến, các thư chào hàng quảng cáo bị cho là thư

rác theo nhận xét của số đông người dùng thư điện tử. Đây là vấn đề nan giải mà

các hệ thống, hòm mail, các nhà quản trị mạng đang phải đối mặt trong thời điểm

hiện nay khi mà xã hội thơng tin ngày càng phát triển với tốc độ chóng mặt. Đe lọc

và phát hiện thư rác, cần có giải pháp lâu dài như các biện pháp kĩ thuật, quy ước

xã hội và có thể dùng đến pháp luật. Nhưng khi các giải pháp này được thi hành thì

chỉ trong một khoảng thời gian ngắn chúng đã bị phá vỡ bởi các spammer, ngun

nhân chính là họ ln nghĩ ra những cái bẫy đánh lừa người dùng hay lách luật mà

các tổ chức chống thư rác quy ước.

- Như vậy giải pháp ngăn chặn thư rác nào hiệu quả và dùng được lâu dài? Một

phương pháp tốt nhất đó là để chính người dùng thư điện tơ ngăn chặn thư rác, bởi

họ

12



Đồ án thuật toán

hiểu vấn đề một cách tường minh nhất. Chúng ta sẽ dùng cảm nhận về thư rác của

mỗi người để huấn luyện cho các bộ lọc thư rác của chính họ. Mỗi bộ lọc sẽ xử lý

thư rác tùy theo phong cách của từng người dùng thư điện tử. Và mơ hình thống kê

Bayes được áp dụng để thực thi ý tưởng này. Từ những đặc điểm trên, ta thấy rằng

việc xây dựng được một bộ lọc thư rác thơng minh có thể loại bỏ một cách chính

xác hiện nay là một nhiệm vụ còn nhiều thách thức.

2. Bài toán

- Thư điện tử là một trong những phương tiện để giao tiếp đáng tin cậy và hầu

như khơng tốn kém chi phí sử dụng. Phạm vi sử dụng của nó rộng khắp trên tồn

thế

giới và có thể dễ dàng truy cập bằng hầu hết các phương tiện truyền thơng đã biến



thành nạn nhân của những kẻ spam. Hậu quả đơn giản nhất là làm tốn băng thông

mạng và nghiêm trọng hơn là làm mất thời gian của người dùng thư điện tử, làm

lan

truyền vi rút máy tính. Có thời điểm người ta thống kê được rằng có đến 60% thư

điện tà là thư rác và mỗi ngày một người dung thư điện tử phải nhận ít nhất là 6 cú

spam.

- Chúng ta không thể đổi địa chỉ hòm thư mỗi lần bị spam bởi điều này khơng

những khơng hạn chế được thư rác mà có khi còn làm cho nó gia tăng. Vậy cần

phải tìm ra một giải pháp chống thư rác sử dụng bộ lọc được gắn thuật tốn phân

loại với tính năng hiệu quả và kĩ thuật đơn giản dễ cài đặt. Và một u cầu khơng

thể thiếu là

có làm sao với thuật tốn đó những kẻ spam hiểu rằng việc chúng cố tình spam là



dụng

3. Dùng luật Bayes tính xác suất

Tính xác suất cho mỗi thẻ ta dùng luật Bayes để tính. Giả sử ta cần tính xác

suất cho thẻ chứa tò ‘promotion ’.Từ này chúng ta thường xuyên gặp trong thư điện

tử mời chào dịch vụ maketing. Cơng thức tính theo luật Bayes:



Trong đó:

 Pr(S\ W) là xác suất mà thư mà chứa từ ‘promotion ’là thư rác

 Pr(S) là xác suất mà thư bất kì là thư rác

13



Đồ án thuật tốn

 P(W \S) là xác suất mà từ "promotion" xuất hiện trong thư rác

 Pr(H) là xác suất mà một bản tin bất ki không là thư rác

 P(W \H) là xác suất mà từ "promotion" xuất hiện trong thư rác

Như đã nói ở trên, những thống kê gần đây cho thấy 80% thư điện tử là thư rác

nên ta sẽ có:



Tuy nhiên để cho đơn giản và đã qua thực tế nên người ta chọn các xác suất

trước là giống nhau và đều có giá trị bằng 0.5. Tức là:



Bộ lọc mà dùng giả thiết này được gọi là "không đổi xứng", có nghĩa rằng chúng

khơng có sự đối xử phân biệt các thư đến. Giả thiết này cho phép rút gọn công

thức ở trên thành:



Bộ lọc thư rác Bayesspam vận dụng chính xác cơng thức trên để tính xác suất

cho mỗi từ đơn.

Sau khi đã tính được xác suất thư chứa từ đơn là thư rác ta cần kết hợp các xác suất

đơn đó lại thành một xác suất cuối cùng. Xác suất này dùng để đánh giá thư mà

chứa tất cả các từ đơn đó có xác suất là thư rác là bao nhiêu. Cơng thức tính xác

suất

kết hợp là:



Trong đó:

 p là xác suất thư đang xét là thư rác

 pl là xác suấtp(S\ W1), ứng với từ đầu tiên (ví dụ từ "promotion")

 p2 là xác suấtp(S\ W2) , ứng với từ thứ hai (ví dụ tò "offer")

 ...

 pN là xác suất p(S|W N), ứng với từ thứ N (ví dụ tò "home")

Kết quả p thường được dùng so sánh với một ngưỡng nào đó để quyết định

thư đang xét có xác suất p đó có là thư rác hay khơng. Neu p lớn hơn giá trị

14



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Thuật toán phân loại văn bản Naive Bayes classifier

Tải bản đầy đủ ngay(0 tr)

×