Tải bản đầy đủ
1 Các khái niệm cơ bản

1 Các khái niệm cơ bản

Tải bản đầy đủ

4

Chi phí
Khả năng soạn thảo

Cao
Chậm (viết giấy)

Thấp
Nhanh (viết bằng trình

Mức độ thất lạc thư

Cao

soạn thảo được hỗ trợ)
Thấp (do đường truyền

Thư tấn công

lỗi)
Gửi kèm vũ khí sinh Gửi kèm mã độc : Worm,

Thiệt hại do bị tấn công
Khả năng chuyển tiếp thư
Kết nối Internet

học. (Ít xảy ra)

Virus,



(Thường

Nặng

Không

xuyên)
Tùy vào mức độ tấn công



Bảng 1.1: So sánh giữa thư điện tử và thư truyền thống

1.1.4. Thư rác là gì?
Hiện nay chưa có một định nghĩa hoàn chỉnh và chặt chẽ về thư rác. Có quan
điểm chỉ coi thư rác là những thư quảng cáo không được yêu cầu (Unsolicited
Commercial Email - UCE), có quan điểm có thư rác với nghĩa rộng hơn, bao gồm
cả thư quảng cáo, thư nhũng lạm (quấy rối), và những thư có nội dung không lành
mạnh (Unsolicited Bulk Email – UBE). Dưới đây sẽ đưa ra một định nghĩa thông
dụng nhất về thư rác và giải thích các đặc điểm của nó để phân biệt thư rác với thư
thông thường.
Thư rác (spam) là những bức thư điện tử không yêu cầu, không mong muốn
và được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là
người nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt”
nghĩa là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi
cho nhiều người khác và các bức thư này có nội dung tương tự nhau.
Một bức thư được gọi là thư rác chỉ khi nó là thư không yêu cầu và được gửi
hàng loạt. Nếu thư rác chỉ là thư không mong muốn thì nó có thể là những bức thư
làm quen, được gửi lần đầu tiên, còn nến thư rác chỉ là thư được gửi hàng loạt thì nó
có thể là những bức thư gửi cho khách hành của các công ty, các nhà cung cấp dịch
vụ.

5

Như định nghĩa ở trên, thư rác là thư không yêu cầu và được gửi hàng loạt.
Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thông thường phải là ở
nội dung bức thư. Khi một người nhận được thư rác, người đó không thể xác định
được thư có được gửi hàng loạt hay không nhưng có thể nói chính xác đó là thư rác
sau khi xem nội dung thư. Đặc điểm này chính là cơ sở cho giải pháp phân loại thư
rác bằng cách phân tích nội dung thư

1.1.5. Các loại thư rác
Đa số thư rác là thư quảng cáo cho hàng hoá hoặc dịch vụ. Tuy nhiên cũng
tồn tại một lượng lớn thư rác mang những nội dung khác. Các thư rác không mang
nội dung quảng cáo hàng hoá hay dịch vụ có thể phân chia thành:
Thư có nội dung chính trị: do các tổ chức hay cá nhân hoạt động chính trị
gửi trực tiếp tới người dùng thư điện tử để phục vụ mục đích quảng bá, tuyên truyền
hay tạo quan hệ trực tiếp. Hiện nay tại Việt nam, thư rác có nội dung chính trị hầu
hết là của các tổ chức phản động ngoài nước gửi về và cần đặc biệt ngăn chặn.
Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội dung
yêu cầu quyên góp hay trợ giúp. Người gửi thư dạng này có thể không nhận thức
được họ đang gửi thư rác do có sự biện hộ từ mục đích gửi thư.
Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức
hoặc hoạt động tôn giáo.
Trong số thư những thư quảng cáo, một số dạng hàng hoá và dịch vụ chiếm
tỷ trọng đặc biệt lớn. Dưới đây là kết quả phân tích thống kê các thư rác gửi qua
máy chủ hotmail.com trong năm 2003 và 2004 do Microsoft thực hiện [Hulten trends].

6

Bảng 1.2: Thống kê các dạng thư rác tại máy chủ

Sản phẩm quảng cáo

Năm 2003

Năm 2004

Quảng cáo liên quan đến tình dục (không đồ hoạ)

17%

34%

Tranh ảnh khiêu dâm

13%

7%

Bảo hiểm

1%

4%

Quảng cáo thuốc

8%

10%

Tài chính

12%

13%

Du lịch, sòng bạc

2%

3%

Bản tin

9%

6%

Các sản phẩm có xuất sứ đáng ngờ (văn bằng giả.v.v.)

20%

10%

Scam

8%

6%

Các dạng quảng cáo khác

13%

8%

1.1.6. Tác hại của thư rác
Thư rác hiện chiếm một tỷ lệ rất lớn trong tổng số thư điện tử được gửi qua
Internet. Theo các thống kê khác nhau, thư rác chiếm từ 71% đến 87% lượng thư
gửi qua các máy chủ thư điện tử. Lượng thư rác quá lớn gây ra nhiều tác hại đối với
sự phát triển Internet nói chung và người sử dụng thư điện tử nói riêng. Có thể kể ra
một số tác hại của thư rác:
-

Thư rác gây thiệt hại về kinh tế cho người nhận thư trong trường hợp
người nhận thư phải trả tiền cho lượng thông tin truyền qua mạng.

-

Thư rác có thể làm đầy hộp thư người nhận và do vậy làm thất lạc
những thư bình thường đến sau.

-

Thư rác làm tốn thời gian do người nhận phải mở thư và xoá thư khỏi
hộp thư của mình.

7

-

Thư rác gây tâm lý xấu đối với người sử dụng thư điện tử. Theo thống
kê tại http://www.pewinternet.org, 25% người sử dụng thư điện tử coi
thư rác là trở ngại lớn khi sử dụng dịch vụ Internet này.

-

Thư rác chiếm một phần đường truyền Internet và làm tốn thời gian
xử lý của máy chủ.

1.2. Phương thức trao đổi thông tin qua dịch vụ Email
1.2.1. Mô hình trao đổi thông tin dựa trên email
Dịch vụ thư điện tử sử dụng giao thức SMTP (Simple Mail Transfer
Protocol) trong họ giao thức TCP/IP.

Hình 1.1: Mô hình lưu chuyển thư điện tử qua Internet
Hoạt động của hệ thống email hiện nay có thể dược minh họa qua phân tích
một thí dụ như sau:
1. Nguyễn dùng MUA của mình để soạn một lá thư có địa chỉ người nhận là
Trần với địa chỉ là Tran@b.org. Nguyễn nhấn nút Send và phần mềm thư điện tử

8

của Nguyễn áp dụng SMTP để gửi mẫu thông tin (lá thư) đến MTA, hay máy chủ
thư điện tử, của Nguyễn. Trong thí dụ thì máy chủ này là smtp.a.org được cung cấp
từ dịch vụ Internet của Nguyễn.
2. MTA này sẽ đọc địa chỉ chỗ nhận (tran@b.org) và dựa vào phần tên miền
nó sẽ tìm hỏi địa chỉ của tên miền này, nơi có máy chủ sẽ nhận email gửi đến, qua
Hệ thống Tên miền.
3. Máy chủ DNS của b.org là ns.b.org sẽ trả lời về một bản ghi trao đổi thư
từ, đây là bảng ghi chỉ ra cách thức làm thế nào định tuyến cho email này. Trong thí
dụ thì mx.b.org là máy chủ từ dịch vụ cung ứng Internet của Trần.
4. smtp.a.org gửi mẫu thông tin tới mx.b.org dùng giao thức SMTP, điều này
sẽ phân phối lá thư đến hộp thư của Trần.
5. Khi đọc Trần ra lệnh nhận thư trên máy (MUA) của Trần, điều này tạo ra
việc lấy về mẫu thông tin bằng cách áp dụng giao thức POP3.
Trong trường hợp Nguyễn không có MUA mà chỉ dùng Webmail chẳng hạn
thì bước 1 sẽ không xảy ra tức là MTA của Nguyễn sẽ làm việc trực tiếp. Tưong tự
cho trường hợp Trần không có MUA riêng.
Trước đây, nếu một MTA không thể gửi tới đích thì nó có thể ít nhất ngừng
lại ở chỗ gần với chỗ nhận. Sự ngừng này sẽ tạo cơ hội để máy đích có thể nhận về
các mẫu thông tin trong thời gian trễ hơn. Nhiều MTA sẽ chấp nhận tất cả mẫu
thông tin từ người gửi bất kì và tìm mọi cách để phân nó về đến máy đích. Những
MTA như vậy gọi là những ngưng đọng thư mở (open mail relays). Điều này khá
cần thiết vì sự chất lượng liên lạc của hệ thống Internet lúc đó còn yếu. Ngày nay,
do việc lợi dụng trên cơ chế hoạt động của hệ thống thư điện tử nhiều người đã gửi
ra các loại thư vô bổ. Như là hậu quả, rất ít MTA ngày nay còn chấp nhận các
ngưng đọng thư mở. Bởi vì các thư như vậy rất có thể là các loại thư nhũng lạm(thư
rác).
Dịch vụ thư điện tử hoạt động offline. Các yêu cầu gửi thư đi không đòi hỏi
phải xử lý ngay lập tức. Khi người A muốn chuyển một bức thư tới cho người B, hệ
thống sẽ chuyển thư vào vùng Spool, cùng với các thông tin về người gửi, người

9

nhận (được đính vào phần Header của thư) sẽ được chứa trong vùng này. Hệ thống
gửi thư tự động bằng một chương trình phần mềm thư điện tử như Outlook Express,
Mozila Thunderbird, hay các chương trình Webmail như Yahoo!, Gmail,… Đây là
những chương trình gửi thư không đồng bộ. Chương trình này sẽ xác định được địa
chỉ IP của máy cần gửi qua việc phân tích Header của thư, và tạo lập một kết nối tới
máy đó. Nếu như tạo kết nối thành công, chương trình sẽ chuyển thư tới vùng Spool
của máy nhận. Nếu kết nối tới máy nhận không thành công, chương trình sẽ lưu trữ
lại những thư chưa được chuyển đi đó và sẽ gửi lại đến khi tạo dựng được kết nối.
Nếu bức thư tồn tại quá lâu (khoảng 2-3 ngày), chương trình sẽ gửi trả bức thư này
cho người gửi.
Thư điện tử ban đầu chỉ nhằm mục đích trao đổi thông tin giữa những người
sử dụng với nhau. Thư điện tử hiện đại được phát triển các dịch vụ kèm theo, đó là
các dịch vụ thư điện tử như NameServer (tra cứu các địa chỉ trên mạng),
ArchiveServer (cho phép người dùng tìm kiếm và tải về những tập tin dùng chung).
Các thư này được gửi tới các Server, Server phân tích nội dung thư, thực hiện các
yêu cầu rồi gửi trả lại kết quả cho người gửi yêu cầu cũng bằng hình thức gửi thư
điện tử.

1.2.2. Giao thức và ngôn ngữ sử dụng
- SMTP (Simple Mail Transfer Protocol): giao thức chuyển thư đơn giản.
SMTP là phương thức vận chuyển các thư điện tử từ máy chủ này sang máy chủ
khác cho đến địa chỉ người nhận. Các máy chủ sử dụng giao thức này để chuyển
tiếp thư tới máy khách, và máy khách cũng sử dụng giao thức này gửi thư trung
chuyển qua các máy chủ. Các thư điện tử được gửi đến các máy khách qua SMTP,
và các máy này sử dụng giao thức POP, IMAP để nhận thông điệp này.

10

Hình 1.2: Mô hình gửi và nhận thư điện tử sử dụng giao thử SMTP
- IMAP (Internet Message Access Protocol) : giao thức nhận thông điệp từ
Internet của các máy khách. Người dùng có thể truy xuất và quản lý thư từ máy chủ.
Giao thức cho phép người sử dụng đọc, xóa, sửa, tìm kiếm thư trong hòm thư mà
không cần phải tải thư về. Phiên bản mới nhất là IMAP4.

Hình 1.3: Mô hình gửi và nhận thư điện tử dùng giao thức IMAP và POP

11

- POP (Post Office Protocol) : giao thức được dùng trên các máy trạm
(MUA) tìm kiếm các thư điện tử từ một máy MTA (máy chủ mail). Giao thức này
cho phép người dùng đăng nhập vào máy chủ mail với tài khoản đã đăng kí để tải
thư từ máy chủ về máy cục bộ. Phiên bản mới nhất là POP3.
- Giao thức HTTP không phải là một giao thức dành cho thông tin liên lạc
email, nhưng nó có thể được sử dụng để truy cập hộp thư của bạn. Nó cũng còn
được gọi là thư điện tử dựa trên web, giao thức này có thể được sử dụng để soạn
hoặc truy lục email từ một tài khoản của bạn. Hotmail là một ví dụ của việc sử dụng
HTTP như là một giao thức thư điện tử.

1.3. Các phần mềm lọc nội dung mail ở trong và ngoài nước.
Hiện nay, một trong những khó khăn của người sử dụng thư điện tử là không
thể mở email của họ vì vô số các thư rác chất đầy trong hộp thư đến của họ. Người
sử dụng có thể dễ dàng nhận ra và phân biệt các thư rác,tuy nhiên để loại bỏ hết các
thư rác bằng cách xóa thủ công họ sẽ rất mất thời gian và công sức. Hệ thống lọc
thư rác ra đời giúp làm giảm tối thiểu công việc này đối với người sử dụng. Phần
mềm, tiện ích lọc thư rác có thể làm giảm đáng kể số lượng thư rác gửi đến hộp thư
của người dùng.

Hình 1.4: Phần mềm lọc nội dung mail

12

Hiện tại có rất nhiều phần mềm lọc mail được cung cấp miễn phí, tuy nhiên
tính năng còn hạn chế và chủ yếu là lọc nội dung thư tiếng Anh. Một số phần mềm
lọc mail miễn phí:
-

POPFile - Free Spam Filter

-

Spamfence - Free Spam Filter

-

Spamihilator - Free Spam Filter

-

Spamato - Free Spam Filter

-

SpamBayes - Free Spam Filter

-

SpamExperts Desktop - Free Spam Filter

-

K9 - Free Spam Filter

-

Cactus Spam Filter - Free Spam Filter

-

SpamRIP - Free Spam Filter

-

BullGuard Spamfilter - Free Spam Filter

-



Những tiêu chí để đánh giá một phần mềm lọc thư rác tốt:
Phần mềm lọc thư rác tốt nhất là cho phép dễ dàng tùy chỉnh bởi người dùng
máy tính của tất cả các cấp. Các tính năng quan trọng nhất của bất kỳ phần mềm bộ
lọc thư rác là khả năng đáng tin cậy ngăn chặn và ngăn chặn thư rác. Những tiêu chí
sử dụng để đánh giá phần mềm lọc thư rác:
Chặn, lọc:
Đây là tiêu chí đầu tiên và quan trọng để đánh giá phần mềm lọc thư rác.
Phần mềm lọc thư rác nên được trang bị với nhiều khả năng ngăn chặn thư rác lây
nhiễm vào hộp thư đến của người dùng. Tốt nhất phần mềm lọc có cả hai danh sách
đen và trắng, thiết lập nhạy cảm, dựa vào cộng đồng lọc, kỹ thuật thách thức và
phản ứng, và cách ly thiết lập. Các tính năng bổ sung để đánh giá địa chỉ IP đang
chặn, máy chủ, địa chỉ email, và mã quốc gia.
Bảo vệ:
Ứng dụng chặn thư rác nên có khả năng bảo vệ nhiều tài khoản người dùng
với một cài đặt duy nhất. Hơn nữa, chặn thư rác phải bảo vệ người dùng từ email có

13

chứa sâu, vi-rút, Trojans, phần đính kèm với nhúng keylogger và phần mềm độc hại
khác. Ngoài ra, phần mềm lọc thư rác mạnh mẽ có thể xác định email HTML có
chứa cuộc tấn công lừa đảo trực tuyến nhằm mục đích thu thập thông tin cá nhân
nhạy cảm của người sử dụng.
Quy tắc:
Phần mềm bộ lọc thư rác nên cung cấp cho người dùng khả năng để chỉnh
sửa cài đặt được xác định trước các quy tắc cũng như tạo ra các quy định mới. Phần
mềm lọc thư rác tốt phải có khảu năng thích ứng với nhu cầu của người sử dụng.
Khả năng tương thích:
Khi lựa chọn một phần mềm chặn thư rác, cần phải đánh giá nếu phần mềm
lọc thư rác đó có tương thích với của chương trình đọc thư của người sử dụng hiện
tại hay không. Người sửcác chương trình duyệt email phổ biến bao gồm
Thunderbird, Outlook, Outlook Express và các ứng dụng khác của POP3/SMPT.
Phần mềm lọc thư rác cũng nên hỗ trợ một số các nhà cung cấp dịch vụ webmail
như Gmail, Yahoo, Hotmail và những nhà cung cấp dịch vụ khác.
Do các thuật toán lọc thư thông dụng mới chỉ được nghiên cứu và thử
nghiệm cho tiếng Anh, để có thể sử dụng giải pháp lọc nội dung cho thư tiếng Việt
cần nghiên cứu làm rõ hiệu quả của thuật toán khi phân tích nội dung thư viết bằng
tiếng Việt. Bên cạnh đó cần thực hiện những cải tiến cho phù hợp khi chuyển từ
phân loại nội dung tiếng Anh sang phân loại nội dung tiếng Việt. Để giải quyết
những vấn đề vừa nêu, trong phạm vi đề tài này, chúng tôi tiến hành nghiên cứu
một số giải pháp lọc nội dung cho thư rác tiếng Việt và tiếng Anh. Nội dung nghiên
cứu bao gồm thử nghiệm làm rõ khả năng lọc thư tiếng Việt, đề xuất và phân tích so
sánh các cải tiến với thuật toán, thử nghiệm trên dữ liệu thực. Sau khi thử nghiệm so
sánh, giải pháp lọc thư có hiệu quả cao sẽ được cài đặt trong một bộ lọc thư có khả
năng tích hợp vào máy chủ thư điện tử.

14

Chương 2: CÁC PHƯƠNG PHÁP GỬI VÀ KỸ THUẬT LỌC EMAIL SPAM
Trình bày kỹ thuật gửi mail nặc danh, mô hình và nguyên lý hoạt động của
hệ thống lọc nội dung mail, Các kỹ thuật lọc nội dung thông tin qua mail.

2.1. Các kỹ thuật gửi mail nặc danh và Bomb Mail
Để phát tán thư rác, những người gửi thư rác phải có được những điều kiện
sau: một là có danh sách địa chỉ email nhận thư, hai là có các server cho phép gửi
thư, ba là phải soạn được nội dung thư theo yêu cầu quảng cáo và qua mặt được các
bộ lọc nội dung, cuối cùng cần có những chương trình để gửi thư đi.

2.1.1. Thu thập địa chỉ email
Để gửi thư rác đi, người gửi thư rác cần phải có một danh sách các địa chỉ
email cần gửi. Danh sách địa chỉ email này có thể thu thập được từ nhiều nguồn
khác nhau, họ có thể mua từ các trang web thương mại có nhiều thành viên đăng ký
hoặc sử dụng các kỹ thuật dưới đây để có được địa chỉ email của đối tượng cần gửi
thư.
Người gửi thư rác (hoặc đối tác của họ) thường tung ra các trang web giả để
bẫy người dùng gửi địa chỉ email cho họ. Kỹ thuật này được gọi là Phishing email.