Tải bản đầy đủ - 0 (trang)
Chương 2. CƠ SỞ LÝ THUYẾT

Chương 2. CƠ SỞ LÝ THUYẾT

Tải bản đầy đủ - 0trang

Chương 2. Cơ sở lý thuyết



10/1987 đã chứng minh cho sự lây lan mạnh mẽ của virus máy tính với 500.000 bản

sao trong một giờ.

 1989 – AIDS Trojan xuất hiện

Mặc dù khơng được xem như một virus máy tính nhưng Trojan luôn là khái niệm

đi cùng với khái niệm virus. Năm 1989, Trojan đầu tiên xuất hiện mang tên AIDS. Các

Trojan được tạo ra với mục đích chính đánh cắp thơng tin mật hay phá huỷ dữ liệu máy

tính.

 1991 –Tequila virus – Sự xuất hiện của virus đa hình

Sự xuất hiện của virus Tequila đánh dấu sự xuất hiện của loại virus đa hình. Bằng

việc thay đổi khối mã lệnh sau mỗi lần lây nhiễm, loại virus này khiến cho kiểu nhận

dạng virus dựa trên chuỗi đặc trưng – signature khơng còn tính hiệu quả.

2.1.3 Khả năng lây lan của virus máy tính

Virus máy tính được thiết kế để lây lan trong một hệ thống mạng thông qua nhiều

con đường khác nhau, thường do sự sơ xuất của người sử dụng nhưng đơi khi cũng do

chính từ các lỗ hổng trong các phần mềm, hệ điều hành khiến cho virus dễ dàng xâm

nhập lây nhiễm.

Trong thế giới mà sự tương tác giữa người với người phần lớn thông qua internet

thì email trở thành một số những phương tiện hỗ trợ sự lây nhiễm virus đắc lực nhất.

Từ một máy tính bị nhiễm virus, một loạt email giả mạo được tạo lập và gửi đi, thao

tác giả mạo này tiếp tục được thực hiện ở máy người nhận khiến cho quá trình lây lan

được gia tăng theo cấp số nhân. Người lập trình tìm cách thiết kế ra những virus có khả

năng thu thập thơng tin về người sử dụng, từ đó tạo ra các email với nội dung “chân

thật”, đánh lừa lòng tin của người nhận.

Bên cạnh việc lây lan qua email, thì USB chính là một phương thức lây lan virus

trực tiếp do chính người sử dụng chủ động tác động. USB là một phương tiện trao đổi

18



Chương 2. Cơ sở lý thuyết



dữ liệu của phần lớn người dùng khi mà dung lượng của email có giới hạn. Khi một

máy tính bị nhiễm, các USB được gán vào máy tính này sẽ có nguy cơ bị lây nhiễm rất

cao, với mỗi USB đã chứa đoạn mã virus máy tính, sau khi được sử dụng cho các máy

tính mới sẽ khiến những máy này cũng gặp phải khả năng bị nhiễm.

Một tỉ lệ khơng nhỏ các máy tính bị xâm nhập do người sử dụng thiếu các kiến

thức bảo mật cần thiết khi thao tác trên môi trường internet. Khi truy cập vào các

website độc hại được nguỵ trang dưới dạng các trang web giải trí bắt mắt, các đoạn mã

độc được tải xuống mà người dung không hề hay biết, từ đó âm thầm lây nhiễm máy

tính của họ và bắt đầu quá trình lây nhiễm cho các máy tính trong cùng hệ thống mạng

hay thơng qua email, USB…

Một lý do khách quan cũng là một con đường lây lan của virus máy tính khi

những kẻ xấu tìm cách khai tác chính những lỗi bảo mật trong phần mềm, hệ điều

hành. Một số lỗi tồn tại hàng năm trời trước khi có những bản vá để sửa chữa, và cho

đến lúc đó, mức thiệt hại do virus máy tính gây ra đã rất to lớn. Trong trường hợp này,

cho dù bản thân người sử dụng có cảnh giác đến mức nào cũng không tránh khỏi việc

bị lây nhiễm.

2.1.4 Một số kĩ thuật nhận dạng virus máy tính

Hai ngun lí cơ bản thường được các chương trình diệt virus máy tính hiện nay

sử dụng đó là ngun lí kiểm tra chính xác và nguyên lí kiểm tra tương đối.

2.1.4.1 Nhận dạng chính xác

Trong nguyên lý nhận dạng chính xác, việc nhận dạng một mẫu virus dựa trên

việc kiểm tra các mẫu virus đã có trong cơ sở dữ liệu. Khi một virus mới xuất hiện, các

chuyên gia an ninh mạng sẽ tiến hành thu thập và phân tích mã độc của virus, từ đó xây

dựng một chữ ký đặc trưng của riêng virus đó và lưu trữ vào cơ sở dữ liệu. Kế đó, một

thao tác cập nhật được tiến hành trên toàn hệ thống các máy trạm nhằm bảo vệ những

máy vốn chưa bị lây nhiễm. Đây là kĩ thuật nhận dạng virus chính hiện nay.

19



Chương 2. Cơ sở lý thuyết



Ưu điễm của kĩ thuật này là độ chính cao và ít nhầm lẫn từ đó cho ra kết quả diệt

virus tốt hơn. Tuy nhiên, khuyết điểm chính của kĩ thuật này là việc nhận dạng và phát

hiện virus được tiến hành sau khi virus đã xuất hiện và gây thiệt hại ở mức độ nào đó,

tức là thao tác lúc này chỉ mang tính chất chữa cháy chứ không thể ngăn chặn sự tấn

công của các virus hoàn toàn mới. Một khuyết điểm khác là khả năng nhận dạng các

virus đa hình rất yếu, và khi số lượng virus gia tăng, kéo theo sự gia tăng của cơ sở dữ

liệu chữ kí virus, gây ra sự cồng kềnh và tốn kém thời gian trong việc cập nhật và quét

virus.

Các kĩ thuật nhận dạng chính xác chính được sử dụng bao gồm:

Nhận dạng theo mã hash: Sử dụng các thuật tốn MD5, SHA, CRC để tính tốn

đoạn mã hash của một tập tin hay một phần thông tin quan trọng và dùng đó làm cơ sở

để phát hiện sự vi phạm toàn vẹn của tập tin.

Nhận dạng theo kĩ thuật quét chuỗi (scan string): Là kĩ thuật được sử dụng phổ

biến trong hầu hết các phần mềm diệt virus. Trong kĩ thuật này, một đoạn chương trình

virus được chọn làm đặc trưng cho virus đó, tuy nhiên, đoạn chương trình này phải

phân biệt hồn tồn với tất cả các đoạn mã khác đã tồn tại trong cơ sở dữ liệu. Hai kĩ

thuật con của kiểu nhận dạng này là việc sử dụng các chuỗi có offset tĩnh hồn tồn

hoặc một vị trí tương đối nào đó trong tập tin.

2.1.4.2 Các kĩ thuật nhận dạng tương đối.

Là tập hợp các kĩ thuật nhận dạng mang tính chất tương đối, thay vì xác định

chính xác loại virus và tên virus thì kiểu nhận dạng này tập trung vào việc xác định tính

chất virus của một chương trình, tập tin. Các kĩ thuật chính của kiểu nhận dạng tương

đối bao gồm:



20



Chương 2. Cơ sở lý thuyết



2.1.4.2.1 Kiểu nhận dạng Heuristic

Từ các quy luật được đúc kết thơng qua q trình nghiên cứu quy luật hình thành

của các mã lệnh, các chuyên gia tiến hành xây dựng các dấu hiệu thường thấy ở mã

độc. Kĩ thuật này cho phép nhận dạng ra những loại virus ngay cả khi chưa có mẫu

virus đó thâm chí khi virus đó còn chưa xuất hiện. Nhược điểm chính của kĩ thuật này

là phụ thuộc quá nhiều vào kinh nghiệm của chuyên gia, việc cập nhật đòi hỏi nhiều

thời gian dẫn đến việc nhận dạng nhầm không thể tránh khỏi.

2.1.4.2.2 Cơ chế nhận dạng theo hành vi

Cơ chế nhận dạng này được xây dựng theo kiểu thời gian thực, tức là việc theo

dõi quá trình hoạt động của các chương trình trong hệ thống để từ đó phát hiện ra

những hành vi nghi ngờ và có biện pháp ngăn chặn kịp thời hoặc tham khảo ý kiến của

người dử dụng. Tuy nhiên, không phải tất cả các chương trình đều bị theo dõi mà tập

trung vào các chương trình có sử dụng các chức năng hệ thống. Cơ chế nhận dạng này

cho phép nhận dạng các mẫu virus mới, tuy nhiên việc xây dựng cơ chế này không hể

đơn giản, làm giảm hiệu năng của hệ thống do sự tiêu tốn tài nguyên để duy trì cơ chế

thời gian thực cũng như chưa chặn đứng nguy cơ các mã độc tồn tại tĩnh trong hệ

thống chưa được khởi chạy.

2.1.4.2.3 Cơ chế mô phỏng máy thật.

Trong cơ chế này, một khu vực phần mềm được xây dựng mô tả lại các trạng thái

của hệ thống để đánh lừa các tập tin virus để chúng hoạt động trên môi trường ảo này

và loại ra các nguy cơ xuất hiện. Mặc dù có khả năng nhận dạng nhiều loại virus kể cả

dạng đa hình, nén tuy nhiên chi phí quá lớn khiến việc sử dụng trên máy tính cá nhân

khơng mang tính hiệu quả. Bên cạnh đó, nhiều kĩ thuật lập trình virus mới có thể phát

hiện ra mơi trườn ảo là tiến hành bất hoạt các hành vi độc hại, đánh lừa hệ thống bảo

mật này.



21



Chương 2. Cơ sở lý thuyết



2.2 Hệ miễn dịch nhân tạo

2.2.1 Hệ miễn dịch sinh học

Hệ miễn dịch sinh học là một hệ thống thích nghi có khả năng tự nhận dạng và tự

tổ chức, bao gồm nhiều bộ phận phân tán trong cơ thể nhằm giúp cho cơ thể chống lại

những lây nhiễm của các vi sinh vật bên ngồi. Nó bao gồm một kiến trúc phân tầng

với cơ chế tự điều chỉnh và bảo vệ rộng khắp, với hai tầng bảo vệ chính là: hệ thống

miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi.

Chức năng của hệ miễn dịch sinh học là nhận dạng tế bào và phân chia chúng

thành hai nhóm khác nhau: self (những tế bào của cơ thể tạo ra) và non-self (những tế

bào lạ), đồng thời loại bỏ các tế bào thuộc loại non-self. Hệ miễn dịch bẩm sinh chủ

yếu dựa vào bạch cầu hạt và đại thực bào, còn hệ miễn dịch thích nghi dựa vào tế bào

lymphô (lymphocyte). Các tế bào lymphô được chia làm hai loại là Bcell và T-cell,

chúng có khả năng ghi nhớ, thích nghi, và mang những phần tử thụ cảm trên bề mặt có

khả năng nhận diện kháng ngun (antigen). Vai trò chính của B-cell là sản sinh ra các

kháng thể (antibody) tương ứng với các tác nhân gây bệnh, còn chức năng chính của Tcell là điều chỉnh các tế bào khác và tấn công trực tiếp các tế bào gây ra sự lây nhiễm

trong cơ thể. Khi có kháng nguyên xâm nhập vào cơ thể, các cơ quan thụ cảm trên bề

mặt của lymphô bào được kích hoạt và thực hiện q trình nhân rộng, đột biến và tạo ra

những kháng thể thích hợp có khả năng nhận diện cũng như loại bỏ kháng nguyên. Một

số lymphô bào sẽ trở thành tế bào ghi nhớ và lưu thơng trong cơ thể, sau đó, nếu có

loại kháng ngun tương tự lây nhiễm thì hệ miễn dịch thích nghi có thể nhanh chóng

phát hiện và loại bỏ chúng. Khả năng "tự hoàn thiện" này của hệ miễn dịch giúp cơ thể

không mắc lại những bệnh cũ. Hệ miễn dịch sinh học bao gồm hơn 107 mạng miễn

dịch con (immune sub-network) với các nguyên tắc hoạt động rất phức tạp. Nó thực sự

là một hệ thống hoạt động tin cậy, thống nhất, có khả năng tính tốn song song và phân

tán. Xét theo quan điểm của khoa học máy tính, thì việc xây dựng hệ thống tính tốn

mơ phỏng hệ thống miễn dịch sinh học có rất nhiều ý nghĩa thực tiễn

22



Chương 2. Cơ sở lý thuyết



2.2.2 Cấu trúc cơ bản

AIS có cấu trúc phân tầng, điều này đảm bảo các yếu tố cơ bản của một hệ

thống mô phỏng sinh học:

-



Biểu diễn các thành phần của hệ thống.



-



Cơ chế đánh giá tương tác của các cá thể với môi trường và các cá thể



với nhau. Môi trường thường mơ phỏng bởi một tập kích thích vào, một hoặc nhiều

hàm đo độ thích nghi của cá thể với mơi trường.

-



Các thủ tục thích nghi điều khiển tính động của hệ thống, tức là làm cho



hoạt động của hệ thống thay đổi theo thời gian.



Hình 2.1 Cấu trúc phân tầng của AIS



Tầng đầu tiên là lĩnh vực ứng dụng. Tầng này có vai trò quyết định thành phần hệ

thống, cách biểu diễn và thao tác trên các thành phần. Với lĩnh vực ứng dụng khác

nhau thì các thành phần này cũng khác nhau.

Tầng thứ hai là biểu diễn tương ứng trong AIS. AIS cần phải biểu diễn được hai

thành phần quan trọng: kháng thể và kháng nguyên. Bên cạnh đó là các thành phần

khác nếu có yêu cầu từ các tầng khác trong hệ thống.



23



Chương 2. Cơ sở lý thuyết



Tầng thứ ba là các phương pháp đánh giá độ thích hợp. Tùy thuộc vào bài toán,

cách biểu diễn các thành phần có thể sử dụng nhiều phương pháp khác nhau như

khoảng cách Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan.

Tầng thứ tư là các thuật tốn miễn dịch. Có thể sử dụng một hoặc kết hợp nhiều

thuật toán như chọn lọc tích cực, chọn lọc tiêu cực, chọn lọc Clonal, thuật tốn aiNet,

để điều chỉnh tính động của hệ AIS.

Tầng thứ năm là lời giải cho bài toán. Lời giải của bài toán sẽ được cập nhật lại

sau khi một quần thể mới được tạo ra và đưa ra kết quả cuối cùng khi đạt đến điều kiện

kết thúc nào đó, chẳng hạn như sau một số lần lặp nhất định.

2.2.3 Một số thuật toán trong hệ miễn dịch nhân tạo

AIS có nhiều thuật tốn phỏng theo cơ chế của hệ miễn dịch sinh học bao gồm:

chọn lọc âm tính (Negative Selection), chọn lọc nhân bản (Clonal Selection) và mạng

miễn dịch (aiNet)

2.2.3.1 Giải thuật chọn lọc âm tính

Trong hệ miễn dịch sinh học, tế bào lympho T trưởng thành trong tuyến ức, trải

qua một quá trình chọn lọc gọi là chọn lọc tiêu cực. Trong phép chọn này, các tế bào

lympho T mà nhận dạng các tế bào của cơ thể sẽ bị tiêu diệt. Sau khi chọn lọc, các

lympho T không nhận dạng các tế bào của cơ thể được phóng thích và cung cấp khả

năng bảo vệ cơ thể chống lại các kháng nguyên. Cơ chế này trong hệ miễn dịch rất

mạnh vì sự phân loại tự nhiên và hiệu quả cao của nó.

Các bước chính của thuật tốn chọn lọc âm tính NSA (Negative Selection

Algorithm):

 Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa

trưởng thành. Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các

selfpeptide) được biểu diễn bằng một chuỗi nhị phân L bit.

24



Chương 2. Cơ sở lý thuyết



 Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong

P với mọi phần tử của tập self-set S

 Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưa

trưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một

ngưỡng tương tác chéo nào đó, thì T-cell nhận diện được self-peptide này và

bị loại bỏ, trái lại T-cell được bổ sung vào quần thể có giá trị A.

Mơ hình thuật tốn:



Hình 2.2 Mơ hình thuật tốn chọn lọc âm tính



2.2.3.2 Chọn lọc nhân bản

Thuật toán chọn lọc nhân bản CLONALG (Clonal Selection Algorithm) được sử

dụng trong AIS để xác định các đặc điểm cơ bản của một đáp ứng miễn dịch đối với

một kháng nguyên. Trong thuật toán này, chỉ các kháng thể nhận diện được kháng

nguyên mới được chọn để sinh trưởng. Các kháng thể được chọn trải qua một quá trình

thành thục ái lực để củng cố ái lực của chúng đối với các kháng nguyên.

Giải thuâ ̣t cho ̣n lo ̣c nhân bản đươ ̣c phát triên dựa trên lý thuyế t cho ̣n lo ̣c nhân bản

đươ ̣c đưa ra gầ n 50 năm trước. Các nhân tố miễn dich

̣ chính đươ ̣c sử du ̣ng trong giải

thuật này là:





Sự duy trì tâ ̣p nhớ cu ̣ thể







Sự cho ̣n lo ̣c và nhân bản phầ n lớn các kháng thể đươ ̣c kić h thić h.

25



Chương 2. Cơ sở lý thuyết







Sự đào thải các kháng thể mang tin

́ h kić h thić h yế u hoă ̣c không đươ ̣c kić h

thích.







Sự trưởng thành ái lực (siêu đô ̣t biế n) của các tế bào miễn dich

̣ đã đươ ̣c kić h

hoa ̣t.







Phát sinh và duy trì tâ ̣p kháng thể đa dạng.



Giải thuâ ̣t cho ̣n lo ̣c nhân bản (De Castro và Von ZUben, 2000) [11], rấ t giố ng với

mô ̣t loa ̣i giải thuâ ̣t tiế n hóa mang tên chiến lươ ̣c tiế n hóa (Beyer và Schwefel 2002)

[10] mă ̣c dù chúng bắt nguồn từ hai quá trin

̀ h sinh ho ̣c khác nhau. Các giải thuâ ̣t cho ̣n

lo ̣c nhân bản cũng là da ̣ng tìm kiế m trên quầ n thể và các thuâ ̣t toán tố i ưu sản sinh ra

mô ̣t vùng nhớ các kháng thể phù hợp để giải quyế t một vấn đề cụ thể nào đó.

Trong các giải thuâ ̣t cho ̣n lo ̣c nhân bản, mỗi kháng thể và kháng nguyên đươ ̣c

biể u diễn bởi 1 tâ ̣p các thuô ̣c tin

́ h {x1, x2 ... xn}. Theo đó, các kháng thể và kháng

nguyên có thể đươ ̣c biể u diễn như các điể m n chiề u trong không gian (không gian

Euclidean chẳ ng ha ̣n) hoă ̣c sử du ̣ng mã hóa nhi ̣ phân các thuô ̣c tin

́ h; bên ca ̣nh đó, các

da ̣ng biể u diễn khác cũng đươ ̣c sử du ̣ng.

Ái lực kháng nguyên của mỗi kháng thể đươ ̣c đă ̣c trưng bởi giá trị đo, thường là

khoảng cách Euclidean. Mô ̣t số toán tử đươ ̣c xác đinh

̣ để gây ra sự biế n đổ i gen trên

kháng thể dựa trên ái lực kháng nguyên của chúng. Đầ u tiên, mô ̣t phép nhân bản đươ ̣c

xác đinh

̣ để ta ̣o ra mô ̣t bản sao chính xác của những kháng thể có ái lực kháng nguyên

cao; ái lực này càng cao, số lươ ̣ng bản sao càng lớn. Khi đó, mô ̣t vài biế n đổ i gen đươ ̣c

áp du ̣ng lên các kháng thể này (thông qua phép đô ̣t biế n) để chúng có khả năng gắn

khớp với kháng nguyên tốt hơn.

Mă ̣c dù mô ̣t vài biế n thể của giải thuâ ̣t cho ̣n lo ̣c nhân bản đã đươ ̣c giới thiê ̣u, song

phầ n lớn chúng đề u có chung những đă ̣c điể m như giải thuâ ̣t gốc.

Trong suố t quá triǹ h trưởng thành ái lực, khi những kháng thể đã biế n đổ i gen

đươ ̣c thêm vào quầ n thể hiê ̣n ta ̣i để tái cho ̣n lo ̣c cá thể tố t nhấ t và giữ những cá thể tố t

26



Chương 2. Cơ sở lý thuyết



nhấ t này làm vùng nhớ của kháng nguyên thực ta ̣i, ta cầ n tính các ái lực giữa các kháng

thể mới hướng đế n kháng nguyên; toàn bô ̣ tâ ̣p kháng thể cầ n đươ ̣c xế p ha ̣ng, tiế p theo

sau đó là một quá triǹ h cho ̣n lo ̣c.



Hình 2.3 Sơ đồ giải thuật chọn lọc nhân bản



Thuâ ̣t toán cho ̣n lo ̣c nhân bản:

1. Khởi ta ̣o: Ta ̣o mô ̣t quầ n thể ngẫu nhiên các kháng thể P

2. Trình diện kháng nguyên

While các điề u kiê ̣n dừng chưa thỏa do

For each kháng nguyên do

2.1 Ước lượng ái lực

27



Chương 2. Cơ sở lý thuyết



Trình diê ̣n kháng nguyên hiê ̣n ta ̣i cho kháng thể hiê ̣n ta ̣i quầ n thể P

For each kháng thể do

Tiń h ái lực giữa kháng thể hướng đế n kháng nguyên hiê ̣n ta ̣i

2.2



Cho ̣n lo ̣c và mở rô ̣ng nhân bản



Cho ̣n ra 1 nhóm các kháng thể trong P có ái lực cao nhấ t.

Phát sinh các bản sao chin

́ h xác của các kháng thể này dựa theo ái lực

của chúng, ái lực càng cao, càng nhiề u bản sao

2.3



Trưởng thành ái lực: Biế n đổ i tấ t cả các bản sao với tỉ lê ̣ nghich

̣



với ái lực của chúng. Thêm các kháng thể biế n đổ i này vào P, tái cho ̣n

lo ̣c cá thể tố t nhấ t và giữ chúng thành vùng nhớ của kháng nguyên này.

2.4



Siêu đô ̣ng lực: Thay kháng thể có ái lực nhỏ nhấ t bởi kháng thể



đươ ̣c phát sinh ngẫu nhiên.

Bảng 2.1 . So sánh giải thuật tiến hoá cơ bản và giải thuật chọn lọc nhân bản



Đặc trưng



Giải thật di truyền



Giải thuật CLONALG



Khơng gian tìm kiếm



Tập các nhiễm sắc thể



Tập các kháng thể



Tên gọi cá thể



Nhiễm sắc thể



Kháng thể (Antibody)



Biểu diễn cá thể



String, vector,...



String, vector,...



Kích thước quẩn thể



Cố định



Cố định



Hàm mục tiêu



Hàm tính độ thích nghi



Ái lực



Toán tử



Chọn lọc



Siêu đột biến



Đột biến



Chọn lọc



Giao chéo



28



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Chương 2. CƠ SỞ LÝ THUYẾT

Tải bản đầy đủ ngay(0 tr)

×