Tải bản đầy đủ - 0 (trang)
Chương 3. HƯỚNG TIẾP CẬN MẠNG MIỄN DỊCH NƠ-RON NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH

Chương 3. HƯỚNG TIẾP CẬN MẠNG MIỄN DỊCH NƠ-RON NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH

Tải bản đầy đủ - 0trang

Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Chọn lọc: Chọn ra các cá thể tốt nhất trong quần thể để làm nguồn nguyên luyện

cho thế hệ tiếp theo. Đồng thời tạo ra các cá thể ngẫu nhiên mới tuỳ theo yêu cầu người

thiết kế.

Sinh sản: Hay còn gọi tốn tử giao chéo, có chức năng chính là trao đổi nguồn vật

chất di truyền giữa hai cá thể cha mẹ nhằm tạo ra các cá thể con có độ thích nghi cao

hơn.

Đột biến: Tốn tử đột biến có chức năng thực hiện các biến đổi trên thông tin di

truyền theo tỉ lệ nào đó, nhằm làm xuất hiện các nguyên liệu di truyền mới mà trong

điều kiện thông thường không thể tồn tại. Từ đó, các giải pháp mới có điều kiện xuất

hiện.

3.1.1.2 Hướng tiếp cận

Giải thuật di truyền là thuật toán đầu tiên được cao học viên sử dụng để giải quyết

bài tốn phát hiện virus máy tính. Trong mơ hình đầu tiên được xây dựng, một bộ phát

hiện ở dạng chuỗi nhị phân được huấn luyện bởi giải thuật di truyền để nhận dạng một

tập hợp các chuỗi mã độc.

Ưu điểm:

Do các mã độc được xây dựng ở dạng chuỗi và lời giải của giải thuật di truyền

cũng có dạng chuỗi nên chúng ta có thể lược bỏ bước mã hoá bài toán thành lời giải

hay ngược lại.

Lúc này ta cũng dễ dàng thiết kế được một hàm mục tiêu phù hợp bằng cách sử

dụng các phương pháp so khớp chuỗi phổ biến như Hamming hay Rcontiguous. Như

vậy, một bộ phát hiện được cho là tốt khi nó có khả năng so khớp với các nhiều các

chuỗi mã độc.

Nhược điểm:

43



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Trong cơ chế của các mơ hình áp dụng giải thuật di truyền, thơng thường lời giải

thường là dạng mã hố của các mơ hình phức tạp hơn. Trong mơ hình hiện tại, việc sử

dụng một chuỗi để nhận dạng một bộ các chuỗi khác sẽ phát sinh vấn đề khi mà bộ dữ

liệu các chuỗi mã độc ngày càng gia tăng.

Mơ hình đề ra đạt được kết quả tương đối tốt khi số lượng chuỗi mã độc từ vài

trăm trở xuống. Với số lượng chuỗi mã độc cao hơn, khả năng nhận dạng chính xác trở

nên thấp và tỉ lệ cảnh báo nhầm các chuỗi mã sạch thành chuỗi mã độc rất cao.

3.1.2 Hướng tiếp cận mạng nơ-ron nhân tạo trong phát hiện virus máy tính

Một mơ hình máy học khác được cao học viên sử dụng để giải quyết bài toán phát

hiện virus máy tính đó là ANN. Như đã trình bày, ANN là mơ hình máy học mơ phỏng

hệ thần kinh của người và động vật.

Trong mơ hình này, một ANN kiểu dẫn tiến được sử dụng như là một bộ phát

hiện có khả năng phân biệt được các chuỗi mã độc và các chuỗi mã sạch. Giải thuật

huấn luyện được sử dụng là giải thuật lan truyền ngược.

Quá trình huấn luyện được thực hiện nhiều lần nhằm xây dựng được một cấu trúc

mạng phù hợp nhất, tiến tới huấn luyện các trọng số.

Mạng nơ ron với hàm kích hoạt dạng phân cực, cho kết quả đầu ra từ [-1, 1] thích

hợp với việc xác định một chuỗi mã nào đó là dạng mã độc hay mã sạch.

ANN có khả năng nhận dạng các chuỗi mã độc mới nếu tính tổng quát trong q

trình huấn luyện được đảm bảo.

Có thể được dùng để nhận dạng một số lượng rất lớn các chuỗi tuy nhiên cần phải

gia tăng số lượng đơn vị xử lý (nơ-ron) trong mạng. Việc này dẫn đến việc mở rộng

quá mức cấu trúc mạng khiến cho thời gian huấn luyện gia tăng cũng như khó khăn

trong việc lựa chọn một cấu trúc mạng tốt nhất.



44



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Việc sử dụng các giải thuật huấn luyện ANN còn gặp phải một vấn đề đó là việc

overtrain khiến cho mạng nơ-ron mất đi tính tổng qt của nó, từ đó khơng còn khả

năng nhận dạng các chuỗi mã độc mới có cấu trúc tương tự các chuỗi mã độc trong dữ

liệu huấn luyện.

3.1.3 Hướng tiếp cận kết hợp mạng nơ-ron và giải thuật di truyền trong phát

hiện virus máy tính

Trong mơ hình sử dụng ANN để giải quyết bài tốn phát hiện virus máy tính, một

vấn đề khó khăn mà ta gặp phải đó là việc phải tự tay thay đổi các thông số cấu trúc

mạng nơ ron để lựa chọn ra cấu trúc mạng phù hợp nhất. Mặc khác, việc sử dụng giải

thuật lan truyền ngược để huấn luyện mạng nơ-ron khiến chi phí huấn luyện về thời

gian khá lớn, đặc biệt là trong trường hợp ta thiết kế một cấu trúc mạng phức tạp cho

một dữ liệu huấn luyện có kích thước rất lớn.

Để khắc phục vấn đề này, mơ hình sử dụng kết hợp giải thuật di truyền và ANN

được cao học viên nghiên cứu và áp dụng vào giải quyết bài toán phát hiện virus máy

tính.

Trong mơ hình này, ANN đóng vai trò là bộ phát hiện và giải thuật di truyền được

sử dụng làm giải thuật huấn luyện. Để huấn luyện được ANN bằng giải thuật di truyền,

ta phải xây dựng một cơ chế mã hoá/ giải mã để biến đổi mạng nơ-ron thành một dạng

chuỗi thích hợp cho q trình chọn lọc tiến hoá.

Một mảng các số thực được sử dụng để mã hố ANN, trong đó, mỗi số thực chính

là trọng số giữa các nơ-ron trong mạng và được xếp thứ tự phù hợp với cấu trúc mạng

để thuận tiện cho quá trình giải mã một mảng thành mạng nơ-ron.

Việc lựa chọn cấu trúc mạng cũng được tự động hoá bằng cách khai báo thêm

một chuỗi cấu trúc, mô tả chi tiết cấu trúc của một mạng nơ-ron nào đó về số đầu vào,

số lớp ẩn, số nơ-ron mỗi lớp ẩn, số đầu ra… Khi đó, giải thuật di truyền được dùng để



45



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



huấn luyện các mạng nơ-ron cả về trọng số lẫn cấu trúc mạng để chọn ra cá thể tốt

nhất.

Một cá thể mạng nơ-ron được xác định là tốt trong trường hợp này khi chênh lệch

giữa giá trị đầu ra của nó và giá trị nhãn của dữ liệu huấn luyện càng nhỏ, tức là mạng

nơ-ron có khả năng nhận dạng tốt các chuỗi mã độc, mã sạch trong dự liệu huấn liệu

với sai số cực thấp. Đây cũng chính là cơ chế để xây dựng hàm mục tiêu cho giải thuật

di truyền.

Ưu điểm:

Thích hợp để giải quyết nhiều bài toán khác nhau.

Thời gian huấn luyện ngắn hơn rất nhiều so với việc sử dụng giải thuật lan truyền

ngược để huấn luyện ANN. Mặt khác, khả năng quá trình huấn luyện bị mắc kẹt vào

một lời giải mang tính địa phương được loại bỏ nhờ các toán tử di truyền như sinh sản,

đột biến.

Nhờ khả năng học cả trọng số và cấu trúc mạng, việc lựa chọn cấu trúc mạng do

người dùng là không cần thiết. Khi dữ liệu huấn luyện thay đổi, hệ học tìm kiếm cấu

trúc mạng mới để học tốt nhất.

Nhược điểm: Với một dữ liệu huấn luyện quá lớn, đặc biệt là trường hợp dữ liệu

về virus của chúng ta, tính hiệu quả của mơ hình bị suy giảm

Chi phí để huấn luyện cấu trúc mạng cũng không hề nhỏ, độ phức tạp tỉ lệ thuận

với số cấu trúc mạng được khởi tạo và tiến hóa.

Mặt khác, do đặc điểm của GA, kết thúc quá trình học là một mạng duy nhất

mang tính thích nghi nhất trong tồn bộ quần thể. Sử dụng một mạng nơ-ron để thực

hiện toàn bộ công việc phân biệt virus/ sạch dẫn đến tỉ lệ báo động giả đôi khi rất cao.



46



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



3.1.4 Hướng tiếp cận kết hợp giải thuật chọn lọc nhân bản và mạng nơ-ron nhân

tạo trong phát hiện virus máy tính

Trong mơ hình máy học kết hợp giữa ANN và GA, chúng ta thấy ra kết quả cuối

cùng của quá trình huấn luyện là một mạng nơ-ron duy nhất. Với một bộ dữ liệu huấn

luyện quá lớn và có nhiều lỗi, cũng như các phần tử trong dữ liệu huấn luyện này có sự

phân bố phức tạp, việc học thành công cũng đồng nghĩa với khả năng mất đi tính tổng

quát của mạng nơ-ron khá lớn. Một câu hỏi đặt ra là tại sao ta không tiến hành huấn

luyện một tập hợp các mạng nơ-ron khác nhau thay cho chỉ một mạng nơ-ron duy nhất.

Khi đó, mỗi mạng nơ-ron sẽ tập trung ghi nhớ một vùng không gian trong dữ liệu huấn

luyện và sẽ phối hợp với nhau để giải quyết việc nhận dạng các phần tử trong dữ liệu

huấn luyện này.

Một vấn đề đặt ra chính là việc tìm ra một cơ chế để huấn luyện cùng lúc một

nhóm các mạng nơ-ron sao cho mỗi mạng nơ-ron tập trung khả năng nhận dạng của nó

vào một vùng không gian nhất định trong dữ liệu huấn luyện và một cơ chế để sử dụng

phối hợp các mạng nơ-ron này trong việc nhận dạng các chuỗi mã độc, hướng tới việc

nhận dạng một tập tin thực thi virus nào đó.

3.1.4.1 Hướng tiếp cận

Chúng ta có thể thấy được rằng, giữa giải thuật di truyền và giải thuật chọn lọc

nhân bản có sự tương quan rất lớn. Cả hai giải thuật đều dựa trên cơ chế tiến hóa quần

thể, sự cạnh tranh giữa các cá thể trong quần thể trong điều kiện môi trường. Việc phát

sinh các giá trị ngẫu nhiên chính là cách mà một giải pháp đã có được cải thiện dần qua

mỗi thế hệ.

Điểm khác nhau giữa hai giải thuật chính là cơ chế xác định đầu ra của chúng.

Trong khi giải thuật di truyền tập trung vào việc cải thiện một giải pháp duy nhất thì

CLONALG cố gắng duy trì một tập quần thể nhớ, đây chính là tập các cá thể tốt nhất



47



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



sau các lần tiếp xúc với các kháng nguyên khác nhau. Chính các phần tử trong tập quần

thể nhớ này sẽ các giải pháp phối hợp nhau để giải quyết bài toán đặt ra.

Như vậy, ta có thể thấy rằng, để xây dựng một mơ hình kết hợp giữa giải thuật

chọn lọc nhân bản CLONALG và mạng nơ-ron nhân tạo, ta hồn tồn có thể sử dụng

cùng một phương pháp xây dựng như đối với mô hình kết hợp giữa GA và ANN. Mỗi

ANN sẽ đóng vai trò như một kháng thể tham gia vào quá trình huấn luyện bằng

CLONALG, sau quá trình này, một tập các kháng thể sẽ được sử dụng để nhận dạng

các chuỗi mã độc theo một cơ chế phối hợp nào đó, hướng tới việc nhận dạng tập tin.

Giải thuật CLONALG được sử dụng để huấn luyện các kháng thể trở thành kháng

thể nhớ, từ đó xây dựng nên các bộ phát hiện có khả năng nhận biết các chuỗi virus

cũng như bỏ qua các chuỗi sạch.

Các đối tượng chính: Bên cạnh các đối tượng thường thấy trong các phiên bản

CLONALG như kháng nguyên, kháng thể…, học viên cùng nghiên cứu đưa thêm vào

CLONALG các đối tượng mới nhằm xây dựng giải thuật phù hợp với định hướng

nghiên cứu được đặt ra.

Bảng 3.1 Các đối tượng trong giải thuật chọn lọc nhân bản



STT

1



Tên

Kháng thể



Mô tả

Mỗi kháng thể là một mạng nơ-ron được

mã hóa ở dạng chuỗi cùng với một giá trị

thích nghi f.



2



Kháng nguyên



Mỗi kháng nguyên là một nhóm các

chuỗi nhị phân virus tương đồng nhau



3



Quần thể các kháng thể

nhớ memorySet



Là tập hợp các kháng thể tốt nhất được

lưu giữ và sẽ trở thành các bộ phát hiện sau

khi kết thúc quá trình huấn luyện



4



Quần thể các kháng thể



Quần thể đầu tiên, nơi cung cấp các

48



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



population



kháng thể cũng như các nguồn mới để tuyển

chọn vào memorySet.



5



Total Set



Quần thể bao gồm tất cả các kháng thể

từ quần thể memory Set và population.



6



Quần thể các kháng thể

bản sao clonalSet



Là tập hợp các kháng thể bản sao khi các

kháng thể trong totalSet trải qua quá trình

sinh trưởng proliferation.



7



Quần thể các kháng thể

trưởng thành maturedSet



Các kháng thể trong clonal Set sẽ trải

qua bước trưởng thành ái lực, từ đó tạo nên

quần thể matured Set



8



Môi trường environment



Nơi diễn ra sự tương tác giữa các kháng

thể với kháng nguyên và các tế bào cơ thể. Ở

đây, môi trường bao gồm các nhóm dữ liệu

huấn luyện đóng vai trò kháng ngun và

một tập các chuỗi nhị phân sạch đóng vai trò

tế bào cơ thể.



9



Kỷ nguyên epoch



Mỗi kỷ nguyên là một giai đoạn mà hệ

thống chuyển từ trạng thái hiện tại sang trạng

thái mới



10



Hàm thích nghi

fitnessFunction



Hàm thích nghi fitnessFunction cho

phép ta tính tốn giá trị f của kháng thể

tương ứng với môi trường.



Sau khi đã định nghĩa các đối tượng trong giải thuật tương đối hoàn chỉnh, ta kế

tiếp xây dựng các thao tác chính của thuật tốn CLONALG, chúng bao gồm:



49



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



1) Tính ái lực kháng nguyên Antigenic Affinity Evaluation: Thao tác tính ái lực

kháng nguyên của các kháng thể hay có thể nói ta tính giá trị thích nghi của kháng thể

với mơi trường. Việc tính toán giá trị f này sử dụng đối tượng fitnessFunction theo như

quy tắc tính tốn đã trình bày trong các phần trên.

2) Sự sinh trưởng Proliferation: chọn ra từ tập totalSet n kháng thể có giá trị thích

nghi cao nhất, ta tiến hành nhân bản chúng một cách độc lập và tỉ lệ thuận với giá trị f.

Giá trị này càng cao, số bản sao tương ứng với kháng thể được tạo ra càng lớn. Sau q

trình này ta có được tập bản sao clonalSet.

3) Sự trưởng thành ái lực Affinity maturation: Tất cả các kháng thể trong tập

clonalSet đều sẽ phải trải qua quá trình mà ta gọi là trưởng thành ái lực. Thực chất của

quá trình này là tiến hành các phép đột biến trên kháng thể, tỉ lệ và số lượng đột biến tỉ

lệ nghịch với giá trị ái lực kháng nguyên f. Sau bước này ta có tập trưởng thành

maturedSet.

4) Siêu biến đổi Metadynamics: Bước siêu biến đổi metadynamics bao gồm 2 quá

trình nhỏ hơn: cập nhật tập kháng thể nhớ memorySet và cập nhật tập kháng thể

population.

Các kháng thể với ái lực kháng nguyên cao nhất trong tập maturedSet được chọn

để làm ứng viên có thể trở thành kháng thể ghi nhớ để đưa vào tập memorySet. Nếu độ

ái lực của một ứng viên này cao hơn một kháng thể đang được kích hoạt trong tập m

thì nó sẽ được dùng để thay thế vị trí của kháng thể này.mViệc cập nhật tập kháng thể

population được thực hiện bằng cách tái khởi tạo ngẫu nhiên một số kháng thể mới để

thay thế cho các kháng thể có ái lực thấp nhất trong tập population. Như đã nói, số

lượng nhân bản của từng phần tử được chọn ra từ quần thể totalSet tỉ lệ thuận với ái lực

kháng nguyên của chúng. Để xác định số lượng nhân bản cho mỗi phần tử, ta thực hiện

sắp xếp các kháng thể theo thứ tự giảm dần ái lực đối với kháng nguyên. Ta duyệt xuôi



50



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



dãy các kháng thể đã được sắp xếp, số lượng tập nhân bản của mỗi kháng nguyên được

tính theo cơng thức sau:

numClones =[



𝛽.𝑁

𝑖



+0.5]



( 3.1)



Trong đó β là hệ số nhân bản, N là độ lớn của tập kháng thể, và i là chỉ số của

kháng thể hiện thời, i.

Như vậy, tổng số các nhân bản được sinh ra từ n kháng thể được chọn sẽ là:

Nc=∑𝑛𝑖=1[



𝛽.𝑁

𝑖



+ 0.5]



( 3.2)



Mỗi nhân bản sẽ có một độ đột biến α nhất định, xác định khả năng biến đổi của

nhân bản. α được tính như sau:

α = [e (-p*f)]



( 3.3)



Trong đó, ρ là hệ số đột biến, f là ái lực của kháng thể gốc với kháng nguyên. β

thường được chọn trong khoảng (0, 1] còn ρ nằm trong khoảng [1, 10].

Thuật giải:



51



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Begin



Initialization



Evaluation

g

Present

new

anti

gen



Proliferation



Affinity maturation



Metadynamics



NO



Stop

YES



End



Hình 3.1 Sơ đồ giải thuật chọn lọc nhân bản



Bước 1:

Khởi tạo: Khởi tạo ngẫu nhiên một quần thể population với số lượng kháng thể

được xác định trước.

Bước 2:

Trình diện từng kháng nguyên trong môi trường, thực hiện các thao tác:

Antigenic Affinity Evaluation

Proliferation

52



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Affinity Maturation

Metadynamics

Bước 3: Khi giá trị f đạt đến ngưỡng xác định trước hoặc số kỷ nguyên đã đạt

giới hạn, dừng thuật giải. Nếu không bắt đầu một kỷ nguyên mới, quay lại bước 2.

Ưu điểm:

Một ưu điểm của nổi bật của việc kết hợp giữa CLONALG và ANN trong giải

quyết bài toán phát hiện virus máy tính chính là ở khả năng tạo ra không chỉ một mà là

một tập các kháng thể, mỗi kháng thể chính là một thực thể ANN có khả năng hoạt

động độc lập nhưng cũng cần phối hợp với các kháng thể khác để đạt được độ phủ tốt

hơn trên không gian dữ liệu huấn luyện.

Một ưu điểm khác chính là việc kế thừa phần lớn cơ chế huấn luyện cũng như các

toán tử di truyền từ giải thuật di truyền, giúp cho q trình xây dựng mơ hình được dễ

dàng thực hiện.

Mơ hình kế thừa cả ưu điểm của CLONALG và ANN cũng như khả năng phối

hợp các ưu điểm này để tạo ra một giải pháp triển vọng cho giải quyết bài tốn phát

hiện virus nói riêng cũng như các vấn đề phát sinh trong cuộc sống nói chung.

Nhược điểm:

Một nhược điểm vơ cùng lớn của giải thuật chọn lọc nhân bản CLONALG chính

là ở thời gian huấn luyện. Như chúng ta có thể thấy trong phần mơ tả giải thuật, bên

cạnh việc xác định số vòng lặp để chạy thuật toán giống như trong giải thuật di truyền

GA, trong mỗi vòng lặp này CLONALG còn phải tốn một phần lớn thời gian để duyệt

qua các kháng nguyên có trong dữ liệu huấn luyện . Như vậy, giả sử số kháng nguyên

là n, giải thuật sẽ chạy chậm n lần so với giải thuật GA.



53



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Chương 3. HƯỚNG TIẾP CẬN MẠNG MIỄN DỊCH NƠ-RON NHÂN TẠO TRONG PHÁT HIỆN VIRUS MÁY TÍNH

Tải bản đầy đủ ngay(0 tr)

×