Tải bản đầy đủ - 0 (trang)
2 Hướng tiếp cận kết hợp mạng miễn dịch nhân tạo và mạng nơ-ron nhân tạo trong phát hiện virus máy tính

2 Hướng tiếp cận kết hợp mạng miễn dịch nhân tạo và mạng nơ-ron nhân tạo trong phát hiện virus máy tính

Tải bản đầy đủ - 0trang

Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



chọn thơng số của mơ hình và tập kiểm tra dùng cho việc kiểm tra kết quả thực nghiêm

của mơ hình được đề ra.

Bộ phận thứ hai là một quần thể các bộ phát hiện, hay còn được gọi là các kháng

thể. Các kháng thể này chính là các đối tượng ANN được trải qua q trình huấn luyện

để có thể phân biệt giữa các phân tử (chuỗi mã) độc hay sạch.

Bộ phận thứ ba của mơ hình ANIN là bộ huấn luyện dữ liệu, thành phần chính là

giải thuật mạng miễn dịch nhân tạo AiNet, có nhiệm vụ chính là huấn luyện các mạng

nơ-ron để tạo ra các bộ phát hiện tốt, đáp ứng khả năng giải quyết bài toán được đặt ra.

3.2.1 Biểu diễn kháng thể / kháng nguyên

Trong hướng tiếp cận ANIN, việc xây dựng cơ chế biểu diễn các chuỗi nhị phân

virus và chuỗi nhị phân sạch thành các kháng thể, kháng nguyên trong AIS mang nhiều

cải tiến cho phù hợp với ý định lựa chọn các mạng nơ ron đóng vai trò là các bộ phát

hiện.

Mỗi kháng thể là dạng mã hóa của một mạng nơ-ron nhân tạo, được đặc trưng bởi

hai chuỗi giá trị. Một chuỗi chỉ ra cấu trúc của mạng mà kháng thể mã hóa, chuỗi còn

lại là danh sách các trọng số của mạng nơ-ron tương ứng với cấu trúc của nó. Q trình

xây dựng quần thể các kháng thể nhớ chính là q trình huấn luyện các mạng nơ-ron cả

về cấu trúc và trọng số.

Như vậy, mỗi kháng thể không chỉ đơn thuần là các chuỗi nhị phân mà thông tin

chứa trong các chuỗi này cho phép ta xây dựng nên một mạng nơ-ron với cấu trúc và

trọng số tương ứng. Việc sử dụng mạng nơ-ron đóng vai trò như các bộ phát hiện cho

phép ta sử dụng số lượng mạng ít hơn nhiều so với sử dụng các bộ phát hiện chuỗi nhị

phân trong khi khả năng học không hề thua kém. Mặc khác, không gian bao quát của

các bộ phát hiện mạng nơ-ron khơng mang hình thù cố định, nâng cao tính linh hoạt

trong việc bao quát không gian dữ liệu. Số lượng bộ phát hiện tương ứng với số kháng



55



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



thể trong quần thể nhớ, điều này sẽ dẫn đến việc sử dụng nhiều mạng nơ-ron làm các

bộ phát hiện, khai thác khả năng hỗ trợ giữa các mạng với nhau.

Còn đối việc kháng nguyên, ý tưởng ban đầu là việc sử dụng mỗi chuỗi mã virus

như một kháng nguyên. Tuy nhiên, ý tưởng này mắc phải một khó khăn lớn chính là ở

số lượng chuỗi mã virus rất lớn, việc có quá nhiều kháng nguyên đồng nghĩa với thời

gian chạy giải thuật sẽ gia tăng rất lớn. Để giải quyết khó khăn này, việc tiến hành

gom nhóm các chuỗi mã virus là cần thiết, đại diện mỗi nhóm sẽ được sử dụng như

một kháng nguyên. Như vậy, số kháng nguyên sẽ được giảm đi rất nhiều, nâng cao tốc

độ của quá trình huấn luyện mặc dù kết quả mơ hình sẽ bị giảm đơi chút do mỗi kháng

nguyên chỉ là đại diện cho một nhóm chứ không chứa thông tin của tất cả các phần tử

trong nhóm. Chi tiết q trình xây dựng dữ liệu huấn luyện, rút trích tập tin và gom

nhóm chuỗi mã độc sẽ được trình bài ở các phần tiếp theo của báo cáo này.

3.2.2 Các bộ phát hiện ANNs

Trong ANIN, các bộ phát hiện là các mạng nơ-ron nhân tạo là loại mạng dẫn tiến

đa lớp với hàm tổ hợp tuyến tính và hàm kích hoạt là hàm sigmoid lưỡng cực.

f(x) = −1 +



2

1+ e−αx



với α =2



( 3.4)



Hàm lưỡng cực cho ra giá trị output trong đoạn [-1, 1], thích hợp với bài toán ta

đang cần giải quyết, phân loại một chuỗi nhị phân vào 1 trong 2 lớp virus hoặc sạch.

Giá trị nhãn cho mỗi lớp được xác định là 0.5 tương ứng với virus và -0.5 tương ứng

với sạch. Như vậy, khi cần xác định một chuỗi nhị phân có mang tính chất virus hay

khơng, ta kiểm tra đầu ra của mạng khi truyền chuỗi này vào và tính tốn độ lệch với

đầu ra mong muốn là 0.5. Nếu độ lệch này nhỏ hơn hoặc bằng 0.5, ta kết luận chuỗi

này mang tính chất virus, nếu độ lệch lớn hơn 0.5, ta kết luận chuỗi nhị phân là sạch.

Ngược lại, khi cần xác định một chuỗi có là sạch thì ta đưa vào giá trị đầu ra

mong muốn là -0.5. Cả hai trường hợp này là ngược nhau nhưng mang ý nghĩa thông

56



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



tin như nhau và thơng thường, ta chỉ cần sử dụng một trường hợp với đầu ra mong

muốn là 0.5 để xác định tính chất virus hay khơng của chuỗi cần kiểm tra.

Do giải thuật huấn luyện AiNet chỉ thích hợp để huấn luyện các kháng thể ở dạng

chuỗi, chúng ta cần phải xây dựng một cơ chế để mã hố ANN thành các chuỗi dung

trong q trình huấn luuyện cũng như việc giải mã các chuỗi này thành các mạng nơron dùng trong giai đoạn phát hiện chuỗi, tập tin.

Ở đây, một cơ chế đơn giản được xây dựng nhầm mã hoá mạng nơ-ron cả về

trọng số và cấu trúc, để q trình huấn luyện có thể dễ dàng phát triển một loạt các

mạng nơ-ron với các cấu trúc khác nhau. Một mạng nơ-ron được mã hoá thành 2 mảng.

Một mảng các số nguyên được gọi là mảng cấu trúc, quy định cấu trúc của của mạng

nơ-ron như số phần tử đầu vào, số lớp ẩn, số phần tử mỗi lớp, số đầu ra. Mảng số thực

được gọi là mảng trọng số, chứa thông tin về các trọng số của các liên kết giữa các nơron trong mạng.

Mảng cấu trúc được mô tả bằng S0S1S2…Sk với k(k ≤ 3) là số lớp của mạng và Sj

(0 ≤ j ≤ k) mô tả số nơ-ron của lớp thứ j (như vậy S0 là lớp đầu vào và Sk là lớp đầu

ra).

Mỗi nơ-ron trong ANN chứa một tập các trong số W : wow1...wm với wj chỉ ra

trọng số của một kết nối từ nơ-ron thứ jth ở lớp liền trước đến nơ-ron hiện tại. Khi đó,

mảng trọng số có thể được xây dựng thành WiWi+1….Wn với n là số nơ-ron trọng mạng

và wi (0 ≤ i ≤ n) là nơ-ron thứ i trong mạng. Cần lưu ý là số nơ-ron được xác định từ

lớp ẩn đầu tiên của mạng nơ-ron, tức là các nơ-ron ở lớp đầu vào sẽ được bỏ qua. Một

đối tượng ANN với mảng cấu trúc : 2 3 1 và mảng trọng số 0.3 0.2 0.4 0.1 0.5 0.7 0.8

0.5 0.6 được mơ tả trong hình



57



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



Hình 3.2 Cấu trúc tổng quát của một đối tượng ANNs



3.2.3 Giải thuật huấn luyện AiNet

Sau khi các bộ phát hiện sơ khai được khởi tạo, chúng sẽ phái trải qua một quá

trình trưởng thành để cải thiện sự thích nghi của chúng với mơi trường.

Quá trình trưởng thành này được thực hiện bởi mạng miễn dịch nhân tạo, là một

mơ hình tính tốn nằm trong AIS. Mục đính chính của AiNet là bên cạnh việc phát sinh

một nhóm các bộ phát hiện tốt giống như CLONALG, q trình huấn luyện còn hướng

đến việc giảm thiểu các bộ phát hiện chứa thông tin giống nhau.

Do cả AiNet và CLONALG đều là các mô phỏng hệ miễn dịch con người, nên

chúng chia sẻ các đối tượng được dùng chung trong lý thuyết hệ miễn dịch như kháng

58



Chương 3. Hướng tiếp cận mạng miễn dịch nơ-ron nhân tạo trong phát hiện virus máy tính



thể, kháng nguyên… đã được trình bày trong phần giới thiệu về mơ hình kết hợp giữa

CLONALG và ANN để giải quyết bài toán phát hiện virus máy tính ở 3.1.4

Q trình này bao gồm hai giai đoạn chính, giai đoạn đầu tiên là sự tương tác

giữa các kháng thể (bộ phát hiện) và kháng nguyên để tăng cường ái lực giữa chúng.

Giai đoạn thứ hai là quá trình tương tác giữa các kháng thể với nhau để loại ra các

kháng thể chứa nội dung giống nhau đến một mức độ nào đó.

Các định nghĩa cơ bản:

Smemory: quần thể các kháng thể nhớ, các kháng thể tốt nhất được lưu trữ

lại sau mỗi vòng lặp (kỷ nguyên).

Sclonal: tập các kháng thể được nhân bản.

AffinityComputation(X, a): thủ tục tính tốn giá trị ái lực của tất cả các

phần tử trong tập X tương ứng với kháng nguyên a.

ClonalSelection(X): thủ tục chọn lọc các kháng thể tốt nhất trong tập X và

tái tạo chúng thành các nhân bản khác nhau với số lượng nhân bản được tạo ra tỉ

lệ thuận với giá trị ái lực của chúng. Kết hợp với các toán tử đột biến và giao

chéo nhằm cải tiến giá trị ái lực của các bản sao này.

Metadynamics(X): xoá bỏ các phần tử trong tập X có giá trị ái lực với

kháng nguyên hiện tại nhỏ hơn một giá trị ngưỡng được xác định trước đó.

Interaction(X): xác định tương tác giữa các kháng thể trong tập X

Suppression(X): Loại ra các kháng thể mà giá trị ái lực của chúng đối với

kháng thể kháng lớn hơn một giá trị định trước.

Update(X, Y): Cập nhật lại các tập kháng thể X và Y bằng cách tuyển chọn

ra các phần tử tốt nhất trong tập Y và bổ sung vào tập X.

DiversityHandling(X): Bổ sung vào tập X một số lượng các kháng thể mới

nhằm mục đích bổ sung nguồn nguyên liệu mới cho quá trình quá luyện, mở ra

khả năng xuất hiện các giải pháp mới ưu việt hơn.

59



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 Hướng tiếp cận kết hợp mạng miễn dịch nhân tạo và mạng nơ-ron nhân tạo trong phát hiện virus máy tính

Tải bản đầy đủ ngay(0 tr)

×