Tải bản đầy đủ - 0 (trang)
Bảng 5.2 Tỉ lệ phát hiện và tỉ lệ dương tính giả của ANIN và mô hình [7]

Bảng 5.2 Tỉ lệ phát hiện và tỉ lệ dương tính giả của ANIN và mô hình [7]

Tải bản đầy đủ - 0trang

Chương 5. Thử nghiệm



giả tăng. Khi kích thước dữ liệu có xu hướng tăng, các bộ phát hiện được huấn luyện

để mở rộng độ phủ của chúng tương thích với sự gia tăng này, tuy nhiên với kích thước

dữ liệu quá lớn, các bộ phát hiện cần nhiều nỗ lực hơn để bao phủ không gian dữ liệu

và hiệu quả sẽ giảm sút nếu số lượng bộ phát hiện ban đầu khơng đủ đáp ứng.

False Positive Rate



Detection rate



120

88

100



87



82



Rate %



80

60

40

20



10



5



5



0.8



0.75



0

0.95



Network Suppression

Threshold



Hình 5.1 Sự tương quan giữa giá trị Network Suppression Threshold và hiệu quả của

ANIN



Hình 5.1cho thấy sự tương quan giữa giá trị NST và tỉ lệ phát hiện cũng như tỉ lệ

dương tính giả khi sử dụng bộ dữ liệu huấn luyện và bộ validation ở dataset 4. Kết quả

cho thấy tỉ lệ phát hiện có thể đạt tới 88% với NST = 0.95. Ta cũng quan sát thấy rằng,

khi giá trị NST càng lớn, tỉ lệ phát hiện càng cao. Điều này được lý giải bởi với một giá

trị NST lớn, quá trình huấn luyện trở nên gay go hơn, các bộ phát hiện bị buộc phải bao

pphủ các vùng dữ liệu mới thay cho các vùng đã được chiếm đóng. Trong trường hợp

này, với cùng một số lượng các bộ phát hiện, tổng độ phủ của các bộ phát hiện gia tăng

khi giá trị NST tăng, kéo theo sự gia tăng tỉ lệ phát hiện. Tuy nhiên, khi NST quá lớn,

sự sụt giảm nghiêm trọng khi thao tác với các tập tin sạch của ANIN, tỉ lệ dương tính

giả sẽ tăng lên. Do vậy, việc lựa chọn một giá trị NST để cân bằng giữa tỉ lệ phát hiện

và tỉ lệ dương tính giả là rất quan trọng.

97



Chương 5. Thử nghiệm



Hình 5.2 So sánh hiệu quả giữa ANIN và [7] (Series1: ANIN detection rate, Series3:

ANIN false positive rate, Series2: [7] detection rate, Series4: [7] false positive rate )



Như được trình bày trong bảng Bảng 5.2 và Hình 5.2, tỉ lệ phát hiện trung bình

của mơ hình [7] cao hơn của ANIN. Tuy nhiên, khi sử dụng bộ dữ liệu có kích thước

càng lớn, tính hiệu quả của ANIN trở nên tốt hơn so với [7]. Với bộ dữ liệu có kích

thước nhỏ nhất dataset 1, mơ hình CLONALG kết hợp ANN có tỉ lệ phát hiện là 100 %

trong khi ANIN chỉ là 95 %. Khi áp dụng cho bộ dữ liệu 5 và 6, tỉ lệ phát hiện của [7]

là 84.5 % và 80.25 % trong khi ANIN có tỉ lệ phát hiện cao hơn với các giá trị lần lượt

là 87.5% và 84.5 %. Mặc khác, khi xét đến tỉ lệ dương tính giả, ANIN có tỉ lệ nhỏ hơn

so với [7]. Sự biến đổi về tỉ lệ phát hiện của cả hai mơ hình được lý giải bằng cách loại

bỏ ra các bộ phát hiện thừa trong ANIN khiến cho với cùng một số lượng các bộ phát

hiện, ANIN cố gắng giảm sự chồng lấn giữa các bộ phát hiện trong quần thể, khi đó,

tổng độ phủ của cả quần thể tốt hơn cũng nhhư hiệu quả hơn khi thao tác với các dữ

liệu sạch.



98



Chương 6. Kết luận



Chương 6. KẾT LUẬN

6.1 Các kết quả đạt được

Sau một quãng thời gian khá dài nghiên cứu các tri thức cần thiết để xây dựng đề

tài, cao học viên đã đạt được một số kết quả:

Nắm được một số kiến thức cần thiết máy tính như như khái niệm, phân loại,

cách mà một chương trình virus lây lan cũng như các hướng tiếp cận thường được sử

dụng để phát hiện virus máy tính.

Thu thập được các tri thức về các mơ hình máy học như giải thuật di truyền,

mạng nơ-ron nhân tạo, các mơ hình hệ miễn dịch nhân tạo như chọn lọc âm tính, chọn

lọc nhân bản, mạng miễn dịch nhân tạo…

Xây dựng thành công một hướng tiếp cận mới, dựa trên các mơ hình lý thuyết đã

nghiên cứu, từ đó tiến hành cài đặt thành một chương trình có giao diện thân thiện, hỗ

trợ các q trình như xây dựng dữ liệu huấn luyện, hình thành các bộ phát hiện và phân

lớp tập tin. Nhiều kĩ thuật lập trình được nghiên cứu và áp dụng vào quá trình cài đặt

như Threading, Serialization…

Đến thời điểm hiện tại, cao học viên cùng với nhóm nghiên cứu đã cơng bố được

hai bài báo khoa học.



6.2 Hạn chế

Bên cạnh một số kết quả khả quan đạt được, nhiều hạn chế vẫn còn tồn động và

đòi hỏi phải tiến hành giải quyết ở những nghiên cứu sau này:





Đề tài chỉ mới tập trung vào loại virus thực thi trên hệ điều hành Windows.







Việc lựa chọn các thông số chủ yếu dựa vào thực nghiệm và các thơng số mặc

định, chưa có một nghiên cứu tổng quát trên việc lựa chọn tất cả thông số cũng

như mức độ ảnh hưởng của mỗi thông số đến kết quả sau cùng.

99



Chương 6. Kết luận







Thời gian các quá trình huấn luyện khá lâu mặc dù đã được ứng dụng nhiều kĩ

thuật lập trình để rút ngắn thời gian thực hiện.







Tính hiệu quả của hướng tiếp cận bắt đầu giảm khi số lượng dữ liệu quá lớn.







Chưa thực sự đủ thuyết phục để tiến hành thương mại.



6.3 Hướng phát triển

Để chuẩn bị cho những nghiên cứu xa hơn, nhiều vấn đề cần phải được xem xét

giải quyết cũng như định hướng phát triển:





Giải quyết tốt các hạn chế còn tồn đọng.







Vận dụng tốt các kĩ thuật lập trình để khắc phục phần nào đó sự hao phí về thời

gian của q trình huấn luyện.







Mở rộng phạm vi ứng dụng của hướng tiếp cận cũng như nghiên cứu thêm nhiều

mơ hình huấn luyện hiệu quả hơn như deep learning, kết hợp với kĩ thuật cloudcomputing để phát triển ứng dụng antivirus nhỏ gọn, hiệu quả.







Tỉ lệ cảnh báo nhầm cao cũng là một hạn chế rất lớn, do đó cần xây dựng những

giải pháp để giảm bớt tỉ lệ cảnh báo nhầm mà không làm giảm tỉ lệ phát hiện

virus.







Số lượng chuỗi nhị phân sạch trong quá trình huấn luyện đơi khi rất lớn do được

rút trích trực tiếp từ các tập tin sạch, điều này đòi hỏi ta phải tìm cách giảm số

lượng của chuỗi sạch bằng cách xây dựng các bộ lọc, chỉ quan tâm đến những

chuỗi nhị phân phân bố rộng rãi thay vì tất cả các chuỗi sạch.



100



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Bảng 5.2 Tỉ lệ phát hiện và tỉ lệ dương tính giả của ANIN và mô hình [7]

Tải bản đầy đủ ngay(0 tr)

×