Tải bản đầy đủ - 0 (trang)
Tiền xử lý dữ liệu

Tiền xử lý dữ liệu

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang







Hình 2.2: Dữ liệu sau khi đã được tổng hợp và xử lý



U



Chuẩn bị dữ liệu để huấn luyện (training set) và kiểm thử (testing



H



2.1.



TẾ



set)



N

H



Khởi động WEKA → Chọn Explore → Chọn Open File → Chọn data



TR



Ư







N



G



Đ



ẠI



H





C



KI



“data.csv” có kết quả như sau:



- Click chọn “Choose” → “filters” → “unsupervised” → “instance” →

“RemovePercentage”.

- Ở đây chúng ta lấy 20% ở mục “percentage”, khi lấy 20% có nghĩa là trong dữ

liệu gốc sẵn có thì sẽ sử dụng 80% dữ liệu để trở thành dữ liệu huấn luyện, 20% còn

lại sẽ trở thành dữ liệu kiểm thử. Có thể đặt tỉ lệ bao nhiêu là tùy người sử dụng,

khuyến nghị sử dụng ở mức 20%.



SVTH: Nguyễn Ngọc Tri



22



GVHD: Th.S Mai Thu Giang



U







Khóa luận tốt nghiệp



H



→ Nhấn “OK” → “Apply” → “Save” để lưu lại dữ liệu huấn luyện.



TẾ



- Với dữ liệu kiểm thử, thực hiện tương tự như ở việc chuẩn bị dữ liệu huấn



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



luyện, chỉ khác biệt ở chỗ “invertSelection” thì đổi từ “False” thành “True”



2.2.



Trích chọn thuộc tính cho dữ liệu huấn luyện



- Với việc sử dụng Attribute Evaluator là “CfsSubsetEval”, Search Method là

“BestFirst” thì được như sau:



SVTH: Nguyễn Ngọc Tri



23



GVHD: Th.S Mai Thu Giang



N

H



TẾ



H



U







Khóa luận tốt nghiệp



KI



Dựa vào kết quả ở phần “Output”, thì sẽ giữ lại 2 trường thuộc tính đó là điểm





C



của môn “Toan_1” với tác động 90% và “Vi_mo” là 10%. Còn lại là những mơn có



H



tác động ít hoặc khơng có tác động đến việc chọn ngành của sinh viên.



ẠI



3. Chạy phần mềm WEKA với dữ liệu huấn luyện



G



Đ



Việc sử dụng dữ liệu huấn luyện để tiến hành phân lớp rồi đưa ra mơ hình dự báo



N



phân loại chuyên ngành đạt độ chính xác cao nhất, cần phải kiểm thử với nhiều



Ư







phương pháp và chọn lấy phương pháp có độ chính xác cao nhất. Vì số lượng trường



TR



thuộc tính khơng nhiều nên có thể việc trích chọn thuộc tính là khơng đạt kết quả tối

ưu, nên ở đây cũng sẽ kiểm thử cùng một phương pháp khi chưa trích chọn thuộc tính

và sau khi trích chọn thuộc tính để so sánh độ tin cậy rồi cuối cùng chọn ra phương

pháp tối ưu nhất phục vụ cho nghiên cứu.



3.1.



Khi chưa trích chọn dữ liệu



3.1.1. Phân lớp bằng thuật tốn Naïve Bayes

Mở WEKA → Chọn Explore → Open file → Chọn dữ liệu huấn luyện (ở đây là

“train.arff”), được như sau:



SVTH: Nguyễn Ngọc Tri



24



GVHD: Th.S Mai Thu Giang



H



U







Khóa luận tốt nghiệp



TẾ



Tiếp tục, để tiến hành phân lớp theo thuật toán Naïve Bayes, thực hiện tiếp như



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



sau: Chọn Classify → Choose → bayes → Naïve Bayes



Ở “Test option” chọn “use training set”,nhấn “start”, ta có được bảng kết quả

như sau:



SVTH: Nguyễn Ngọc Tri



25



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tiền xử lý dữ liệu

Tải bản đầy đủ ngay(0 tr)

×