Tải bản đầy đủ - 0 (trang)
CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC KINH TẾ HUẾ

CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC KINH TẾ HUẾ

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang







Hình 2.2: Dữ liệu sau khi đã được tổng hợp và xử lý



U



Chuẩn bị dữ liệu để huấn luyện (training set) và kiểm thử (testing



H



2.1.



TẾ



set)



N

H



Khởi động WEKA → Chọn Explore → Chọn Open File → Chọn data



TR



Ư







N



G



Đ



ẠI



H





C



KI



“data.csv” có kết quả như sau:



- Click chọn “Choose” → “filters” → “unsupervised” → “instance” →

“RemovePercentage”.

- Ở đây chúng ta lấy 20% ở mục “percentage”, khi lấy 20% có nghĩa là trong dữ

liệu gốc sẵn có thì sẽ sử dụng 80% dữ liệu để trở thành dữ liệu huấn luyện, 20% còn

lại sẽ trở thành dữ liệu kiểm thử. Có thể đặt tỉ lệ bao nhiêu là tùy người sử dụng,

khuyến nghị sử dụng ở mức 20%.



SVTH: Nguyễn Ngọc Tri



22



GVHD: Th.S Mai Thu Giang



U







Khóa luận tốt nghiệp



H



→ Nhấn “OK” → “Apply” → “Save” để lưu lại dữ liệu huấn luyện.



TẾ



- Với dữ liệu kiểm thử, thực hiện tương tự như ở việc chuẩn bị dữ liệu huấn



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



luyện, chỉ khác biệt ở chỗ “invertSelection” thì đổi từ “False” thành “True”



2.2.



Trích chọn thuộc tính cho dữ liệu huấn luyện



- Với việc sử dụng Attribute Evaluator là “CfsSubsetEval”, Search Method là

“BestFirst” thì được như sau:



SVTH: Nguyễn Ngọc Tri



23



GVHD: Th.S Mai Thu Giang



N

H



TẾ



H



U







Khóa luận tốt nghiệp



KI



Dựa vào kết quả ở phần “Output”, thì sẽ giữ lại 2 trường thuộc tính đó là điểm





C



của môn “Toan_1” với tác động 90% và “Vi_mo” là 10%. Còn lại là những mơn có



H



tác động ít hoặc khơng có tác động đến việc chọn ngành của sinh viên.



ẠI



3. Chạy phần mềm WEKA với dữ liệu huấn luyện



G



Đ



Việc sử dụng dữ liệu huấn luyện để tiến hành phân lớp rồi đưa ra mơ hình dự báo



N



phân loại chuyên ngành đạt độ chính xác cao nhất, cần phải kiểm thử với nhiều



Ư







phương pháp và chọn lấy phương pháp có độ chính xác cao nhất. Vì số lượng trường



TR



thuộc tính khơng nhiều nên có thể việc trích chọn thuộc tính là khơng đạt kết quả tối

ưu, nên ở đây cũng sẽ kiểm thử cùng một phương pháp khi chưa trích chọn thuộc tính

và sau khi trích chọn thuộc tính để so sánh độ tin cậy rồi cuối cùng chọn ra phương

pháp tối ưu nhất phục vụ cho nghiên cứu.



3.1.



Khi chưa trích chọn dữ liệu



3.1.1. Phân lớp bằng thuật tốn Naïve Bayes

Mở WEKA → Chọn Explore → Open file → Chọn dữ liệu huấn luyện (ở đây là

“train.arff”), được như sau:



SVTH: Nguyễn Ngọc Tri



24



GVHD: Th.S Mai Thu Giang



H



U







Khóa luận tốt nghiệp



TẾ



Tiếp tục, để tiến hành phân lớp theo thuật toán Naïve Bayes, thực hiện tiếp như



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



sau: Chọn Classify → Choose → bayes → Naïve Bayes



Ở “Test option” chọn “use training set”,nhấn “start”, ta có được bảng kết quả

như sau:



SVTH: Nguyễn Ngọc Tri



25



GVHD: Th.S Mai Thu Giang



N

H



TẾ



H



U







Khóa luận tốt nghiệp



KI



Kết quả phân lớp nhận được là:





C



+ Trường hợp phân lớp chính xác: 56 chiếm 70.8861%



H



+ Trường hợp phân lớp chưa chính xác: 23 chiếm 29.1139%



ẠI



Kiểm thử lại bằng dữ liệu kiểm thử:



Đ



+ Chọn dữ liệu kiểm thử (ở đây là “test.arff”), chọn Set ở Supplied test set →



TR



Ư







N



G



Open file → Chọn “test.arff” → OK



+ Ở More option, mục “Output predictions” chọn “Plain Text”. Mục đích của

nó là hiển thị rõ mơ hình đã dự đốn ra như thế nào bằng dữ liệu text để người dùng dễ

dàng xem hơn.



SVTH: Nguyễn Ngọc Tri



26



GVHD: Th.S Mai Thu Giang



KI



N

H



TẾ



H



U







Khóa luận tốt nghiệp





C



+ Kích chuột phải vào model cần kiểm thử, chọn Re-evaluate model on



H



current test set để tiến hành kiểm thử với dữ liệu kiểm thử.



TR



Ư







N



G



Đ



ẠI



Ta có được kết quả sau kiểm thử như sau:



Kết quả kiểm thử mơ hình tóm tắt là: dự đốn chính xác 12 chiếm 60%, dự đốn

sai 8 chiếm 40%.

SVTH: Nguyễn Ngọc Tri



27



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Cụ thể hơn, ở phần kết quả, cột predicted (dự báo), dấu + thể hiện cho

Misspredicted (dự báo sai). Cột actual gán nhãn có sẵn của dữ liệu

Lưu lại mơ hình bằng việc kích chuột phải vào mơ hình rồi nhấn Save model.



3.1.2. Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán

J48



H





C



KI



N

H



TẾ



H



U







Kết quả phân lớp của dữ liệu huấn luyện khi sử dụng thuật toán J48:



ẠI



Kết quả phân lớp nhận được là:



Đ



+ Trường hợp phân lớp chính xác: 53 chiếm 67.0886%



N



G



+ Trường hợp phân lớp khơng chính xác: 26 chiếm 32.9114%



TR



Ư







Chạy lại mơ hình với dữ liệu kiểm thử, ta có kết quả như sau:



SVTH: Nguyễn Ngọc Tri



28



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Kết quả kiểm thử mơ hình tóm tắt là: dự đốn chính xác 8 chiếm 40%, dự đoán

sai 12 chiếm 60%. Dấu + thể hiện cho những nhãn dán dự báo sai.



3.1.3. Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán

RandomTree



ẠI



H





C



KI



N

H



TẾ



H



U







Kết quả phân lớp dữ liệu huấn luyện sử dụng thuật tốn cây ngẫu nhiên:



Đ



Kết quả phân lớp chính xác đạt 100%.



TR



Ư







N



G



Chạy lại mơ hình với dữ liệu kiểm thử, ta có kết quả như sau:



SVTH: Nguyễn Ngọc Tri



29



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Kết quả kiểm thử mô hình tóm tắt là: dự đốn chính xác 8 chiếm 40%, dự đoán

sai 12 chiếm 60%. Dấu + thể hiện cho những nhãn dán dự báo sai.



3.1.4. Phân lớp bằng phương pháp cây quyết định sử dụng thuật toán

RandomForest





C



KI



N

H



TẾ



H



U







Kết quả phân lớp dữ liệu huấn luyện sử dụng thuật toán rừng ngẫu nhiên:



H



Kết quả phân lớp chính xác đạt 100%.



TR



Ư







N



G



Đ



ẠI



Chạy lại mơ hình với dữ liệu kiểm thử, ta có kết quả như sau:



Kết quả kiểm thử mơ hình tóm tắt là: dự đốn chính xác 12 chiếm 60%, dự đốn

sai 8 chiếm 40%.



SVTH: Nguyễn Ngọc Tri



30



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



3.1.5. Tổng hợp kết quả

Sau khi sử dụng 4 giải thuật của phương pháp phân lớp khi chưa trích chọn thuộc

tính, ta nhận thấy thuật tốn có tỉ lệ dự đốn chính xác cao nhất sau q trình kiểm thử

bao gồm thuật tốn cây quyết định sử dụng phương pháp RandomForest và thuật tốn

Nạve Bayes đều có cùng tỉ lệ dự đốn chính xác 60%. Hai thuật tốn còn lại là cây

quyết định sử dụng phương pháp RandomTree và thuật toán cây quyết định sử dụng

phương pháp J48 với tỉ lệ dự đốn chính xác cùng là 40%. Vậy khi chưa trích chọn dữ

liệu, để đạt tỉ lệ dự đốn cao nhất thì nên sử dụng thuật toán cây quyết định sử dụng

phương pháp RandomForest và thuật tốn Nạve Bayes.



U



3.2.1. Phân lớp bằng thuật tốn Nạve Bayes







Sau khi trích chọn dữ liệu



H



3.2.



TẾ



Như đã sử dụng trích chọn dữ liệu ở trên, bây giờ dữ liệu sau khi trích chọn chỉ



N

H



còn lại 2 trường thuộc tính đó là “Toan_1” và “Vi_mo”, ta có dữ liệu huấn luyện như



TR



Ư







N



G



Đ



ẠI



H





C



KI



sau:



Như đã thấy, dữ liệu huấn luyện bây giờ chỉ còn lại 2 thuộc tính phân lớp và 1

thuộc tính đích để phân lớp.

Kết quả phân lớp:



SVTH: Nguyễn Ngọc Tri



31



GVHD: Th.S Mai Thu Giang



U







Khóa luận tốt nghiệp



+ Phân lớp chính xác: 51 chiếm 64.557%



TẾ



H



Khi chỉ còn 2 thuộc tính ảnh hưởng, kết quả phân lớp như sau:



N

H



+ Phân lớp khơng chính xác: 28 chiếm 35.443%



TR



Ư







N



G



Đ



ẠI



H





C



KI



Kết quả kiểm thử mơ hình:



Kết quả kiểm thử mơ hình tóm tắt là: dự đốn chính xác 7 chiếm 35%, dự đoán

sai 13 chiếm 65%.



SVTH: Nguyễn Ngọc Tri



32



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 2: ỨNG DỤNG WEKA TRONG VIỆC DỰ BÁO LỰA CHỌN CHUYÊN NGÀNH CHO SINH VIÊN KHOA HỆ THỐNG THÔNG TIN KINH TẾ - ĐẠI HỌC KINH TẾ HUẾ

Tải bản đầy đủ ngay(0 tr)

×