Tải bản đầy đủ - 0 (trang)
2 Lưu và sử dụng mô hình dự báo

2 Lưu và sử dụng mô hình dự báo

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



sau đó tiến hành chọn mơ hình đã lưu muốn dùng để dự báo.

B2: chuẩn hóa dữ liệu mới cần sử dụng mơ hình để dự báo và đưa dữ liệu vào

weka bằng cách chọn Supplied test set trong mục Test options. Nhấn chọn nút Set và



U







Open file để chọn đến tập dữ liệu cần dùng để dự báo, nhấn Close để kết thúc.



H



Hình 3 . 13 Chọn tập dữ liệu cần dự báo



TẾ



B3: thiết lập thông số ở cửa sổ Classifier evaluation options. Thiết lập giá trị cho



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



Output predictions là PlainText, sau đó nhấn OK để kết thúc.



SVTH: Trương Văn Quốc Anh



57



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang

Hình 3 . 14 Thiết lập thơng số



B4: kích chuột phải lên tên mơ hình và chọn Re-evaluate model on current test



N

H



TẾ



H



U







set để tiến hành dự báo trên bộ dữ liệu mới.



TR



Ư







N



G



Đ



ẠI



H





C



KI



Hình 3 . 15 Sử dụng mơ hình để dự báo cho bộ dữ liệu mới



Hình 3 . 16 Kết quả dự báo điểm học phần với mơ hình cây quyết định

Hình 3 . 16 thể hiện kết quả dự báo điểm học phần bằng mơ hình cây quyết định,

trong đó:

-



Cột Actual thể hiện cho nhãn lớp cần dự báo.



-



Cột predicted là các nhãn lớp được dự báo.



SVTH: Trương Văn Quốc Anh



58



Khóa luận tốt nghiệp



Cột prediction là tỉ lệ dự báo chính xác, càng gần 1 thì tỉ lệ dự báo chính xác

càng cao.



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



TẾ



H



U







-



GVHD: Th.S Mai Thu Giang



SVTH: Trương Văn Quốc Anh



59



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



PHẦN III. KẾT LUẬN VÀ ĐỀ XUẤT

1. Kết luận

Đề tài đã đi sâu tìm hiểu các kỹ thuật cơ bản của khai phá dữ liệu từ các kỹ thuật

phân lớp đến tiến hành trích chọn thuộc tính quan trọng để cải thiện tỉ lệ dự báo chính

xác. Sử dụng cơ sở dữ liệu điểm để tiến hành xử lý khai phá và tìm được tri thức cần

thiết.

Với các kết quả thu được, nhìn chung với nhóm học phần có độ chính xác trên

50% thì mơ hình cây quyết định có độ chính xác cao nhất lên tới 81.11% so với mạng







nơ ron với độ chính xác cao nhất là 73.81% trước khi tiến hành trích chọn thuộc tính.



H



U



Sau khi trích chọn thuộc tính tuy độ chính xác cao nhất của mơ hình mạng nơ ron được



TẾ



cải thiện với 81.97%, tuy nhiên chỉ nhỉnh hơn một lượng khơng đáng kể so với mơ



N

H



hình cây quyết định. Vì vậy đề tài đi đến kết luận nên áp dụng mơ hình cây quyết định

để dự báo kết quả cho các học phần có độ chính xác trên 50%.



KI



Đề tài đi vào ứng dụng thực tiễn, đưa ra cách xử lý và áp dụng các tri thức đã





C



khai phá được vào thực tế.



H



Về mặt lý thuyết, khóa luận đã trình bày rõ cách thức ứng dụng khai phá dữ liệu



Đ



ẠI



vào thực tế, từ thu thập dữ liệu thô ban đầu đến xử lý chuẩn hóa dữ liệu và cuối cùng



N







tế đã thu thập được.



G



là áp dụng kĩ thuật phân lớp để huấn luyện mơ hình dự báo dựa trên cơ sở dữ liệu thực



Ư



Về mặt thực tiễn, khóa luận đã đáp ứng được mục tiêu đặt ra ban đầu, áp dụng kĩ



TR



thuật khai phá dữ liệu cụ thể là mơ hình mạng nơ ron và cây quyết định để đưa ra dự

báo kết quả học tập cho sinh viên chuyên ngành Tin học Kinh tế, hỗ trợ cố vấn học tập

đưa ra tư vấn kịp thời cho sinh viên, từ đó mỗi sinh viên có hình thức thay đổi phương

pháp học tập để đạt kết quả cao, ngoài ra cũng hỗ trợ cho giảng viên bộ môn nắm được

những sinh viên có khả năng có kết quả học tập khơng cao để có phương pháp dạy học

đặc biệt đối với những sinh viên này.

Tuy nhiên, khóa luận chỉ mới tập trung nghiên cứu đối với chuyên ngành Tin học

Kinh tế Khoa Hệ thống Thông tin Kinh tế. Bên cạnh đó, cơ sở dữ liệu thu thập được

còn hạn chế, chưa bao quát hết dẫn đến tình trạng kết quả dự báo chưa cao. Đặc biệt,



SVTH: Trương Văn Quốc Anh



60



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



cơ sở dữ liệu mới chỉ tập trung vào thuộc tính điểm của sinh viên. Chưa thu thập được

dữ liệu có ảnh hưởng trực tiếp hoặc gián tiếp đến kết quả học tập của sinh viên như

giới tính, thái độ học tập, truyền thống gia đình, nghề nghiệp đam mê,…



2. Đề xuất phát triển

Khóa luận chỉ mới sử dụng hai mơ hình phân lớp mạng nơ ron và cây quyết định

để khai phá dữ liệu điểm. Vì vậy để bao qt hơn khóa luận đề xuất sử dụng nhiều mơ

hình phân lớp khác nhau để tiện so sánh kết quả cũng như đưa chọn ra mơ hình phân

lớp nào có tỉ lệ dự báo chính xác cao nhất.

Để đạt được kết quả phân lớp cao hơn, cần có thời gian để đi sâu khai thác thêm



U







các thuộc tính của mỗi sinh viên như: thành phần gia đình, điểm thi các mơn đại học,



H



vùng miền sinh sống, là sinh viên nguyện vọng 1 hay nguyện vọng 2, giới tính, định



TẾ



hướng nghề nghiệp, đã là đồn viên hay đảng viên chưa, …



N

H



Hướng nghiên cứu tiếp theo: mở rộng nghiên cứu đối với tất cả các ngành đào



KI



tạo của trường Đại học Kinh tế Huế, sử dụng thêm nhiều mơ hình phân lớp khác nhau





C



để so sánh đối chiếu kết quả. Xây dựng một phần mềm tư vấn học tập, đóng vai trò



H



như là một cố vấn học tập đưa ra tư vấn kịp thời đến mỗi sinh viên.



ẠI



Thu thập lượng mẫu lớn hơn để cải thiện tỉ lệ dự báo chính xác cho mơ hình.



G



Đ



Phân tích, xếp hạng các trường thuộc tính trong cơ sở dữ liệu thu thập được, từ đó



N



chọn ra các trường thuộc tính đóng vai trò quan trọng đối với tỉ lệ dự báo chính xác ở



Ư







mỗi mơ hình, đồng thời loại bỏ đi những trường thuộc tính gây nhiễu hay làm giảm tỉ



TR



lệ dự báo chính xác của mơ hình.

Qua hằng năm lượng dữ liệu thu được cũng tăng theo, thiết nghĩ cần xây dựng

một kho dữ liệu điểm mới có quy tắc trật tự nhất định, sao cho việc quản lý dữ liệu

điểm trở nên dễ dàng hơn. Trong trường hợp cố vấn học tập muốn dự báo cho một

trường hợp cụ thể nào đó có thể dễ dàng trích xuất dữ liệu cần thiết và không cần phải

trải qua quá trình tiền xử lý trước khi tiến hành dự báo nữa.

Khóa luận nghiên cứu về vấn đề dự báo điểm của các mơn chun ngành, nếu có

điều kiện sẽ tiếp tục phát triển dự báo thêm các môn tự chọn hay cũng dựa trên điểm

các môn đại cương để nhằm mục tiêu dự báo hay hỗ trợ việc sinh viên thực hiện chọn

ngành học.



SVTH: Trương Văn Quốc Anh



61



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



DANH MỤC TÀI LIỆU THAM KHẢO

1. (2018). Khai phá dữ liệu. Wikipedia tiếng Việt.

2. Van Bien. (2013). Quy trình Khai phá dữ liệu (Process of Data mining).

3. (2016). Giới thiệu tổng quan về Mạng Nơron nhân tạo (Artificial Neural

Network- ANN).

4. Nguyễn Văn Chức. (2011). Tổng quan về Mạng Neuron (Neural Network) BIS.

5. (2017). Cây quyết định. Wikipedia tiếng Việt,







6. TIẾP CẬN KÝ HIỆU: GIẢI THUẬT QUY NẠP CÂY QUYẾT ĐỊNH ID3 -



TẾ



7. Ông Xuân Hồng. (2015). CayQuyetDinh_C45



H



U



VOER.



N

H



8. Ông Xuân Hồng. (2015). Scikit-learn: K-nearest neighbors.

9. Vu Tiep. (2017). Support Vector Machine.



KI



10. Ông Xuân Hồng. (2015). Scikit-learn: Naive Bayes Classifier.





C



11. Nguyễn Ngọc Diệp. (2013). Các phương pháp đánh giá độ chính xác (trung



H



bình) của mơ hình phân lớp.



Đ



ẠI



12. Nguyễn Văn Chức. (2011). Vấn đề trích chọn thuộc tính trong Khai phá dữ



G



liệu - BIS.







N



13. Ơng Xn Hồng. (2015). Đánh giá mơ hình (Model evaluation).



Ư



14. Nguyễn Quang Nhật. (2012). Gioi_thieu_WEKA.



TR



15. Phạm Thị Như Trang. (2013). "Khai phá dữ liệu điểm để dự đoán kết quả

học tập của Sinh viên trường Cao đẳng Sư phạm Hà Nội".

16. Nguyễn Đăng Nhượng. (2012). "Khai phá dữ liệu về kết quả học tập của học

sinh trƣờng Cao đẳng nghề Văn Lang Hà Nội".

17. Phạm Cẩm Vân. (2012). "Ứng dụng khai phá dữ liệu để tư vấn học tập tại

trường cao đẳng kinh tế- Kỹ thuật Quảng Nam".

18. Phan Văn Dương. (2012). "Luận văn Khai phá dữ liệu và ứng dụng trong tư

vấn tuyển sinh trường cao đẳng nghề Trung Bộ".

19. Nguyễn Đặng Thế Vinh. (2014). " Ứng dụng khai phá dữ liệu chọn ngành

nghề cho học sinh THPT".



SVTH: Trương Văn Quốc Anh



62



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 Lưu và sử dụng mô hình dự báo

Tải bản đầy đủ ngay(0 tr)

×