Tải bản đầy đủ - 0 (trang)
1 Mô tả thí nghiệm

1 Mô tả thí nghiệm

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Để dữ liệu có thể hoạt động trên mơi trường weka thì bắt buộc phải tiến hành

chuẩn hóa. Dữ liệu sau khi gộp sẽ có các trường có dữ liệu bị trống cần được xử lý, ở

đây đề tài sẽ tiến hành xóa các trường bị trống đi bằng cơng cụ có sẵn của Excel. Tại



N

H



TẾ



H



U







mỗi ơ có giá trị trống sẽ có màu nổi bật giúp chúng ta nhận biết, sau đó tiến hành xóa



KI



Hình 3 . 2 Giá trị trống được đánh dấu





C



đi những giá trị trống đó.



H



Tuy nhiên, dữ liệu thu thập sẽ bao gồm cả điểm học lần đầu và điểm học lại của



ẠI



mỗi sinh viên, ở đây đề tài chỉ sử dụng dữ liệu điểm học lần đầu của mỗi sinh viên để



G



Đ



dự báo nên cần phải xóa đi dữ liệu điểm học lại của sinh viên.



N



Do phần mềm weka không hỗ trợ tiếng việt nên ta cần phải thay thế những



Ư







trường chứa tiếng việt có dấu thành khơng dấu



TR



Dữ liệu còn lại sau khi tiến hành xử lý còn lại 232 bản ghi, chứa đầy đủ thơng tin

của mỗi sinh viên.



3 . 3 Dữ liệu sau quá trình tiền xử lý

SVTH: Trương VănHình

Quốc

Anh



42



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Ngồi các học phần bắt buộc thì còn có các học phần tự chọn, đây là các học

phần cho phép sinh viên lựa chọn tùy theo sở thích hay năng lực của bản thân vì vậy

đề tài sẽ chỉ sử dụng dữ liệu của các học phần bắt buộc, sau quá trình tiền xử lý các

học phần tự chọn này sẽ được loại bỏ và các học phần sẽ được chia thành 2 nhóm là

nhóm các học phần đại cương, gồm có các mơn: Đường lối cách mạng của Đảng Cộng

sản Việt Nam (3 tín chỉ), Kinh tế lượng (3 tín chỉ), Kinh tế vi mơ (3 tín chỉ), Kinh tế vĩ

mơ (3 tín chỉ), Lý thuyết xác xuất thống kê tốn (3 tín chỉ), Ngun lý kế tốn (3 tín

chỉ), Ngun lý thống kê kinh tế (3 tín chỉ), Những nguyên lý cơ bản của chủ nghĩa

Mác-Lenin 1 (2 tín chỉ), Những nguyên lý cơ bản của chủ nghĩa Mác-Lenin 2 (3 tín



U







chỉ), Pháp luật đại cương (2 tín chỉ), Quản trị học (3 tín chỉ), Tin học đại cương (3 tín



TẾ



H



chỉ), Tốn cao cấp 1 (2 tín chỉ), Tốn cao cấp 2 (3 tín chỉ) và nhóm các học phần thuộc

chuyên ngành Tin học Kinh tế bao gồm các môn: Cấu trúc dữ liệu giải thuật (3 tín



N

H



chỉ), Cơ sở lập trình (3 tín chỉ), Hệ thống thơng tin quản lý (3 tín chỉ), Hoạch định



KI



nguồn lực doanh nghiệp ERP (3 tín chỉ), Kiến trúc máy tính và hệ điều hành (3 tín





C



chỉ), Lập trình hướng đối tượng (3 tín chỉ), Lập trình ứng dụng trong quản lý (3 tín



H



chỉ), Mạng và truyền thơng (3 tín chỉ), Phát triển hệ thống thông tin kinh tế (3 tín chỉ)



ẠI



và Tốn rời rạc (3 tín chỉ). Dữ liệu sẽ bao gồm cả điểm học lần đầu của sinh viên ở hệ



G



Đ



A,B,C,D,F tương ứng với từng học phần.



N



Phạm vi khóa luận này sẽ sử dụng dữ liệu điểm 8 học phần đại cương của sinh



Ư







viên năm nhất để dự báo cho các môn chuyên ngành bao gồm Kinh tế vi mơ (3 tín



TR



chỉ), Lý thuyết xác xuất thống kê tốn (3 tín chỉ), Những ngun lý cơ bản của chủ

nghĩa Mác-Lenin 1 (2 tín chỉ), Những nguyên lý cơ bản của chủ nghĩa Mác-Lenin 2 (3

tín chỉ), Pháp luật đại cương (2 tín chỉ), Tin học đại cương (3 tín chỉ), Tốn cao cấp 1

(2 tín chỉ), Tốn cao cấp 2 (3 tín chỉ) theo hệ A,B,C,D,F và điểm hệ số 10 sẽ được loại

bỏ đi.

Dữ liệu sau khi lọc sẽ trải qua q trình chuẩn hóa và lưu lại dưới dạng file csv

để có thể thao tác trên mơi trường Weka Explorer.



SVTH: Trương Văn Quốc Anh



43



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Loại bỏ các thuộc tính khơng sử dụng

B1: Khởi động weka, tại cửa sổ Weka GUI Chooser chọn môi trường Explorer,

chọn Open file, chọn bộ dữ liệu đã được xử lý dưới định dạng csv hoặc arff và nhấn



ẠI



H





C



KI



N

H



TẾ



H



U







Open để mở dữ liệu.



Đ



Hình 3 .4 Dữ liệu sau khi tải lên weka



N



G



B2: Tiến hành chọn ra những mơn khơng cần thiết cho q trình phân lớp sau đó







nhấn Remove để loại bỏ. Chọn Save để lưu dữ liệu đã được loại bỏ các thuộc tính



TR



Ư



khơng cần thiết dưới dạng arff.

Tìm ra những trường thuộc tính có ảnh hưởng lớn kết quả huấn luyện mơ

hình bằng chức năng trích chọn thuộc tính (Selection attributes) của weka.



SVTH: Trương Văn Quốc Anh



Hình 3 . 5 Loại bỏ những trường dữ liệu dư thừa



44



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



B1: tải vào bộ nhớ dữ liệu dưới định dạng arff hoặc csv vào bộ nhớ.

B2: chuyển sang tab Select attributes. Trong mục Attribute Evaluator chọn

WrapperSubsetEval. Trong mục classifier chọn mơ hình phân lớp nơ ron



H





C



KI



N

H



TẾ



H



U







MultilayerPerceptron, sau đó nhấn Ok kết thúc.



ẠI



Hình 3 . 6 Thiết lập trích chọn thuộc tính quan trọng



Đ



B3: trong mục Search Method chọn GreedyStepwise, sau đó tiến hành thiết lập giá



N



G



trị True cho searchBackwards để weka tiến hành loại bỏ các thuộc tính theo độ ảnh hưởng



TR



Ư







từ ít đến nhiều đối với kết quả huấn luyện mơ hình. Sau đó nhấn OK để kết thúc.



SVTH: Trương Văn Quốc Anh



45



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Hình 3 . 7 Các thuộc tính quan trọng được chọn ra

B4: Kích chọn Use full training set và nhấn Start để bắt đầu.

Huấn luyện mơ hình trên cơ sở dữ liệu điểm đã tiến hành tiền xử lý bằng kĩ

thuật phân lớp mạng nơ ron

B1: Tiến hành tải dữ liệu vào Weka Explorer.

B2: Chuyển sang tab Classify. Ở mục Classifier chọn functions và tiếp tục chọn



Đ



ẠI



H





C



KI



N

H



TẾ



H



U







MultilayerPerceptron.



TR



Ư







N



G



Hình 3 . 8 Huấn luyện mơ hình mạng nơ ron



B3: Thiết lập giá trị 10 Folds Cross-validate và chọn trường thuộc tính là học

phần cần dự báo. Nhấn Start để bắt đầu huấn luyện mơ hình.

B4: Kích chuột phải vào tên mơ hình vừa chạy. Chọn Save model, tiến hành đặt

tên và nhấn Save để lưu mơ hình và tái sử dụng mơ hình sau này.



SVTH: Trương Văn Quốc Anh



46



GVHD: Th.S Mai Thu Giang



TẾ



H



U







Khóa luận tốt nghiệp



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



Hình 3 . 9 Kết quả huấn luyện mơ hình



Hình 3 . 10 Lưu mơ hình dự báo

Kết quả thí nghiệm

Bảng 1 Các thuộc tính được trích chọn



Tên học phần

Mạng







Phương pháp phân lớp

Mạng nơ ron



truyền • Kinh tế vi mơ



SVTH: Trương Văn Quốc Anh



Cây quyết định

• Kinh tế vi mơ

47



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



• Lý thuyết xác xuất thống kê • Lý thuyết xác xuất thống kê



thơng



tốn



tốn



• Những ngun lý cơ bản của • Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 1



chủ nghĩa Mác-Lenin 1



• Pháp luật đại cương



• Những nguyên lý cơ bản của



• Tin học đại cương



chủ nghĩa Mác-Lenin 2



• Tốn cao cấp 1



• Pháp luật đại cương



• Tốn cao cấp 2



• Tin học đại cương







• Tốn cao cấp 1



H



U



• Tốn cao cấp 2

thơng tin kinh tế



TẾ



Phát triển hệ thống • Lý thuyết xác xuất thống kê • Kinh tế vi mơ

• Lý thuyết xác xuất thống kê



N

H



tốn



KI



• Những ngun lý cơ bản của tốn





C



chủ nghĩa Mác-Lenin 1



• Những ngun lý cơ bản của



• Những nguyên lý cơ bản của chủ nghĩa Mác-Lenin 1



ẠI



H



chủ nghĩa Mác-Lenin 2



• Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 2



• Tốn cao cấp 2



• Pháp luật đại cương



TR



Ư







N



G



Đ



• Pháp luật đại cương



• Tin học đại cương

• Tốn cao cấp 1

• Tốn cao cấp 2



Hoạch định nguồn • Tin học đại cương



• Kinh tế vi mơ



lực doanh nghiệp



• Lý thuyết xác xuất thống kê



ERP



tốn

• Những ngun lý cơ bản của

chủ nghĩa Mác-Lenin 1

• Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 2



SVTH: Trương Văn Quốc Anh



48



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang

• Pháp luật đại cương

• Tin học đại cương

• Tốn cao cấp 1



• Tốn cao cấp 2

Kiến trúc máy tính • Kinh tế vi mơ

và hệ điều hành



• Lý thuyết xác xuất thống kê



• Lý thuyết xác xuất thống kê tốn

• Pháp luật đại cương



tốn



• Những ngun lý cơ bản của • Tốn cao cấp 2







chủ nghĩa Mác-Lenin 1



H



U



• Pháp luật đại cương



TẾ



• Tin học đại cương



N

H



• Tốn cao cấp 1



KI



• Tốn cao cấp 2



• Những nguyên lý cơ bản của • Kinh tế vi mơ





C



Tốn rời rạc



H



chủ nghĩa Mác-Lenin 2



• Lý thuyết xác xuất thống kê

tốn



• Tin học đại cương



• Những ngun lý cơ bản của



• Tốn cao cấp 1



chủ nghĩa Mác-Lenin 1



N



G



Đ



ẠI



• Pháp luật đại cương



• Pháp luật đại cương

• Tốn cao cấp 1



Cấu trúc dữ liệu • Kinh tế vi mơ



• Kinh tế vi mơ



TR



Ư







• Tốn cao cấp 2



giải thuật



• Lý thuyết xác xuất thống kê • Những nguyên lý cơ bản của

tốn



chủ nghĩa Mác-Lenin 2



• Những ngun lý cơ bản của • Tin học đại cương

chủ nghĩa Mác-Lenin 1

• Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 2

• Pháp luật đại cương



SVTH: Trương Văn Quốc Anh



49



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



• Tin học đại cương

Cơ sở dữ liệu



• Lý thuyết xác xuất thống kê • Kinh tế vi mơ

• Những ngun lý cơ bản của



tốn



• Những ngun lý cơ bản của chủ nghĩa Mác-Lenin 2

chủ nghĩa Mác-Lenin 1



• Tin học đại cương



• Những nguyên lý cơ bản của • Toán cao cấp 1

chủ nghĩa Mác-Lenin 2



• Toán cao cấp 2



• Pháp luật đại cương







• Tin học đại cương



H



U



• Tốn cao cấp 1

Cơ sở lập trình



TẾ



• Lý thuyết xác xuất thống kê • Kinh tế vi mơ

• Tốn cao cấp 1



N

H



tốn



• Những ngun lý cơ bản của





C



KI



chủ nghĩa Mác-Lenin 1

• Pháp luật đại cương



ẠI



H



• Tốn cao cấp 1



Đ



• Tốn cao cấp 2







• Những nguyên lý cơ bản của • Lý thuyết xác xuất thống kê



TR



Ư



quản lý



• Kinh tế vi mơ



N



G



Hệ thống thơng tin • Kinh tế vi mơ

chủ nghĩa Mác-Lenin 1



tốn



• Những ngun lý cơ bản của • Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 2



chủ nghĩa Mác-Lenin 1



• Pháp luật đại cương



• Những nguyên lý cơ bản của



• Tin học đại cương



chủ nghĩa Mác-Lenin 2



• Tốn cao cấp 1



• Pháp luật đại cương



• Tốn cao cấp 2



• Tin học đại cương

• Tốn cao cấp 1

• Tốn cao cấp 2



SVTH: Trương Văn Quốc Anh



50



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Lập trình hướng • Những ngun lý cơ bản của • Lý thuyết xác xuất thống kê

đối tượng



chủ nghĩa Mác-Lenin 1



tốn



• Những ngun lý cơ bản của • Những nguyên lý cơ bản của

chủ nghĩa Mác-Lenin 2



chủ nghĩa Mác-Lenin 2



• Tin học đại cương



• Tin học đại cương



Lập trình ứng dụng • Kinh tế vi mơ



• Kinh tế vi mơ



• Lý thuyết xác xuất thống kê • Những ngun lý cơ bản của



trong quản lý



chủ nghĩa Mác-Lenin 1



tốn







• Những ngun lý cơ bản của • Tốn cao cấp 2



TẾ



• Những nguyên lý cơ bản của





C



KI



• Tin học đại cương



N

H



chủ nghĩa Mác-Lenin 2

• Pháp luật đại cương



H



U



chủ nghĩa Mác-Lenin 1



H



• Tốn cao cấp 1



ẠI



Quan sát bảng 1 sau khi tiến hành trích chọn thuộc tính, có thể thấy đối với từng



G



Đ



mơ hình khác nhau thì số lượng các thuộc tính gây nhiễu hay giảm độ chính xác cho



N



q trình huấn luyện cũng khác nhau.



Ư







Sự khác biệt số lượng thuộc tính sau khi trích chọn thể hiện rõ ở mơn Hoạch định



TR



nguồn lực doanh nghiệp ERP đối với mơ hình mạng nơ-ron chỉ giữ lại 1 thuộc tính để

dự báo là học phần Tin học đại cương, tuy nhiên đối với mơ hình cây quyết định thì lại

giữ lại tồn bộ các thuộc tính để dự báo, có thể nói tỉ lệ dự báo chính xác của hai mơ

hình sau khi tiến hành trích chọn thuộc tính sẽ có sự khác biệt nhất định. Ngược lại đối

với học phần Kiến trúc máy tính và hệ điều hành thì mơ hình cây quyết định lại loại đi

5 thuộc tính và chỉ giữ lại 3 thuộc tính để dự báo, tuy nhiên mơ hình mạng nơ ron lại

chỉ loại đi 1 thuộc tính và giữ lại 7 thuộc tính để tiến hành dự báo. Trường hợp có sự

khác biệt lớn về số lượng thuộc tính dùng để dự báo cũng xảy ra với một số học phần

khác bao gồm: Phát triển hệ thống thông tin kinh tế, Cấu trúc dữ liệu và giải thuật, Cơ



SVTH: Trương Văn Quốc Anh



51



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



sở lập trình, Lập trình ứng dụng trong quản lý. Các học phần này có thể sẽ có độ chính

xác khác biệt nhau tương đối sau khi áp dụng trích chọn thuộc tính.

Với các học phần còn lại có ít sự khác biệt thuộc tính đối với mỗi mơ hình, có

thể nói rằng độ chính xác sẽ có sự thay đổi, tuy nhiên phần trăm thay đổi sẽ ở mức

thấp hoặc thậm chí khơng thay đổi chứ khơng có sự thay đổi lớn như ở các học phần

có sự khác biệt lớn về số lượng các thuộc tính.

Huấn luyện bằng mơ hình mạng nơ ron

Bảng 2 Kết quả huấn luyện bằng mơ hình mạng nơ ron.

Trước khi trích chọn



U



thuộc tính



Mạng và truyền thơng



nghiệp ERP

Kiến trúc máy tính và hệ điều



TẾ

N

H

KI



73.81%



81.97%



31.89%



39.86%



Đ



ẠI



hành



67.38%





C



Hoạch định nguồn lực doanh



62.66%



60.08%



H



kinh tế



thuộc tính



H



62.19%



Phát triển hệ thống thơng tin



Sau khi trích chọn







Tên học phần



30.60%



30.17%



28.44%



28.49%



25.86%



22.41%



24.13%



30.17%



Hệ thống thơng tin quản lý



54.46%



54.74%



Lập trình hướng đối tượng



21.12%



30.60%



25%



28.87%



G



Tốn rời rạc



TR



Cơ sở lập trình



Ư



Cơ sở dữ liệu







N



Cấu trúc dữ liệu giải thuật



Lập trình ứng dụng trong

quản lý



Quan sát bảng 2 kết quả huấn luyện bằng mơ hình mạng nơ ron, có thể chia

thành hai nhóm kết quả, một nhóm cho ra độ chính xác trên 50% bao gồm các học

phần Mạng và truyền thông, Phát triển hệ thống thông tin kinh tế, Hoạch định nguồn

lực doanh nghiêp ERP và Hệ thống thơng tin quản lý với tỉ lệ chính xác ban đầu khi

chưa qua q trình trích chọn thuộc tính lần lượt là 62.19%, 60.08%, 73.81%, 54.46%,



SVTH: Trương Văn Quốc Anh



52



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

1 Mô tả thí nghiệm

Tải bản đầy đủ ngay(0 tr)

×