Tải bản đầy đủ - 0 (trang)
7 Giới thiệu phần mềm Weka

7 Giới thiệu phần mềm Weka

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Đây là mơi trường chính cho phép sử dụng tất cả khả năng của weka để khai phá

dữ liệu.

• Experimenter

Đây là mơi trường cho phép thực hành các thí nghiệm và thực hiện các kiểm tra

thống kê giữa các mơ hình học máy.

• KnowledgeFlow

Đây là môi trường cho phép thực hiện các bước của thí nghiệm bằng tương tác

đồ họa theo kiểu kéo thả.

• Simple CLI



U







Mơi trường Simple CLI cho phép thực hiện thí nghiệm theo giao diện đơn giản



H



kiểu dòng lệnh.



TẾ



• Workbench



N

H



Đây là sự kết hợp của các mơi trường nói trên, người sử dụng có thể tùy ý



TR



Ư







N



G



Đ



ẠI



H





C



KI



chuyển đổi mà khơng cần phải quay lại cửa sổ chính.



Hình 1 . 13 Cửa sổ chính của Weka



1.7.2 Mơi trường Explorer

Mơi trường Explorer gồm có các tab chính sau:

• Preprocess

Tab Preprocess cho phép người sử dụng có thể chọn và xử lý dữ liệu cần khai

phá.

• Classify



SVTH: Trương Văn Quốc Anh



25



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Classify cho phép người dùng lựa chọn và thiết lập thơng số cho các mơ hình

phân lớp để huấn luyện và kiểm thử dữ liệu.

• Cluster

Cho phép người dùng thao tác tương tự classify đối với các kỹ thuật phân cụm.

• Select attribute

Đây là chức năng cho phép chọn ra những thuộc tính quan trọng nhất của dữ liệu.

• Visualize



TR



Ư







N



G



Đ



ẠI



H





C



KI



N

H



TẾ



H



U







Hiển thị trực quan biểu đồ tương tác đối với dữ liệu.



Hình 1 . 14 Mơi trường Explorer



SVTH: Trương Văn Quốc Anh



26



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



CHƯƠNG 2. TỔNG QUAN KHAI PHÁ DỮ LIỆU GIÁO DỤC VÀ

ĐỀ XUẤT MƠ HÌNH NGHIÊN CỨU ĐỐI VỚI TRƯỜNG ĐẠI HỌC

KINH TẾ HUẾ

2.1 Các nghiên cứu liên quan

Các nghiên cứu trong nước

Năm 2013, tác giả Phạm Thị Như Trang đã đưa ra đề xuất nghiên cứu: “Khai phá

dữ liệu điểm để dự đoán kết quả học tập của sinh viên Cao đẳng Sư Phạm Hà Nội”.

Nhằm mục đích đưa ra được các báo cáo đa chiều và dự đoán được kết quả học tập của







sinh viên dựa trên kết quả học tập của các kỳ trước. Phương pháp được tác giả sử dụng



H



U



là nghiên cứu lý thuyết xây dựng kho dữ liệu, khai phá dữ liệu, kỹ thuật phân lớp, ứng



TẾ



dụng của khai phá với dữ liệu điểm của trường Cao đẳng Sư Phạm Hà Nội. Sử dụng



N

H



SQL Server để xây dựng kho, khai phá và đưa ra mô hình dự đốn. Với tổng số mẫu



KI



sau khi đã xử lý gồm có 1000 bản ghi về điểm tổng kết học phần và 1000 bản ghi dữ





C



liệu cá nhân sinh viên của Khoa Tự nhiên. Ban đầu dữ liệu được xuất ra từ phần mềm

quản lý đào tạo Edusoft của trường Cao đẳng Sư Phạm Hà Nội từ 2005 đến 2011, sau



ẠI



H



đó chuyển đổi font chừ từ TCVN sang Unicode. Chuyển kiểu dữ liệu vì dữ liệu điểm



Đ



xuất ra từ Edusoft đều ở dạng xâu chữ nên phải chuyển sang dạng số. Đồng bộ lại hệ



N



G



thống mã môn, tên môn học bằng cách ghép tất cả các file môn học của từng khóa, sau







đó lọc theo mã mơn. Loại bỏ dữ liệu dư thừa, đồng bộ số lượng sinh viên trong danh



TR



Ư



sách sinh viên và danh sách bảng điểm khi xuất ra. Ngồi ra đề tài còn nghiên cứu các

kỹ thuật phân lớp trong khai phá dữ liệu kết hợp giải thuật ID3 (Iterative Dichotomiser

3) do Quinlan phát triển, ứng dụng các kỹ thuật đó để xây dựng mơ hình dự báo kết

quả học tập của sinh viên bằng công cụ Business Intelligence(BI) của SQL Server

2008. Kết quả của nghiên cứu là ứng dụng thành công SQL Server 2008 để xây dựng

kho dữ liệu điểm cho trường cùng với ứng dụng công cụ BI của SQL Server trong việc

xây dựng báo cáo và các mơ hình dự đốn kết quả học tập của sinh viên. [15]

Năm 2012, Nguyễn Đăng Nhượng đã đưa ra luận văn thạc sĩ của mình có tên là:

“Khai phá dữ liệu về kết quả học tập của sinh viên trường Cao đẳng nghề Văn Lang

Hà Nội”. Mục tiêu của đề tài là áp dụng các giải thuật khai phá dữ liệu để khai thác



SVTH: Trương Văn Quốc Anh



27



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



thơng tin từ điểm học sinh của trường Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hưởng

của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của

học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của

người học. Phương pháp được tác giả áp dụng là phân cụm dựa trên nguồn dữ liệu thu

được tiến hành khai phá đưa ra các mơ hình dự đốn, cụ thể là kỹ thuật phân cụm dựa

trên mật độ và dựa trên lưới kết hợp với thuật tốn K-means từ đó đưa ra các tập luật

kết hợp. Với tổng thể mẫu đươc sử dụng là 711 sinh viên thuộc khoa Cơ khí. Dữ liệu

sau khi được thu thập sẽ được gộp vào một bảng, loại bỏ đi những trường dữ liệu

không cần thiết, những dữ liệu điểm trống sẽ được tính và điền vào bằng số điểm bình



U







qn. Cơng cụ được tác giả sử dụng là Spss. Kết quả đạt được cuối cùng là đưa ra



H



được nhận định về tình hình học tập của sinh viên, so sánh được kết quả học tập của



TẾ



sinh viên dựa vào các tiêu chí: hồn cảnh gia đình, vùng miền sinh sống, hỗ trợ việc



N

H



lập kế hoạch dạy và học phù hợp với giảng viên, sinh viên. [16]



KI



Cũng trong năm 2012, tác giả Phạm Thị Cẩm Vân cũng đưa ra đề tài thạc sĩ của





C



mình là: “Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Cao đẳng kinh tế -



H



kỹ thuật Quảng Nam”. Mục tiêu của đề tài là nghiên cứu xây dựng mơ hình khai phá



ẠI



dữ liệu dựa vào thơng tin tuyển sinh đầu vào và kết quả học tập đã thu được của sinh



G



Đ



viên. Từ đó xây dựng hệ thống dự đoán kết quả học tập, tư vấn cho sinh viên lựa chọn



N



lộ trình học đạt kết quả tối ưu, phù hợp với điều kiện và năng lực của bản thân. Đề tài



Ư







sử dụng kỹ thuật phân lớp kết hợp với mơ hình cây quyết định và luật kết hợp, cụ thể



TR



là thuật tốn Apriori. Từ đó tiến hành so sánh kết quả của các mơ hình để lựa chọn ra

mơ hình nào có độ chính xác cao nhất. Với tổng số mẫu là dữ liệu của gần 2000 sinh

viên cùng với từng ngành học, môn học tương ứng cho từng kì cụ thể của mỗi sinh

viên. Dữ liệu nguồn được chia thành 2 phần với tỷ lệ là training data 70% và testing

data 30%, dữ liệu sau khi được thu thập sẽ được gộp vào một bảng, loại bỏ đi những

trường dữ liệu không cần thiết. Tác giả sử dụng công cụ hỗ trợ khai phá Business

Inteligence Development Studio 2008 R2 và tiến hành xây dựng chương trình demo

dựa trên ngôn ngữ C# và tổ chức dữ liệu trên hệ quản trị cơ sở dữ liệu SQL Server

2008 R2. Kết quả mà đề tài đạt được là với nguồn dữ liệu ban đầu mơ hình cho phép

phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên, mức độ tác động của



SVTH: Trương Văn Quốc Anh



28



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

7 Giới thiệu phần mềm Weka

Tải bản đầy đủ ngay(0 tr)

×