Tải bản đầy đủ - 0 (trang)
1 Các nghiên cứu liên quan

1 Các nghiên cứu liên quan

Tải bản đầy đủ - 0trang

Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



thơng tin từ điểm học sinh của trường Cao đẳng nghề Văn Lang Hà Nội. Sự ảnh hưởng

của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức… đến kết quả học tập của

học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của

người học. Phương pháp được tác giả áp dụng là phân cụm dựa trên nguồn dữ liệu thu

được tiến hành khai phá đưa ra các mơ hình dự đốn, cụ thể là kỹ thuật phân cụm dựa

trên mật độ và dựa trên lưới kết hợp với thuật tốn K-means từ đó đưa ra các tập luật

kết hợp. Với tổng thể mẫu đươc sử dụng là 711 sinh viên thuộc khoa Cơ khí. Dữ liệu

sau khi được thu thập sẽ được gộp vào một bảng, loại bỏ đi những trường dữ liệu

không cần thiết, những dữ liệu điểm trống sẽ được tính và điền vào bằng số điểm bình



U







qn. Cơng cụ được tác giả sử dụng là Spss. Kết quả đạt được cuối cùng là đưa ra



H



được nhận định về tình hình học tập của sinh viên, so sánh được kết quả học tập của



TẾ



sinh viên dựa vào các tiêu chí: hồn cảnh gia đình, vùng miền sinh sống, hỗ trợ việc



N

H



lập kế hoạch dạy và học phù hợp với giảng viên, sinh viên. [16]



KI



Cũng trong năm 2012, tác giả Phạm Thị Cẩm Vân cũng đưa ra đề tài thạc sĩ của





C



mình là: “Ứng dụng khai phá dữ liệu để tư vấn học tập tại trường Cao đẳng kinh tế -



H



kỹ thuật Quảng Nam”. Mục tiêu của đề tài là nghiên cứu xây dựng mơ hình khai phá



ẠI



dữ liệu dựa vào thơng tin tuyển sinh đầu vào và kết quả học tập đã thu được của sinh



G



Đ



viên. Từ đó xây dựng hệ thống dự đoán kết quả học tập, tư vấn cho sinh viên lựa chọn



N



lộ trình học đạt kết quả tối ưu, phù hợp với điều kiện và năng lực của bản thân. Đề tài



Ư







sử dụng kỹ thuật phân lớp kết hợp với mơ hình cây quyết định và luật kết hợp, cụ thể



TR



là thuật tốn Apriori. Từ đó tiến hành so sánh kết quả của các mơ hình để lựa chọn ra

mơ hình nào có độ chính xác cao nhất. Với tổng số mẫu là dữ liệu của gần 2000 sinh

viên cùng với từng ngành học, môn học tương ứng cho từng kì cụ thể của mỗi sinh

viên. Dữ liệu nguồn được chia thành 2 phần với tỷ lệ là training data 70% và testing

data 30%, dữ liệu sau khi được thu thập sẽ được gộp vào một bảng, loại bỏ đi những

trường dữ liệu không cần thiết. Tác giả sử dụng công cụ hỗ trợ khai phá Business

Inteligence Development Studio 2008 R2 và tiến hành xây dựng chương trình demo

dựa trên ngôn ngữ C# và tổ chức dữ liệu trên hệ quản trị cơ sở dữ liệu SQL Server

2008 R2. Kết quả mà đề tài đạt được là với nguồn dữ liệu ban đầu mơ hình cho phép

phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên, mức độ tác động của



SVTH: Trương Văn Quốc Anh



28



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



từng yếu tố đầu vào. Ngồi ra còn truy vấn được lộ trình học thơng qua dữ liệu ban

đầu, từ đó dự đốn được kết quả học tập cuối khóa thơng qua kết hợp thơng tin đầu

vào và lộ trình học. Tuy nhiên tác giả cũng đưa ra hạn chế của đề tài là do khó khăn

trong việc tiếp cận và xử lý dữ liệu nên hệ thống cho ra kết quả chưa thực sự chính

xác. [17]

Tác giả Phan Văn Dương vào năm 2012 cũng đưa ra đề xuất nghiên cứu: “Khai

phá dữ liệu và ứng dụng trong tư vấn tuyển sinh Trường Cao đẳng nghề Trung bộ” với

mục đích là tìm hiểu các kỹ thuật khai phá dữ liệu, ứng dụng các kỹ thuật khai phá dữ

liệu trong phân tích số liệu tuyển sinh, nhằm phát hiện ra các đặc điểm chung của học



U







sinh, sinh viên trong việc lựa chọn trường - ngành nghề học tập, hỗ trợ Ban Tuyển



H



Sinh có những nhận định và đề ra những biện pháp phù hợp. Tác giả tiến hành tìm



TẾ



hiểu và lựa chọn phương pháp khai phá dữ liệu thích hợp. Thu thập thống kê số liệu từ



N

H



nguồn dữ liệu công tác tuyển sinh, tiến hành khai phá đưa ra các mơ hình dự đốn. Dữ



KI



liệu nguồn cho việc khai phá để tìm ra thơng tin có ích phục vụ cơng tác tư vấn tuyển





C



sinh được thu thập từ nhiều nguồn dữ liệu khác nhau. Dữ liệu sẽ được tập hợp từ các



H



hồ sơ, học bạ của học sinh nộp vào trường, các ngành học, mơn học… Dữ liệu sau khi



ẠI



khảo sát và phân tích hiện trạng sẽ trải qua quá trình tiền xử lý. Dữ liệu sẽ được tổ



G



Đ



chức lưu trữ dưới dạng bảng tính excel theo một cấu trúc nhất định. Sau đó sẽ được



N



tiến hành khai phá bằng bằng luật kết hợp (Apriori) và kỹ thuật phân lớp cây quyết



Ư







định. Từ đó rút ra các luật dự đoán việc chọn nghề của học sinh sinh viên, hỗ trợ công



TR



tác tư vấn tuyển sinh. [18]

Năm 2014, tác giả Nguyễn Đặng Thế Vinh đã trình bày đề tài nghiên cứu của

mình có nội dụng là: “Ứng dụng khai phá dữ liệu chọn ngành nghề cho học sinh

THPT”. Với mục tiêu là xây dựng ứng dụng hỗ trợ học sinh các trường THPT có

những lựa chọn về ngành học phù hợp với bản thân và hỗ trợ các cán bộ chuyên trách

tuyển sinh của trường THPT nhận định và đề ra biện pháp phù hợp nhằm tư vấn thêm

cho học sinh trong việc lựa chọn ngành học. Phương pháp được tác giả sử dụng là thu

thập thống kê số liệu từ phiếu khảo sát sinh viên (trực tiếp, giấy, website) trên tổng

cộng 11 ngành học, phân tích nghiên cứu tài liệu, tham khảo ý kiến chuyên gia liên

quan đến công tác hướng nghiệp cho học sinh để có kinh nghiệm từ thực tiễn, tiến



SVTH: Trương Văn Quốc Anh



29



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



hành khai phá đưa ra các mơ hình dự đốn. Với số phiếu khao sát ban đầu là 4000

phiếu, số phiếu thu được là 2397 phiếu, sau khi trải qua quá trình tiền xử lý thì còn lại

1536 phiếu. Đề tài sử dụng sử dụng kỹ thuật phân lớp trong khai phá dữ liệu bằng mơ

hình cây quyết định và giải thuật ID3 cho độ chính xác khá cao với thời gian chạy

chấp nhận được. Thuật toán được xây dựng trên nền tảng website thuận lợi cho người

dùng sử dụng ở bất cứ đâu có kết nối Internet. Chương trình ứng dụng xây dựng trên

nền tảng Website, sử dụng ngôn ngữ lập trình C#.net 2010. Cơ sở dữ liệu được thiết kế

trên SQL Server 2008 R2. Nghiên cứu đã áp dụng tối ưu thuật toán ID3 hỗ trợ xây

dựng kết quả tối ưu, phù hợp tập dữ liệu khổng lồ, dữ liệu trả về được sử dụng tối đa,



U







từ đó những nhà tư vấn chỉ việc sử dụng kết quả đó cho cơng việc của mình: tư vấn



H



cho học sinh chọn ngành học phù hợp với khả năng của bản thân. Tuy nhiên nghiên



TẾ



cứu cũng có hạn chế là chỉ mới tập trung nghiên cứu 11 ngành học, dữ liệu thu được



N

H



chưa bao quát hết tất cả ngành học, chưa có phương pháp tối ưu dữ liệu khi thực hiện



KI



trên dữ liệu lớn. [19]





C



Năm 2014, tạp chí Khoa học Trường Đại học Cần Thơ đã giới thiệu đề tài nghiên



H



cứu: “Phát hiện môn học ảnh hưởng quan trọng đến kết quả học tập của sinh viên” do



ẠI



nhóm tác giả Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Minh Trung và Trịnh



G



Đ



Trung Hưng cùng thực hiện. Mục tiêu mà đề tài hướng đến là sử dụng khai phá dữ liệu



N



để dự đoán và đề xuất các mơn học quan trọng có ảnh hưởng lớn đến kết quả học tập



Ư







của sinh viên, từ đó nhà quản lý có chiến lược đúng đắn cải tiến chất lượng giảng dạy



TR



cho các nhóm mơn học quan trọng, giáo viên cố vấn tư vấn học tập kịp thời cho sinh

viên, nâng cao chất lượng hiệu quả đầu ra cho sinh viên. Đề tài sử dụng kỹ thuật phân

lớp với mơ hình cây quyết định để nghiên cứu cùng với gói chương trình rừng ngẫu

nhiên randomForest được cung cấp sẵn trong môi trường ngôn ngữ R (Ihaka &

Gentleman, 1996). Dữ liệu thu thập bao gồm kết quả học tập của sinh viên ngành

Công nghệ thông tin của trường Đại học Cần Thơ từ năm 1994 đến 2003. Dữ liệu thu

được sẽ được chuyển về một bảng duy nhất, mỗi cột biểu diễn tên của một mơn học,

mỗi dòng biểu diễn kết quả tồn khóa của mỗi sinh viên. Kết quả mà đề tài đạt được là

rút ra được các môn học quan trọng ảnh hưởng đến kết quả, xếp loại tốt nghiệp của



SVTH: Trương Văn Quốc Anh



30



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



sinh viên, cung cấp thông tin hữu ích cho các nhà quản lý giáo dục, giảng viên, sinh

viên trong việc tổ chức giảng dạy, học tập để nâng cao hiệu quả đào tạo. [20]

Tác giả Phạm Duy An vào năm 2012 đã đưa ra nghiên cứu của mình là “Phương

pháp Khai phá dữ liệu bằng cây quyết định và ứng dụng của nó trong đào tạo”. Nhiệm

vụ của đề tài là xây dựng một hệ thống tư vấn môn học cho sinh viên nhằm trợ giúp

sinh viên định hướng trong việc lựa chọn môn học, chuyên ngành học phù hợp dựa

trên nguồn dữ liệu có sẵn. Đề tài đi vào nghiên cứu lý thuyết lập trình ASP.NET, SQL

Server để xây dựng kho dữ liệu và công cụ dự báo, định hướng cho sinh viên. Dữ liệu

được sử dụng trong nghiên cứu được lấy từ Trường Đại học Phương Đông, bao gồm



U







các dữ liệu của gần 2500 sinh viên: thông tin điểm các môn học, điểm tổng kết các kỳ,



H



sau đó sẽ được loại bỏ đi các trường dư thừa, đồng bộ các mơn. Chương trình được



TẾ



viết trên giao diện web, sử dụng ngơn ngữ lập trình ASP.NET, dữ liệu sẽ được thực thi



N

H



trên môi trường Weka bằng kỹ thuật phân lớp, cụ thể là mơ hình cây quyết định, các



KI



luật được sinh ra sẽ được đưa vào cơ sở dữ liệu SQL Server của Website. Kết quả đề





C



tài đạt được là xây dựng hoàn chỉnh một ứng dụng cho phép người sử dụng cập nhật



H



điểm, từ đó yêu cầu hệ thống sinh ra các tập luật dự đoán hướng chuyên ngành phù



ẠI



hợp. [21]



G



Đ



Tại Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 8 tại Đà Nẵng, sinh viên



N



Nguyễn Thị Thanh Thủy đã giới thiệu đề tài nghiên cứu của mình là “Ứng dụng khai



Ư







phá dữ liệu xây dựng cơng cụ dự đốn kết quả học tập của sinh viên”, với mục tiêu là



TR



xây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên để tư vấn cho sinh

viên chọn lộ trình học phù hợp để đạt được kết quả học tập cao nhất. Đề tài sử dụng

các kỹ thuật khai phá dữ liệu là cây quyết định, luật kết hợp và Naïve Bayes, sau đó

tiến hành so sánh kết quả của các kỹ thuật để lựa chọn kỹ thuật cho kết quả chính xác

nhất. Từ đó, xây dựng chương trình dự báo kết quả học tập cho mỗi sinh viên để tư

vấn cho sinh viên chọn lộ trình học phù hợp nhất để đạt được kết quả học tập cao nhất.

Nguồn dữ liệu mà tác giả thu thập được bao gồm thông tin cá nhân và tuyển sinh của

hơn 2000 sinh viên và được tổ chức thành một bảng tương ứng với hơn 2000 bản ghi,

cùng với đó là 13 ngành học và 330 môn học của tất cả các ngành, cũng như gần 7000

bản ghi chứa thông tin kết quả học phần của số sinh viên đó. Để xây dựng ứng dụng



SVTH: Trương Văn Quốc Anh



31



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



với các chức năng đã nêu, tác giả đã tiến hành nghiên cứu và sử dụng thư viện API do

Microsoft cung cấp cùng với ngôn ngữ truy vấn khai phá dữ liệu DMX – Data Mining

Extensions. Ngồi ra còn có Microsoft SQL Server 2008 R2 Analysis Services và các

cơng cụ liên quan. Đề tài phân tích được các yếu tố ảnh hưởng đến kết quả học tập của

sinh viên, từ đó dự báo được kết quả học tập cuối khóa, cuối cùng là xây dựng được

chương trình demo hiển thị các mơ hình đã xây dựng đến người dùng cuối. [22]

Tác giả Nguyễn Thái Nghe đã đề xuất đề tài “Ứng dụng các kỹ thuật trong khai

phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập” với mục đích là dự đốn kết quả học

tập ở một học kỳ nào đó dựa trên các thơng tin nhân khẩu học (độ tuổi, giới tính, trình



U







độ anh văn, ...) và kết quả học tập của học kỳ trước đó nhằm giúp cho sinh viên có thể



H



tự đánh giá được năng lực của mình để có kế hoạch học tập cho phù hợp và đồng thời



TẾ



cũng giúp cho các giáo viên cố vấn học tập “cảnh báo” sớm đến các sinh viên có thể



N

H



có kết quả thấp. Tác giả sử dụng 2 phương pháp tiếp cận cá nhân hóa (phân lớp mơ



KI



hình) và khơng cá nhân hóa (phân rã ma trận thiên vị) để giải quyết vấn đề. Dữ liệu đã





C



được tác giả thu thập được từ hệ thống thực tế trường Đại học Cần Thơ bao gồm 4017



H



sinh viên và 353 môn học thuộc khoa Công nghệ thông tin, dữ liệu sau khi thu thập



ẠI



được tác giả tiền xử lý bằng cách lọai bỏ các giá trị dư thừa và thiếu. Đề tài sử dụng



G



Đ



công cụ mã nguồn mở WEKA và cụ thể là độ đo Information Gain Attribute



N



Evaluation để lựa chọn ra các thuộc tính, từ đó xếp hạng chúng theo thứ tự giảm dần



Ư







và loại bỏ các thuộc tính mà độ lợi thơng tin của chúng q ít. Sau đó tiến hành khai



TR



phá bằng cơng cụ WEKA với 2 mơ hình là cây quyết định và Nạve Bayes. Kết hợp sử

dụng kỹ thuật phân rã ma trận thiên vị để dự đoán. Nghiên cứu đã xây dựng được

chương trình demo hồn chỉnh với dữ liệu khá đầy đủ, được chuẩn hóa cho ra kết quả

dự báo khá chính xác. Đề tài nghiên cứu thực tiễn, có triển vọng để phát triển trong

tương lai. [23]

Các nghiên cứu trên thế giới

Getaneh Berie Tarekegn và tiến sĩ Vuda Sreenivasarao đã xây dựng đề tài “Áp

dụng các kỹ thuật khai phá dữ liệu để dự đoán, tư vấn sinh viên chọn Khoa” với nội

dung nghiên cứu là thu thập nguồn dữ liệu kết quả thi đại học của thí sinh, sau đó áp

dụng các kỹ thuật phân lớp của cơng cụ Weka để dự đoán, tư vấn cho họ chọn Khoa để



SVTH: Trương Văn Quốc Anh



32



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



học. Nguồn dữ liệu được sử dụng để thực hiện nghiên cứu này được lấy từ văn phòng

đăng ký hỗ trợ của Đại học Gondar. Tập dữ liệu chứa khoảng 1496 trường hợp của

sinh viên chọn Khoa. Nguồn dữ liệu thu được từ văn phòng trợ lý đăng ký được ghi lại

trên MS Excel. Số liệu của các khoa được lựa chọn cho nghiên cứu này là Khoa Khoa

học tự nhiên, Khoa Nông nghiệp và Khoa Kỹ thuật. Dữ liệu sau khi thu thập sẽ được

làm sạch, chuẩn hóa đề phù hợp với công cụ khai phá dữ liệu. Việc này bao gồm việc

lựa chọn thuộc tính, xác định các lớp mục tiêu (các thuộc tính để phân loại), xử lý dữ

liệu bị mất và chuẩn bị các dữ liệu được xử lý trong một tệp có thể chấp nhận được đối

với phần mềm Weka. Nghiên cứu sử dụng ba thuật tốn J48, Nạve Bayes và Random



U







Forest để xây dựng một mơ hình dự đốn cho việc xếp lớp, chọn Khoa cho sinh viên.



H



Kết quả của nghiên cứu là chọn ra được mơ hình có độ chính xác cao nhất, từ đó xây



TẾ



dựng chương trình hỗ trợ sinh viên chọn Khoa và ngành học phù hợp. [24]



N

H



Tháng 6 năm 2016, nhóm tác giả gồm R.Sumitha và E.S Vinothkumar đã đề xuất



KI



nghiên cứu “Dự đoán kết quả học tập của sinh viên sử dụng các kỹ thuật khai phá dữ





C



liệu”. Mục tiêu chính của nghiên cứu này là cung cấp tổng quan về kỹ thuật khai phá



H



dữ liệu đã được sử dụng để dự đoán hiệu quả học tập của sinh viên. Nghiên cứu này



ẠI



cũng tập trung vào cách thuật tốn dự đốn có thể được sử dụng để xác định các thuộc



G



Đ



tính quan trọng nhất trong dữ liệu sinh viên. Cho phép cải thiện thành tích và kết quả



N



của sinh viên một cách hiệu quả hơn bằng cách sử dụng các kỹ thuật khai phá dữ liệu



Ư







vào giáo dục, hỗ trợ tích cực cho việc dạy và học đối với sinh viên, giáo dục và nhà



TR



trường. Tác giả đi sâu nghiên cứu và xác định các biến được sử dụng để phân tích hiệu

quả học sinh. Tổng số mẫu đươc sử dụng trong báo cáo này là dữ liệu của 350 sinh

viên thuộc đại học Công nghệ thông tin (liên kết với Đại học Anna). Những dữ liệu

này được ghi lại trong các bảng tính excel để phân tích. Dữ liệu thu thập được sẽ được

lựa chọn thuộc tính, chuyển đổi định dạng, chuyển đổi tập tin và thực hiện khai phá

bằng WEKA, số dữ liệu sau khi được xử lý là khoảng 300 sinh viên. Trong đó 250 sẽ

được chọn làm dữ liệu huấn luyện và 50 sẽ làm dữ liệu kiểm thử với hai mơ hình huấn

luyện chính là cây quyết định và Nạve Bayes. Nghiên cứu đã xây dựng demo hoàn

chỉnh cho phép người dùng thao tác và đưa ra dự đoán kết quả học tập đầu ra của sinh

viên từ đó đưa ra tư vấn đúng đắn kịp thời cho sinh viên, cải thiện chất lượng giáo dục.



SVTH: Trương Văn Quốc Anh



33



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Tuy nhiên vì số lượng dữ liệu có hạn nên dẫn đến tình trạng tỉ lệ chính xác khi áp dụng

trong thực tế chưa cao. [25]

Tháng 4 năm 2015, đề tài nghiên cứu “Áp dụng các kỹ thuật khai phá dữ liệu cho

dự đoán kết quả học tập của sinh viên” của tác giả Muluken Alemu Yehuala được trình

bày trong tư liệu tham khảo khoa học và cơng nghệ quốc tế. Nghiên cứu này nhằm

mục đích chứng minh các yếu tố khác nhau ảnh hưởng như thế nào đến kết quả học tập

của sinh viên và tỷ lệ sinh viên có điểm kém liên quan đến các biến số khác trong dữ

liệu của sinh viên bằng cách áp dụng kỹ thuật khai phá dữ liệu. Phương pháp được tác

giả sử dụng là phân lớp dựa trên nguồn dữ liệu thu được, tiến hành khai phá và so sánh



U







kết quả của các mơ hình, chọn ra mơ hình nào có độ chính xác cao hơn. Dữ liệu thu



H



thập từ các tệp MS_EXCEL và đã được xử lý trước để xây dựng mơ hình. Các mơ



TẾ



hình được xây dựng và thử nghiệm bằng cách sử dụng một số liệu mẫu của 11.873



N

H



sinh viên đại học chính quy với hai mơ hình chính là cây quyết định và Nạve Bayes,



KI



sau đó tiến hành so sánh kết quả bằng đường ROC của chúng. Nghiên cứu đã chỉ ra





C



được mơ hình nào cho ra độ chính xác cao hơn, từ đó áp dụng mơ hình được chọn để



H



đưa ra tư vấn hỗ trợ sinh viên khi họ có nguy cơ có kết quả học tập khơng tốt để có



ẠI



hướng điều chỉnh lộ trình học tập. Cùng với phân bổ hiệu quả nguồn lực, giảm thiểu



G



Đ



chi phí, giúp đỡ, hướng dẫn cán bộ hành chính trong việc quản lý và đưa ra quyết định



N



đào tạo (số lượng sinh viên trong 1 lớp, số môn học trong 1 kỳ). Bên cạnh các kết quả



Ư







đạt được đề tài cũng có một số hạn chế là số lượng kịch bản (kết quả đầu ra) tương đối



TR



ít chưa phản ánh được toàn diện, cùng với các kĩ thuật khai phá dữ liệu chưa được sử

dụng nhiều có thể bỏ sót các yếu tố ảnh hưởng đến kết quả học tập. [26]

Trong biên bản của hội nghị đa quốc gia về kỹ sư và nhà khoa học máy tính 2013

có trình bày một nghiên cứu có đề tài là “Nghiên cứu các nhân tố ảnh hưởng đến kết

quả học tập của sinh viên” được nghiên cứu bởi tác giả Pimpa Cheewaprakobkit. Mục

tiêu của nghiên cứu này là để phân tích các yếu tố ảnh hưởng đến thành tích học tập

đóng góp vào việc dự đốn thành tích học tập của sinh viên. Với mục đích cuối cùng là

hỗ trợ và tư vấn học tập cho sinh viên kịp thời. Trong nghiên cứu này, nhà nghiên cứu

đã sử dụng công cụ khai phá dữ liệu mã nguồn mở WEKA để phân tích các thuộc tính

để dự đốn kết quả học tập của sinh viên đại học. Dữ liệu sử dụng bao gồm 1.600 hồ



SVTH: Trương Văn Quốc Anh



34



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



sơ sinh viên với 22 thuộc tính của sinh viên đăng ký giữa năm 2001 và năm 2011 tại

một trường đại học ở Thái Lan, sau khi thu thập dữ liệu sẽ được chuẩn hóa, phân tích

các thuộc tính quan trọng. Nhà nghiên cứu đã áp dụng kỹ thuật phân lớp để tiến hành,

cụ thể là với 2 mơ hình Cây quyết định và mạng Nơ-ron kết hợp thuật toán C4.5 của

cây quyết định. Dữ liệu sẽ được tiến hành khai phá với mỗi mô hình, sau đó tiến hành

so sánh, chỉ ra kết quả của mỗi mơ hình. Kết quả mà nghiên cứu đạt được là chỉ ra tính

chính xác vượt trội của mơ hình cây quyết định, cũng như dựa vào mơ hình để đưa ra

các nhân tố quan trọng ảnh hưởng đến kết quả học tập của sinh viên, từ đó có hướng

điều chỉnh phù hợp. Mặc dù đã chỉ ra được các yếu tố quan trọng ảnh hưởng đến kết



U







quả học tập của sinh viên nhưng nghiên cứu cũng nhận ra rằng kết quả học tập của



H



sinh viên không chỉ bị ảnh hưởng bởi các yếu tố đó mà còn có các yếu tố khác nữa. Vì



TẾ



vây để có kết luận đúng đắn cần có sự xem xét, cân nhắc từ con người. [27]



N

H



Nhóm tác giả Ying Zhang và Samia Oussena thuộc đại học Thames Valley, Anh



KI



cũng đưa ra đề tài nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục có tên là “Sử





C



dụng khai phá dữ liệu để cải thiện thành tích học tập của sinh viên”. Mục tiêu của đề



H



tài là xác định các vấn đề tiềm ẩn trong học tập càng sớm càng tốt và để theo dõi và tư



ẠI



vấn học tập cho sinh viên, thảo luận cách khai phá dữ liệu để có thể giúp xác định



G



Đ



được rủi ro trong học tập của sinh viên, đánh giá sự phù hợp của khóa học tăng tỷ lệ



N



sinh viên có kết quả học tập cao. Đề tài sử dụng phương pháp phân lớp dựa trên nguồn



Ư







dữ liệu thu được tiến hành khai phá bằng 3 mô hình Nạve Bayes, Support Vector



TR



Machine và cây quyết định, so sánh kết quả kết luận mơ hình nào có độ chính xác cao

nhất. Cơng cụ được đề xuất sử dụng là Weka với cơ sở dữ liệu thu thập được gồm có

4223 hồ sơ sinh viên của một trường đại học được lưu trữ bởi công cụ Oracle. Kết quả

của nghiên cứu là tác giả đã xây dựng được mô hình dự báo kết quả học tập kịp thời

cùng với cơ chế tự động thông báo cho cố vấn học tập kết quả học tập bằng file PDF

của sinh viên định kì. [28]

Trong tạp chí Khoa học và kĩ thuật quốc tế, tháng 11 năm 2012 có đề cập đến

nghiên cứu “Dự đoán kết quả học tập của sinh viên bằng phương pháp tiên đốn” được

nghiên cứu bởi nhóm tác giả Vaneet Kumar và Tiến sĩ Vinod Sharma. Nghiên cứu sử

dụng các cơng cụ dự đốn của khai phá dữ liệu để phân tích, dự đốn kết quả học tập



SVTH: Trương Văn Quốc Anh



35



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



của sinh viên, giảm tỷ lệ sinh viên bỏ học, phân bổ nguồn lực hợp lý và đưa ra các

chiến lược đào tạo đúng đắn. Tập dữ liệu được sử dụng trong nghiên cứu này đã được

thu thập từ các sinh viên ở các trường đại học và cao đẳng khác nhau tại Anh Quốc.

Một bảng câu hỏi đã được chuẩn bị có chứa rất nhiều câu hỏi trắc nghiệm. Những câu

hỏi này sau đó được phân phát cho các sinh viên. Tổng số 280 bảng câu hỏi được phân

phát, trong đó 250 đã được thu hồi. Dữ liệu sau đó sẽ được xử lý và tiến hành huấn

luyện bằng dữ liệu huấn luyện và sau đó sẽ được kiểm thử bằng dữ liệu kiểm thử đối

với mỗi mơ hình. Mỗi kết quả của quá trình huấn luyện sẽ được lưu lại và so sánh với

thực tế để đánh giá độ chính xác của mơ hình. Tác giả sử dụng công cụ GUI



U







MATLAB để thiết kế giao diện, mỗi bản ghi của quá trình huấn luyện sẽ được đưa vào



H



GUI. Kết quả đạt được cuối cùng của nghiên cứu là xây dựng hồn chỉnh chương trình



TẾ



demo, chỉ ra được các yếu tố ảnh hưởng đến thành tích học tập của sinh viên. Các kết



N

H



quả thí nghiệm còn cho thấy rằng mơ hình có thể thực hiện dự đốn tốt ít lỗi và đi đến



KI



đưa ra kết luận cuối cùng. Tuy nhiên, vì lượng mẫu khá hạn chế nên nghiên cứu chưa





C



bao qt hết, có thể dẫn đến tình trạng dự báo chưa chính xác ở một số trường hợp.



H



[29]



ẠI



Tác giả Amjad Abu Saa thuộc khoa Công nghệ thông tin trường Đại học Khoa



G



Đ



học và Công nghệ Ajman cũng đề xuất báo cáo của mình có tên là “Khai phá dữ liệu



N



giáo dục và dự đoán kết quả học tập của sinh viên”. Báo cáo này đi sâu phân tích nhiều



Ư







yếu tố lý thuyết giả định ảnh hưởng đến sự thay đổi kết quả của sinh viên trong giáo



TR



dục đại học và tìm ra một mơ hình phân lớp tốt nhất, dự đoán kết quả của học sinh dựa

trên các yếu tố cá nhân và xã hội liên quan. Báo cáo sử dụng nhiều mơ hình phân lớp

để tiến hành khai phá, cuối cùng chọn ra mơ hình nào cho ra được kết quả tốt nhất, có

độ chính xác cao nhất. Bộ dữ liệu được sử dụng trong báo cáo này được thu thập thông

qua một cuộc khảo sát sinh viên khác nhau trong một lớp học và một cuộc khảo sát

trực tuyến sử dụng Google Forms, dữ liệu được thu thập ẩn danh và khơng mang tính

ép buộc. Kích thước của bộ dữ liệu là 270 bản ghi chưa nhiều trường thuộc tính khác

nhau. Sau q trình tiền xử lý, dữ liệu sẽ được đưa vào công cụ khai phá Weka và tiến

hành khai phá bằng kỹ thuật phân lớp với mơ hình cây quyết đinh, thuật tốn ID3,

C4.5, Nạve Bayes và luật kết hợp đưa ra các quyết định hỗ trợ nâng cao chất lượng



SVTH: Trương Văn Quốc Anh



36



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



học tập cho sinh viên. Sau khi tiến hành khai phá bằng các mô hình, báo cáo chỉ ra

rằng thành tích học tập của sinh viên không chỉ phụ thuộc vào nổ lực của bản thân mà

còn chịu sự chi phối của các yếu tố khác, ngồi ra cũng góp phần thúc đẩy việc áp

dụng khai phá dữ liệu vào lĩnh vực giáo dục. [30]



2.2 Mơ tả bài tốn

Hiện nay, hầu hết các trường đại học, cao đẳng trên cả nước đã chuyển sang cơ

chế đào tạo theo hình thức tín chỉ và trường Đại học Kinh tế trực thuộc Đại học Huế

cũng không nằm ngồi xu thế đó. Trường Đại học Kinh tế Huế được thành lập năm

1969 với 6 Khoa và 19-21 chuyên ngành đào tạo. Với hình thức đào tạo theo cơ chế tín



U







chỉ sinh viên có thể chủ động lựa chọn lộ trình học phù hợp với bản thân nhất. Tuy



H



nhiên, hình thức đào tạo này cũng gây khơng ít khó khăn cho sinh viên mới vào



TẾ



trường, chưa quen với hình thức đào tạo này dẫn đến kết quả học tập của sinh viên



N

H



không cao. Cộng với số lượng tuyển sinh hằng năm của trường khá lớn với gần 1700



KI



sinh viên mỗi năm sẽ tạo ra khơng ít khó khăn đối với cố vấn học tập, với số lượng 50





C



đến 70 sinh viên mỗi lớp thì cố vấn học tập khơng có đủ thời gian để đưa ra những tư



TR



Ư







N



G



Đ



ẠI



H



vấn kịp thời để cải thiện kết quả học tập cho mỗi sinh viên.



SVTH: Trương Văn Quốc Anh



37



Khóa luận tốt nghiệp



GVHD: Th.S Mai Thu Giang



Đ



ẠI



H





C



KI



N

H



TẾ



H



U







Hình 2 . 1 Trường Đại học Kinh tế Huế



G



Để có thể hỗ trợ cố vấn học tập đưa ra những tư vấn kịp thời đến sinh viên thì đề







N



tài đề xuất áp dụng kĩ thuật khai phá dữ liệu đối với cơ sở dữ liệu điểm của sinh viên



TR



Ư



chuyên ngành Tin học Kinh tế. Cụ thể đề tài sẽ sử dụng cơ sở dữ liệu điểm các môn

đại cương của sinh viên Khoa Hệ thống Thông tin Kinh tế từ khóa K43 đến K47

chuyên ngành Tin học Kinh tế để dự báo điểm của các môn chun ngành với mơ hình

phân lớp mạng nơ ron và cây quyết định. Từ đó xây dựng các mơ hình dự báo cho

phép dự báo kết quả học tập của sinh viên đối với từng môn chuyên ngành, hỗ trợ cố

vấn học tập đưa ra tư vấn kịp thời đến mỗi sinh viên, giúp sinh viên thay đổi phương

pháp học tập để có kết quả cao hơn. Bên cạnh đó cũng giúp cho giảng viên bộ môn

chú ý hơn tới những sinh viên được dự báo là có kết quả học tập khơng cao, từ đó có

phương pháp dạy học phù hợp đối với những sinh viên này.



SVTH: Trương Văn Quốc Anh



38



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

1 Các nghiên cứu liên quan

Tải bản đầy đủ ngay(0 tr)

×