Tải bản đầy đủ
Tổng kết chương 3

Tổng kết chương 3

Tải bản đầy đủ

con người chúng ta phải xử lý một khối lượng thông tin, dữ liệu khổng lồ,
điều này có nghĩa là chúng ta đã gặp phải những rắc rối không mong muốn
trong thời đại công nghệ số này. Vì vậy, bài toán tìm kiếm tài liệu Web và
phân cụm tài liệu là một bài toán phức tạp và được ứng dụng trong thực tế,
đặc biệt trong các ứng dụng Web. Trên cơ sở những dữ liệu thu thập được từ
internet thì chúng ta cần phải tiến hành phân loại, nhóm phân cụm thành các
cụm khác nhau theo các chủ đề khác nhau từ đó phục vụ cho việc phân tích dữ
liệu và dự báo kinh tế [1].
Các vấn đề đã được tìm hiểu trong luận văn
Luận văn tìm hiểu sáu phương pháp phân cụm dữ liệu: Phân cụm phân
hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới,
phân cụm dựa trên mô hình và phân cụm dữ liệu mờ và các thuật toán đặc
trưng cho các phương pháp phân cụm dữ liệu.
Bên cạnh đó vấn đề chính luận văn đề cập đến là phân cụm dữ liệu Web,
một lĩnh vực được quan tâm nhiều trong thời đại công nghệ số này. Hiện nay,
có nhiều phương pháp tìm kiếm khác nhau, nhưng nhìn chung là các cách tiếp
cận đều dựa vào các trọng số trang Web (Chỉ số quan trọng của trang trong tập
kết quả), như: Page Bank, HITS...Tức là các trang này chủ yếu là dựa vào các
liên kết để xác định trọng số [15].
Mặt khác, chúng ta có thể dựa vào nội dung các tài liệu để xác định trọng
số, và từ đó tiến hành phân cụm các tài liệu Web để phục vụ người sử dụng
được hiệu quả hơn.
Trong khuôn khổ của luận văn tác giả dành thời gian tìm hiểu phương
pháp phân cụm phân hoạch, trong đó nhấn mạnh đến kỹ thuật phân cụm Kmeans, sử dụng để cài đặt thực nghiệm bài toán phân cụm tài liệu Web. Đề
xuất ra giải pháp xây dựng phần mềm sử dụng thuật toán K-means phân cụm
tài liệu Web.

Hướng nghiên cứu tiếp theo
Tiếp tục nghiên cứu các kỹ thuật phân cụm dữ liệu, trong đó nhấn mạnh
đến kỹ thuật phân cụm K-Means mở rộng, thời gian tuyến tính đáp ứng được
các yêu cầu của bài toán phân cụm tài liệu Web.
Đề xuất ra giải pháp xây dựng quy trình công nghệ và phát triển hệ thống
phần mềm thu thập, đánh giá và phân cụm thông tin tự động trên Internet
đáp ứng được yêu cầu phục vụ cho việc nghiên cứu, học tập và giảng dạy
trong thời đại công nghệ số hiện nay.

TÀI LIỆU THAM KHẢO
[1] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh
Hà, Nguyễn Thanh Dương (2009), "Tìm kiếm và phân cụm tài liệu Web tự
động", Tập 56, số 8, 2009 - Tạp chí khoa học và công nghệ, Đại học Thái
Nguyên, tr. 60 - 64.
[2] Phạm Việt Bình, Nguyễn Văn Huân, Vũ Xuân Nam, Trương Mạnh
Hà (2009), "Cải tiến thuật toán K-Means và ứng dụng phân cụm dữ liệu tự
động", Báo cáo Hội thảo Khoa học tại ĐH Lạc Hồng, Đồng Nai.
[3] Lê Thu Trang (2008), "Khai phá dữ liệu bằng phương pháp phân
cụm", Luận văn thạc sĩ Công nghệ thông tin, Khoa Công nghệ thông tin - Đại
học Thái Nguyên.
[4] Hà Quang Thụy (2009), "Giáo trình khai phá dữ liệu Web", Nxb Giáo
dục Việt Nam.
Tài liệu tiếng Anh
[5] BingLiu, (2007), Web mining, Spinger.
[6] Ho Tu Bao, (2000), Knowledge Discovery and Data Mining.
[7] Lizhen liu, junjie Chen, Hantao Song, (2002), The reseach of Web
Mining, IEEE.
[8] Maria Rigou, Spiros Sirmakessis and Giannis Tzimas, (2006), A
method for Peronalized Clustering in Data Intensive Web Applications.
[9] Miguel Gomes da Costa Júnior, Zhiguo Gong, (2005), Web Structure
Mining: An Introduction, IEEE.
[10] Oren Zamir and Oren Etzioni, (1998), Web document Clustering: A
Feasibility Demonstration, University of Washington, USA, ACM.
[11] Pawan Lingras, (2002), Rough Set Clustering for Web mining,
IEEE.
[12] Perikis Andritsos, (2002) Data Clusting Tichniques, University

Toronto.
[13] R.Cooley, B.Mobasher and J.Srivastava, (1998), Web mining:
Information and Pattern Discovery on the Wor ld Wide Web, University of
Minnesota, USA.
[14] WangBin, LiuZhijing, (2003), WebMining Research, IEEE.
[15] Yitong Wang, Masaru Kitsuregawa (2002), Evaluating
ContentsLink Coupled Web Page Clustering for Web Search Results,
ACM.