Tải bản đầy đủ
CHƯƠNG III. KHAI PHÁ DỮ LIỆU WEB

CHƯƠNG III. KHAI PHÁ DỮ LIỆU WEB

Tải bản đầy đủ

Khai phá nội dung Web có thể được tiếp cận theo 2 cách khác nhau: Tìm
kiếm thông tin và khai phá dữ liệu trong cơ sở dữ liệu lớn. Khai phá dữ liệu đa
phương tiện là một phần của khai phá nội dung Web, nó hứa hẹn việc khai thác
được các thông tin và tri thức ở mức cao từ nguồn đa phương tiện trực tuyến
rộng lớn. KPDL đa phương tiện trên Web đã thu hút được sự quan tâm của nhiều
nhà nghiên cứu trong thời gian gần đây với mục đích là tạo ra một khung thống
nhất đối với việc thể hiện, giải quyết bài toán và huấn luyện dựa vào đa phương
tiện. Đây thực sự là một lĩnh vực nghiên cứu còn nhiều vấn đề đang chờ đợi được
khám phá.
Có hai chiến lược khai phá nội dung Web, đó là khai phá kết quả tìm kiếm
và khai phá văn bản Web [4].
3.1.1. Khai phá kết quả tìm kiếm
Phân loại tự động tài liệu dựa vào searching engine: search engine có thể
đánh chỉ số tập trung dữ liệu hỗn hợp trên Web.
Ví dụ: Trước tiên tải về các trang Web từ các Web site, sau đó search
engine trích ra những thông tin chỉ mục mô tả từ các trang Web đó để lưu trữ
chúng cùng với URL của nó trong search engine. Cuối cùng sử dụng các phương
pháp KPDL để phân lớp tự động và tạo điều kiện thuận tiện cho hệ thống phân
loại trang Web và được tổ chức bằng cấu trúc siêu liên kết.
3.1.2. Khai phá văn bản Web
Khai phá văn bản Web là việc sử dụng phương pháp khai phá dữ liệu đối
với các tập văn bản để tìm ra tri thức có ý nghĩa tiềm ẩm trong nó [4]. Dữ liệu
của nó là dữ liệu có cấu trúc hoặc không cấu trúc. Kết quả khai phá không chỉ
là trạng thái chung của mỗi tài liệu văn bản mà còn là sự phân loại, phân cụm
các tập văn bản phục vụ cho mục đích nào đó. Quá trình của khai phá văn bản
Web bao gồm các công đoạn xử lý sau đây:
- Lựa chọn dữ liệu: Về cơ bản, văn bản cục bộ được định dạng tích hợp

thành các tài liệu theo mong muốn để khai phá và phân phối trong nhiều dịch
vụ Web bằng việc sử dụng phương pháp truy xuất thông tin.
- Tiền xử lý dữ liệu: Để có một kết quả khai phá tốt ta cần có dữ liệu rõ
ràng, chính xác và xoá bỏ dữ liệu hỗn độn, dư thừa. Sau bước tiền xử lý, tập dữ
liệu đạt được thường có các đặc điểm sau:
+ Dữ liệu thống nhất và hỗn hợp cưỡng bức.
+ Làm sạch dữ liệu không liên quan, nhiễu và dữ liệu rỗng. Dữ liệu
không bị mất mát và không bị lặp.
+ Giảm bớt số chiều và làm tăng hiệu quả việc phát hiện tri thức bằng
việc chuyển đổi, quy nạp, cưỡng bức dữ liệu...
+ Làm sạch các thuộc tính không liên quan để giảm bớt số chiều của dữ liệu.
- Biểu diễn văn bản: Khai phá văn bản Web là khai phá các tập tài liệu
HTML. Do đó ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho quá trình
xử lí. Người ta thường dùng mô hình TF-IDF để vector hoá dữ liệu. Nhưng có
một vấn đề quan trọng là việc biểu diễn này sẽ dẫn đến số chiều vector khá lớn.
- Trích rút đặc trưng: Rút ra các đặc trưng là một phương pháp, nó có thể
giải quyết số vector đặc trưng lớn, được mang lại bởi khai phá văn bản. Việc rút
ra các đặc trưng dựa trên hàm trọng số:
+ Mỗi từ đặc trưng sẽ nhận được một giá trị trọng số tin cậy bằng việc
tính toán hàm trọng số tin cậy. Tần số xuất hiện cao của các từ đặc trưng là
khả năng chắc chắn nó sẽ phản ánh đến chủ đề của văn bản, thì ta sẽ gán cho
nó một giá trị tin cậy lớn hơn. Hơn nữa, nếu nó là tiêu đề, từ khoá hoặc cụm
từ thì chắc chắn nó có giá trị tin cậy lớn hơn.
+ Việc rút ra các đặc trưng dựa trên việc phân tích thành phần chính
trong phân tích thông kê. Ý tưởng chính của phương pháp này là sử dụng thay
thế từ đặc trưng bao hàm của một số ít các từ đặc trưng chính trong mô tả để
thực hiện giảm bớt số chiều.

- Khai phá văn bản: Sau khi tập hợp, lựa chọn và trích ra tập văn bản
hình thành nên các đặc trưng cơ bản, nó sẽ là cơ sở để KPDL. Từ đó ta có thể
thực hiện trích, phân loại, phân cụm, phân tích và dự đoán.
- Trích rút văn bản: Việc trích rút văn bản là để đưa ra ý nghĩa chính có
thể mô tả tóm tắt tài liệu văn bản trong quá trình tổng hợp. Sau đó, người dùng
có thể hiểu ý nghĩa chính của văn bản nhưng không cần thiết phải duyệt toàn
bộ văn bản. Đây là phương pháp đặc biệt được sử dụng trong searching
engine, thường cần để đưa ra văn bản trích dẫn [10]. Nhiều searching engines
luôn đưa ra những câu dự đoán trong quá trình tìm kiếm và trả về kết quả, cách
tốt nhất để thu được ý nghĩa chính của một văn bản hoặc tập văn bản chủ yếu
bằng việc sử dụng nhiều thuật toán khác nhau.
- Phân lớp văn bản: Nhiều tài liệu được phân lớp tự động một cách
nhanh chóng và hiệu quả cao. Người ta thường sử dụng phương pháp phân
lớp Navie Bayesian và "K-láng giềng gần nhất" để khai phá thông tin văn
bản. Trong phân lớp văn bản, đầu tiên là phân loại tài liệu. Thứ hai, xác định
đặc trưng thông qua số lượng các đặc trưng của tập tài liệu huấn luyện. Cuối
cùng, tính toán kiểm tra phân lớp tài liệu và độ tương tự của tài liệu phân lớp
bằng thuật toán nào đó. Khi đó các tài liệu có độ tương tự cao với nhau thì
nằm trong cùng một phân lớp. Độ tương tự sẽ được đo bằng hàm đánh giá xác
định trước. Nếu ít tài liệu tương tự nhau thì đưa nó về 0. Nếu nó không giống
với sự lựa chọn của phân lớp xác định trước thì xem như không phù hợp.
- Phân cụm văn bản: Chủ đề phân loại không cần xác định trước nhưng
ta phải phân loại các tài liệu vào nhiều cụm. Trong cùng một cụm thì độ
tương tự thấp hơn. Phương pháp sắp xếp liên kết và phương pháp phân cấp
thường được sử dụng trong văn bản phân cụm.
- Phân tích và dự đoán xu hướng: Thông qua việc phân tích các tài liệu
Web, ta có thể nhận được quan hệ phân phối của các dữ liệu đặc biệt trong

từng giai đoạn của nó và có thể dự đoán được tương lai phát triển.
- Đánh giá chất lượng mẫu: Khai phá dữ liệu Web có thể được xem như
quá trình của machine learning. Kết quả của machine learning là các mẫu tri
thức. Phần quan trọng của machine learning là đánh giá kết quả các mẫu. Ta
thường phân lớp các tập tài liệu vào tập huấn luyện và tập kiểm tra. Cuối
cùng, chất lượng trung bình được dùng để đánh giá chất lượng mô hình.
3.2. Khai phá theo sử dụng Web
Nắm bắt được những đặc tính của người dùng Web là một việc làm rất
quan trọng trong quá trình thiết kế Web site. Thông qua quá trình khai phá lịch sử
các mẫu truy xuất của người dùng Web, không chỉ thông tin về Web được sử
dụng mà còn có nhiều đặc tính khác như các hành vi của người sử dụng. Sự điều
hướng đường dẫn người dùng mang lại giá trị thông tin về mức độ quan tâm của
người dùng đến các Web site đó.
Dựa trên các tiêu chí khác nhau, người dùng Web có thể phân cụm các tri
thức hữu ích được lấy ra từ mẫu truy cập Web. Nhiều ứng dụng có thể giúp lấy
ra được các tri thức. Ví dụ văn bản siêu liên kết động được tạo ra giữa các trang
Web được đề xuất sau khi khám phá các cụm người dùng Web, thể hiện độ tương
tự thông tin. Thông qua việc phát hiện mối qua hệ giữa những người dùng như sở
thích, sự quan tâm của người dùng Web, giúp ta dự đoán một cách chính xác hơn
người sử dụng đang cần gì tại thời điểm hiện tại họ sẽ truy cập những thông tin gì
tiếp theo.
Giả sử tìm được độ tương tự về sự quan tâm giữa những người sử dụng
Web, nếu Web site được thiết kế tốt sẽ có nhiều sự tương quan giữa độ tương tự
của các chuyển hướng đường dẫn và tương tự giữa sự quan tâm của người dùng.
Khai phá theo sử dụng Web là khai phá truy cập Web (Web log) để khám
phá các mẫu người dùng truy cập vào Web site. Thông qua phân tích và khảo sát
những quy tắc trong việc ghi nhận lại quá trình truy cập Web ta có thể chứng thực

khách hàng trong thương mại điện tử, nâng cao hiệu suất của các hệ thống phục
vụ Web. Thêm vào đó, để tự phát triển các Web site bằng việc huấn luyện từ các
mẫu truy xuất của người dùng. Phân tích quá trình đăng nhập Web của người
dùng giúp cho việc xây dựng các dịch vụ Web theo yêu cầu đối với từng người
dùng riêng lẻ được tốt hơn.
Hiện nay, ta thường sử dụng các công cụ khám phá mẫu và phân tích mẫu.
Nó phân tích các hành động của người dùng, lọc dữ liệu và khai phá tri thức từ
tập dữ liệu bằng cách sử dụng trí tuệ nhân tạo, KPDL, tâm lý học và lý thuyết
thông tin. Sau khi tìm ra các mẫu truy cập ta thường sử dụng các phương pháp
phân tích tương ứng để hiểu, giải thích và khám phá các mẫu đó.
3.2.1. Ứng dụng của khai phá theo sử dụng Web
- Tìm ra các khách hàng tiềm năng trong thương mại điện tử.
- Chính phủ điện tử (e-Gov), giáo dục điện tử (e-Learning).
- Xác định những quảng cáo tiềm năng.
- Nâng cao chất lượng truyền tải của các dịch vụ thông tin Internet đến
người dùng cuối.
- Cải tiến hiệu suất của hệ thống phục vụ các máy chủ Web.
- Cá nhân dịch vụ Web thông qua việc phân tích các đặc tính cá nhân
người dùng.
- Cải tiến thiết kế Web thông qua việc phân tích thói quen duyệt Web
và phân tích các mẫu nội dung trang truy cập của người dùng.
- Phát hiện gian lận và xâm nhập bất hợp lệ trong dịch vụ thương mại
điện tử và các dịch vụ Web khác.
- Thông qua việc phân tích chuỗi truy cập của người dùng để có thể dự
báo những hành vi của người dùng trong quá trình tìm kiếm thông tin.

3.2.2. Các phương pháp được sử dụng trong khai phá dữ liệu Web
Luật kết hợp: Sử dụng để tìm ra những trang Web được truy cập cùng
nhau của người dùng, những lựa chọn cùng nhau của khách hàng trong
thương mại điện tử.
Phương pháp phân cụm: Phân cụm người dùng dựa trên các mẫu duyệt
để tìm ra sự liên quan giữa những người dùng Web và các hành vi của họ.
3.2.3. Những vấn đề trong khai phá theo sử dụng Web
Để khai phá sử dụng Web đạt hiệu quả cao thì Web log cần được làm
sạch, định nghĩa, tích hợp và biến đổi. Dựa vào đó để phân tích và khai phá.
Những vấn đề tồn tại:
- Cấu trúc vật lý của các Web site khác nhau từ những mẫu người dùng
truy xuất.
- Rất khó có thể tìm ra những người dùng, các phiên làm việc, các giao
tác.
Vấn đề chứng thực phiên người dùng và truy cập Web:
Các phiên chuyển hướng của người dùng: Nhóm các hành động được
thực hiện bởi người dùng từ lúc họ truy cập vào Web site đến lúc họ rời khỏi
Web site đó. Những hành động của người dùng trong một Web site được ghi
và lưu trữ lại trong một file đăng nhập (log file) (file đăng nhập chứa địa chỉ
IP của máy khách, ngày, thời gian từ khi yêu cầu được tiếp nhận, các đối
tượng yêu cầu và nhiều thông tin khác như các giao thức của yêu cầu, kích
thước của đối tượng…)
3.2.4. Quá trình khai phá theo sử dụng Web
Khai phá theo sử dụng Web có 3 pha: Tiền xử lý, khai phá và phân tích
đánh giá, biểu diễn dữ liệu.

3.2.4.1. Tiền xử lý dữ liệu:
Chứng thực người dùng, chứng thực hoạt động truy cập, đường dẫn
đầy đủ, chứng thực giao tác, tích hợp dữ liệu và biến đổi dữ liệu. Trong pha
này các thông tin về đăng nhập Web có thể được biến đổi thành các mẫu giao
tác thích hợp cho việc xử lý sau này trên các lĩnh vực khác nhau.
Trong giai đoạn này gồm cả việc loại bỏ các file có phần mở rộng là
gif, jpg… Bổ sung hoặc xoá bỏ những dữ liệu khuyết thiếu như cache cục bộ,
dịch vụ proxy. Xử lý thông tin trong các Cookie, thông tin đăng ký người
dùng kết hợp với IP, tên trình duyệt và các thông tin lưu tạm.
Chứng thực giao tác: Chứng thực các phiên người dùng, các giao tác.
3.2.4.2. Khai phá dữ liệu Web
Sử dụng các phương pháp KPDL trong các lĩnh vực khác nhau như luật
kết hợp, phân tích, thông kê, phân tích đường dẫn, phân lớp và phân cụm để
khám phá ra các mẫu người dùng.
- Phân tích đường dẫn [13]: Hầu hết các đường dẫn thường được thăm
được bố trí theo đồ thị vật lý của trang Web. Mỗi nút là một trang, mỗi cạnh
là đường liên kết giữa các trang đó. Thông qua việc phân tích đường dẫn
trong quá trình truy cập của người dùng ta có thể biết được mối quan hệ trong
việc truy cập của người dùng giữa các đường dẫn liên quan. Nó giúp cho việc
phát triển chiến lược kinh doanh phù hợp, xây dựng và tổ chức một cách tốt
nhất không gian Web.
- Chuỗi các mẫu: Các mẫu thu được giữa các giao tác và chuỗi thời
gian, thể hiện một tập các phần tử được theo sau bởi phần tử khác trong thứ tự
thời gian lưu hành tập giao tác.
- Quy tắc phân loại [13]: Profile của các phần tử thuộc một nhóm riêng
biệt theo các thuộc tính chung. Ví dụ như thông tin cá nhân hoặc các mẫu truy

cập. Profile có thể sử dụng để phân loại các phần tử dữ liệu mới được thêm
vào CSDL.
- Phân tích phân cụm: Nhóm các khách hàng hoặc các phần tử dữ liệu
có các đặc tính tương tự nhau.
Nó giúp cho việc phát triển và thực hiện các chiến lược tiếp thị khách
hàng cả về trực tuyến hoặc không trực tuyến như việc trả lời tự động cho
khách hàng thuộc nhóm chắc chắn, nó tạo ra sự thay đổi linh động một Web
site riêng biệt đối với mỗi khách hàng.
3.2.4.3. Phân tích đánh giá
Phân tích mô hình: Thống kê, tìm kiếm tri thức và tác nhân thông minh.
Phân tích tính khả thi, truy vấn dữ liệu hướng tới sự tiêu dùng của con người.
Trực quan hoá: Trực quan Web sử dụng lược đồ đường dẫn Web và
đưa ra đồ thị có hướng OLAP.
3.3. Khai phá cấu trúc Web
WWW là hệ thống thông tin toàn cầu, bao gồm tất cả các Web site.
Mỗi một trang có thể được liên kết đến nhiều trang. Các siêu liên kết thay đổi
chứa đựng ngữ nghĩa chung chủ đề của trang. Một siêu liên kết trỏ tới một
trang Web khác có thể được xem như là một chứng thực của trang Web đó.
Do đó, nó rất có ích trong việc sử dụng những thông tin ngữ nghĩa để lấy
được thông tin quan trọng thông qua phân tích liên kết giữa các trang Web.
Sử dụng các phương pháp khai phá người dùng để lấy tri thức hữu ích
từ cấu trúc Web, tìm ra những trang Web quan trọng và phát triển kế hoạch để
xây dựng các Web site phù hợp với người dùng.
Mục tiêu của khai phá cấu trúc Web là để phát hiện thông tin cấu trúc
về Web. Nếu khai phá nội dung Web chủ yếu tập trung vào cấu trúc bên trong
tài liệu thì khai phá cấu trúc Web tập trung tìm hiểu phát hiện cấu trúc liên kết
của các siêu liên kết ở mức trong của tài liệu. Dựa trên mô hình hình học của

các siêu liên kết, khai phá cấu trúc Web sẽ phân loại các trang Web, tạo ra
thông tin như độ tương tự, mối quan hệ giữa các Web site khác nhau. Nếu
trang Web này được liên kết trực tiếp với trang Web khác thì ta nghiên cứu
mối quan hệ giữa các trang Web này. Chúng có thể tương tự nhau về nội
dung, có dịch vụ Web giống nhau do đó nó được tạo ra bởi cùng một người.
Những nhiệm vụ khác của khai phá cấu trúc Web là khám phá sự phân cấp tự
nhiên hoặc mạng lưới các siêu liên kết trong các Web site của một miền đặc
biệt. Điều này có thể giúp tạo ra những luồng thông tin trong Web site mà nó
có thể đại diện cho nhiều miền đặc biệt. Vì thế việc sử lý truy vấn sẽ trở nên
dễ dàng hơn và hiệu quả hơn.
- Việc phân tích liên kết Web được sử dụng trong những mục đích:
+ Sắp thứ tự tài liệu phù hợp với truy vấn của người sử dụng.
+ Quyết định Web nào được đưa vào lựa chọn trong truy vấn.
+ Phân trang.
+ Tìm kiếm những trang liên quan.
+ Tìm kiếm những bản sao của Web.
- Đồ thị liên kết: Mỗi nút là một trang, cung có hướng từ x đến y nếu có
một siêu liên kết từ trang Web x đến trang Web y.
- Đồ thị trích dẫn: Mỗi nút cho một trang, không có cung hướng từ x
đến y nếu có một trang Web thứ ba z liên kết với cả x và y.
- Giả định: Một liên kết từ trang x đến trang y là một thông báo đến
trang y bởi trang x. Nếu x và y được kết nối bởi một đường liên kết thì nó rất
có khả năng hai trang Web đó đều tương tự nhau.
3.3.1. Tiêu chuẩn đánh giá độ tương tự
Khám phá ra một nhóm các trang Web giống nhau để khai phá, ta phải
chỉ ra sự giống nhau của hai nút theo một tiêu chuẩn nào đó.

Tiêu chuẩn 1: Đối với mỗi trang Web d1 và d2 ta nói d1 và d2 quan hệ
với nhau nếu có một liên kết từ d1đến d2 hoặc từ d2 đến d1.

d1
Hình 3.2. Quan hệ trực tiếp giữa 2 trang Web
Tiêu chuẩn 2: Đồng trích dẫn: Độ tương tự giữa d1 và d2 được đo bởi số
trang dẫn tới cả d1 và d2

d1

Hình 3.3. Độ tương tự đồng trích dẫn
Tương tự chỉ mục: Độ tương tự giữa d 1 và d2 được đo bằng số trang mà cả d 1
và d2 đều trỏ tới.

d1

Hình 3.4. Độ tương tự chỉ mục
3.3.2. Khai phá và quản lý cộng đồng Web
Cộng đồng Web là một nhóm gồm các trang Web chia sẽ chung những
vấn đề mà người dùng quan tâm. Các thành viên của công đồng Web có thể
không biết tình trạng tồn tại của mỗi trang Web. Nhận biết được các cộng
đồng Web, hiểu được sự phát triển và những đặc trưng của các cộng đồng
Web là rất quan trọng. Việc xác định và hiểu các cộng đồng trên Web có thể
được xem như việc khai phá và quản lý Web.
Đặc điểm của cộng đồng Web:

- Các trang Web trong cùng một cộng đồng sẽ “tương tự” với nhau hơn
các trang Web ngoài cộng đồng.
- Mỗi cộng đồng Web sẽ tạo thành một cụm các trang Web.
- Các cộng đồng Web được xác định một cách rõ ràng, tất cả mọi người
đều biết, như các nguồn tài nguyên được liệt kê bởi Google.
- Công đồng Web được xác định hoàn chỉnh: Chúng là những cộng
đồng bất ngờ xuất hiện.
Cộng đồng Web ngày càng được mọi người quan tâm và có nhiều ứng
dụng trong thực tiễn. Vì vậy, việc nghiên cứu các phương pháp khám phá
cộng đồng là có ý nghĩa rất to lớn trong thực tiễn. Để trích dẫn ra được các
cộng đồng ẩn, ta có thể phân tích đồ thị Web. Có nhiều phương pháp để
chứng thực cộng đồng như thuật toán tìm kiếm theo chủ đề HITS, luồng cực
đại và nhát cắt cực tiểu, thuật toán PageRank…
3.3.2.2. Thuật toán PageRank
Google dựa trên thuật toán PageRank [brin98], nó lập chỉ mục các liên
kết giữa các Web site và thể hiện một liên kết từ A đến B như là xác nhận của
B bởi A. Các liên kết có những giá trị khác nhau. Nếu A có nhiều liên kết tới
nó và C có ít liên kết tới nó thì một liên kết từ A đến B có giá trị hơn một liên
kết từ C đến B. Giá trị được xác định như thế được gọi là PageRank của một
trang Web và xác định thứ tự sắp xếp của nó trong các kết quả tìm kiếm
(PageRank được sử dụng cho phép cộng để quy ước chỉ số văn bản tạo ra các
kết quả tìm kiếm chính xác cao). Các liên kết có thể được phân tích chính xác
và hiệu quả hơn đối với khối lượng chu chuyển hoặc khung nhìn trang và trở
thành độ đo của sự thành công và việc biến đổi thứ hạng của các trang.
PageRank không đơn giản chỉ dựa trên tổng số các liên kết đến. Các
tiếp cận cơ bản của PageRank là một tài liệu trong thực tế được xét đến quan
trọng hơn là các tài liệu liên kết tới nó, Nhưng những liên kết về (tới nó)