Tải bản đầy đủ
CHƯƠNG 3. CỞ SỞ LÝ THUYẾT

CHƯƠNG 3. CỞ SỞ LÝ THUYẾT

Tải bản đầy đủ

Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn. Search engine có những con bọ
(spider hay crawler) được lập trình để có thể tự động theo các liên kết (link) để
mò đến các website khác nhau, thu thập và đánh giá các thông tin trên website
đó.
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl. Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kết
quả liên quan. Một trang web có thể được index nhanhn hoặc chậm tuỳ thuộc vào
tốc độ crawl, độ trust của website và nhiều yếu tố khác.
Phân tích – Analysis: giai đoạn này search engine sẽ làm việc trên các dữ
liệu mà nó thu thập được. Sau đó tính toán độ liên quan của dữ liệu so với yêu cầu
của người dùng. Các search engine khác nhau có những thuật toán phân tích
khác nhau từ đây tạo ra sự khác biệt giữa các search engine. Giai đoạn phân tích
sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả.
Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này. Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kết
quả ít liên quan.Mặc dù không phải lúc nào các kết quả cũng thoả mãn được
yêu cầu của người tìm kiếm.Nhưng cho đến hiện nay, người dùng khá hài lòng
với những gì mà search engine trả về.
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá đơn
giản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp. Search engine
nào thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộng
rãi và phát triển mạnh mẽ trong tương lai. Ai là vua trong thị trường tìm kiếm
trực tuyến đầy tiềm năng này?

SVTH: Nguyễn Tuấn Vũ

9

Lớp: K46 TMĐT

3.1.2. Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động. Trong đó,
phải kể đến ba chàng khổng lồ đang chi phối 98% thị phần tìm kiếmtheo thông
kê của SEO MOD tháng 01/2014.

Hình 3. 2: Biểu đồ thị phần search engine từ seomoz.org
Google là search engine được nhiều người sử dụng nhất với 80% số người sử
dụng. Tiếp theo là Yahoo 9.5% và Bing 8.5%, còn lại số phần trăm ít ỏi dành cho
các search engine khác.
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm kiếm
thông tin.Nên việc SEO trên Google là ưu tiên hàng đầu đối với các website.
3.2. CẤU TẠO CHUNG CÁC BỘ MÁY TÌM KIẾM
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thông
tin, Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:

Hình 3. 3: Cấu tạo Search Engine

SVTH: Nguyễn Tuấn Vũ

10

Lớp: K46 TMĐT

Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên gọi
khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ là một
chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động
duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ
tìm kiếm. Những trình duyệt thông thường không được xem là robot do thiếu tính
chủ động, chúng chỉ duyệt web khi có sự tác động của con người.
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ
quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm
sau này.
Search Engine – Bộ tìm kiếm thông tin: Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể xem
qua hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại hàng
triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng
nhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng
không thể duyệt hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác
định được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới.
3.2.1. Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ mục.
3.2.1.1. Robot thu thập thông tin có nhiệm vụ
Phân tích – thống kê - Statistical Analysis: Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng file
khác nhau, kích thước trung bình của một trang web,độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của việc
duy trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead links) khi
những trang này bị thay đổi hoặc thậm chí bị xóa. Thật không may vẫn chưa có
cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này. Trên thực tế khi các tác
giả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo cho
nhau, hoặc thỉnh thoảng độc giả thông báo cho họ bằng email. Một số robot có
SVTH: Nguyễn Tuấn Vũ

11

Lớp: K46 TMĐT

thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy trì các cấu trúc
siêu liên kết cùng nội dung của một trang web. Chức năng này lặp lại liên tục
mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được giải quyết
nhanh chóng.
Ánh xạ địa chỉ web – Mirroring: Mirroring: là một kỹ thuật phổ biến
trong việc duy trì các kho dữ liệu. Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu
trúc cây thư mục và thường xuyên cập nhật những file bị thay đổi. Điều này cho
phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất
bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực sự chứa
các dữ liệu này.
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để
phát hiện tài nguyên. Con người không thể kiểm soát nổi một khối lượng thông tin
khổng lồ trong môi trường mạng. Robot sẽ giúp thu thập tài liệu, tạo và duy trì
cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp với công cụ
tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết hợp các công dụng trên - Combined uses: Một robot có thể đảm nhận
nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở dữ
liệu…. Tuy nhiên những ứng dụng như thế còn khá ít ỏi.
3.2.1.2.

Robot chỉ mục – Robot Indexing

Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục , ta cần giải
quyết vấn đề sau:
Trong môi trường mạng,robot lấy thông tin từ các site.Vậy robot sẽ bắt đầu từ
site nào? Điều này hoàn toàn phụ thuộc vào robot.Mỗi robot khác nhau có
những chiến lược khác nhau.Thường thì robot sẽ viếng thăm các site phổ biến
hoặc những site có nhiều liên kết dẫn đến nó.
Ai sẽ cung cấp địa chỉ của các site này cho robot ?Có 2 nguồn; Một là
Robot nhận các URL ban đầu từ user.Hai là Robot phân tích các trang web để
lấy các URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho robot.Quá
trình này được lặp lại liên tục.
SVTH: Nguyễn Tuấn Vũ

12

Lớp: K46 TMĐT

Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu nào
trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được liệt
kê như sau được xem là quan trọng :









Ở góc cao của tài liệu.
Trong các đề mục.
Được in đậm.
Trong URLTrong tiêu đề (quan trọng).
Trong phần miêu tả trang web (Description) .
Trong các thẻ dành cho hình ảnh (ALT).
Trong các thẻ chứa từ khóa.
Trong các text liên kết.

Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiên
hoặc

toàn bộ tài liệu (full text). Một số khác lại lập chỉ mục trên các thẻ

META(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được quyền
ấn định từ khoá cho tài liệu của mình. Tuy nhiên chức năng này bị lạm dụng quá
nhiều do đó các thẻ META không còn giữ được giá trị ban đầu của chúng nữa
(Black Hat SEO).

SVTH: Nguyễn Tuấn Vũ

13

Lớp: K46 TMĐT

3.2.2. Index – bộ lập chỉ mục
3.2.2.1. Mô hình xử lý tổng quát của một hệ thống lập chỉ mục

Hình 3. 4: Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp
cốt lõi có khả năng đại diện cho nội dung của tài liệu.Như vậy, vấn đề đặt ra là
phải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài
liệu.
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ so
với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chi
phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp.
Việc rút trích này chính là việc lập chỉ mục trên tài liệu. Trước đây, quá trình
này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ công “
nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay, với lượng
thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phương
pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
Một thủ tục lập chỉ mục tự động cơ bản:

SVTH: Nguyễn Tuấn Vũ

14

Lớp: K46 TMĐT



Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào

khoảng trắng, mỗi chuỗi xem như là một từ.
− Step of removal of stop words: bỏ những từ thường xuyên xuất hiện
trong hầu hết các tài liệu nhưng lại không quan trọng trong các tài
liệu như tính từ, đại từ.
− Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.
Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần cho
quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng
Việt thuộc dòng ngôn ngữ đơn thể
3.2.2.2. Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho văn
bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word, xử lý hậu tố…)
Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị phản
ánh tầm quan trọng của mục từ đó trong văn bản.
3.2.2.2.1. Xác định mục từ quan trọng cần lập chỉ mục
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉ
mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ
cảnh cụ thể. Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của văn
bản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó.
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất hiện
của từng loại từ riêng rẽ trong văn bản. Nếu tất cả các từ xuất hiên trong tập tài
liêu với những tần số băng nhau, thì không thể phân biệt các mục từ theo tiêu
chuẩn định lượng.Tuy nhiên trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện
của từ có tính thất thường, do đó những mục từ có thể được phân biệt bởi tần số
xuất hiên của chúng.
3.2.2.2.2. Xác định trọng số cho mục từ

SVTH: Nguyễn Tuấn Vũ

15

Lớp: K46 TMĐT

Trọng số của mục từ là sự tần xuất xuất hiện của mục từ trong toàn bộ tài
liệu.Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vào
thống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tài
liệu thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài liệu.
Ví dụ: tại trang web ToanCauMobile.vn thì những mục từ có trọng số cao:
toàn cầu, điện thoại, luxury…
3.2.3. Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn. Với sức lực cá nhân ta không thể xem
qua hết tất cả sách, vì vậy ta cần một danh mục sách. Tương tự, tồn tại hàng triệu
trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều
hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không
thể duyệt hết. Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định
được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới.
3.2.3.1.

Các phương thức tìm kiếm
3.2.3.1.1. Tìm kiếm theo từ khóa

Đây là phương pháp được áp dụng với hầu hết các search engine. Trừ khi
tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều
này phụ thuộc vào search engine. Như vậy các search engine sẽ tự mình chọn và
đánh chỉ mục. Một số site lập chỉ mục cho tất cả các từ có trong một trang web,
một số khác chỉ chọn một số đoạn văn bản.
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems)
đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword.Có
những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường.
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối
với những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do
có tiền tố và hậu tố. Bên cạnh đó search engine cũng không thể trả về các tài
liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn.
SVTH: Nguyễn Tuấn Vũ

16

Lớp: K46 TMĐT

SVTH: Nguyễn Tuấn Vũ

17

Lớp: K46 TMĐT

3.2.3.1.2. Tìm kiếm theo ngữ nghĩa
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa
sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ. Tìm theo ngữ nghĩa hoạt
động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ
học, các thuyết về trí tuệ nhân tạo; tiếp cận dựa vào phương pháp tính toán bằng
cách đếm số lần xuất hiện của các từ quan trọng. Khi nhiều từ hoặc những cụm
từ có nghĩa đặt gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ một chủ
đề nào đó.

Hình 3. 5: Hệ thống tự động đoán hành vi tìm kiếm
3.2.3.1.3. Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất
kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những
URL vô ích.
Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
− Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ?
− Hoặc ta đã hình dung được cụ thể những gì cần tìm ?
− Hay ta muốn tìm địa chỉ của ai đó ?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web
(web directory).

SVTH: Nguyễn Tuấn Vũ

18

Lớp: K46 TMĐT

Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một
công cụ tìm kiếm thích hợp.
Ví dụ: chỉ với từ khóa “điện thoại” ta có thể có “điện thoại nhật cường”,
“điện thoại sky”, “điện thoại oppo”, “điện thoại sam sung”...
3.3. HỆ THỐNG RANK
3.3.1. Google PageRank
3.3.1.1. Google PageRank là gì?
Google PageRank là chỉ số đáng tin cậy chỉ giá trị của một trang web.Google
đánh giá và xếp hạng các trang web bằng cả hai phương pháp tự động và thủ
công dựa trên hơn 100 chỉ số chính với những thuật toán xuất sắc.
Một vài chỉ số quan trọng quyết định Google PageRank của một trang web:
độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web, chất lượng
kỹ thuật...
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạch
màu xanh trên nền trắng:

. Giá trị của mỗi trang web theo Google

PageRank tăng dần từ 1 đến 10.
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do
Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trong
một dự án nghiên cứu về công cụ tìm kiếm năm 1995.
3.3.1.2. Google PageRank đem lại lợi ích gì ?
Google PageRank hiện nay được coi là chỉ số đáng tin cậy đánh giá mức
độ quan trọng mỗi trang web. Một trang web có chỉ số Google PageRank cao sẽ
đem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩa
với các website kinh doanh thương mại điện tử.
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang web
khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google.

SVTH: Nguyễn Tuấn Vũ

19

Lớp: K46 TMĐT