Tải bản đầy đủ
5 Kết luận chương 2

5 Kết luận chương 2

Tải bản đầy đủ

http://www.ictu.edu.vn
43

thuật toán. Từ các khái niệm cơ bản của các luật này, luận văn sẽ trình bày ứng
dụng của nó trong việc xây dựng các tập thuật ngữ đặc trưng trong bài toán tra cứu
thông tin ở chương 3 tiếp theo.

http://www.ictu.edu.vn
44

CHƯƠNG 3. SỬ DỤNG MỘT THUẬT TOÁN ĐỂ TÌM TẬP THUỘC TÍNH
RÚT GỌN THEO CÁCH TIẾP CẬN TẬP THÔ PHỤC VỤ
BÀI TOÁN TRA CỨU THÔNG TIN
Trong chương này, luận văn trình bày các khái niệm cơ bản về bài toán tra cứu
thông tin, và áp dụng lý thuyết tập thô để giải quyết bài toán tra cứu thông tin. Ứng
dụng tập luật rút gọn để xây dựng tập thuật ngữ nhằm giảm số đặc trưng đại diện
các nhóm với mục đích tăng tốc tra cứu, giảm thiểu đi những sai sót trong quá trình
xác định thông tin tra cứu.
3.1 Tra cứu thông tin
Từ những năm 1940, vấn đề thông tin lưu trữ và tra cứu thông tin đã thu hút sự
chú ý của nhiều học giả, chuyên gia. Đơn giản chỉ là tuyên bố: “chúng tôi cần số
lượng lớn các thông tin chính xác”. Tuy nhiên, điều đó ngày càng khó khăn, do
khối lượng thông tin trên Internet ngày càng tăng. Nếu phương pháp tra cứu thông
tin không hiệu quả, những thông tin quan trọng liên quản sẽ không bao giờ phát
hiện. Với sự ra đời của máy tính, rất nhiều các tri thức của các chuyên gia đã được
sử dụng để xây dựng các hệ thống tra cứu thông tin. Tuy nhiên, nhiều khi các hệ
thống chưa được sử dụng một cách hợp lý.
Về nguyên tắc, thông tin lưu trữ và tra cứu rất đơn giản. Giả sử có một lưu trữ
các tài liệu và một người sử dụng, người sử dụng đặt ra các câu hỏi truy vấn và
nhận được các thông tin liên quan, những thông tin không liên quan sẽ được loại bỏ.
Trong một nghĩa nào đó, điều này tạo nên tra cứu "hoàn hảo". Một người sử dụng
hoặc không có thời gian hoặc không muốn dành thời gian đọc toàn bộ các thông tin
dư thừa không liên quan tới vấn đề họ cần tìm kiếm. Hình 3.1 dưới đây mô tả
nguyên lý tra cứu thông tin (IR).

Hình 3.1 Nguyên lý tra cứu thông tin

http://www.ictu.edu.vn
45

Tra cứu thông tin là một phần của khoa học máy tính liên quan đến việc tra
cứu các thông tin từ các tài liệu mà là dựa trên nội dung và bối cảnh chủ yếu của tài
liệu. Hay định nghĩa một cách khác: “Tra cứu thông tin là một cách tìm kiếm thông
tin (thường là một tài liệu) dựa trên một truy vấn (người sử dụng yêu cầu) để đưa
ra một tập hợp các tài liệu phù hợp với truy vấn của người sử dụng”.
Khi công nghệ tạo ra máy tính với tốc độ xử lý vô cùng lớn, nhiều người nghĩ
rằng một máy tính sẽ có thể "đọc" một bộ sưu tập toàn bộ tài liệu để trích xuất các
tài liệu liên quan. Tuy nhiên, rõ ràng rằng việc sử dụng máy tính để lưu trữ văn bản
chỉ làm được nhiệm vụ là đầu vào và các vấn đề lưu trữ mà chưa được giải quyết
được khai phá các trí tuệ của mô tả nội dung tài liệu. Và các chuyên gia ý thức được
rằng, sự phát triển công nghệ phần cứng chỉ có thể tạo được kho lưu trữ tốt hơn cho
thông tin mà vẫn khó khăn trong vấn đề làm cho máy tính hiểu được tri thức từ
thông tin. Giả sử khi người sử dụng nhập vào một câu, máy tính phải có khả năng
đọc và phân tích để đưa ra thông tin cần thiết. Cụ thể hơn, 'đọc' liên quan đến việc
cố gắng để trích xuất thông tin, cả hai cú pháp và ngữ nghĩa, từ các văn bản và sử
dụng nó để quyết định xem mỗi tài liệu có liên quan hoặc không một yêu cầu cụ
thể. Khó khăn không chỉ biết làm thế nào để trích xuất các thông tin mà còn làm thế
nào để sử dụng nó để đưa ra các quyết định liên quan. Các nghiên cứu về ngôn ngữ
học hiện đại tương đối chậm cho thấy những vấn đề này phần lớn chưa được giải
quyết.
Trí tuệ có thể làm cho một con người hiểu được sự liên quan của một tài liệu
để truy vấn. Đối với máy tính để làm điều này, chúng ta cần phải xây dựng một mô
hình mà trong đó các quyết định đều phải mang tính định lượng.
3.2 Tra cứu thông tin văn bản
3.2.1 Tra cứu thông tin văn bản
Các mô hình tra cứu thông tin hiện nay thường sử dụng trong các máy tìm
kiếm thương mại dựa trên hệ thống đánh chỉ số các từ khóa (thủ công hoặc tự động)
và truy vấn logic boolean kết hợp với phương pháp thống kê (tần suất xuất hiện của
từ) gọi là mô hình tra cứu thông tin dựa trên từ khóa. Hoặc dựa trên các thông tin
ngữ nghĩa của văn bản.

http://www.ictu.edu.vn
46

Các truy vấn được nhập vào và xử lý dưới dạng các hàm biểu diễn yêu cầu tra
cứu, và được đối sánh với cơ sở dữ liệu đã được đánh chỉ số để đưa tới người dùng
kết quả tra cứu.

Hình 3.2 Mô hình hệ thống tra cứu thông tin văn bản.
3.2.2 Xử lý hệ thống thông tin văn bản
Các quá trình xử lý trong hệ thống thông tin Retrieval bao gồm hai phần chính
bao gồm: phần đánh chỉ mục và máy tìm kiếm. Đánh chỉ mục quá trình thực hiện để
thiết lập một cơ sở dữ liệu của bộ sưu tập tài liệu kết hợp, hay nói cách khác, lập chỉ
mục là một quá trình chuẩn bị thực hiện trên tài liệu do đó tài liệu đã sẵn sàng để xử
lý. Đánh chỉ mục sẽ được tạo ra từ một bộ sưu tập của các từ đó sẽ được sử dụng để
cải thiện hiệu suất tìm kiếm trong các bước tiếp theo.