Tải bản đầy đủ
2 Tra cứu thông tin văn bản

2 Tra cứu thông tin văn bản

Tải bản đầy đủ

http://www.ictu.edu.vn
46

Các truy vấn được nhập vào và xử lý dưới dạng các hàm biểu diễn yêu cầu tra
cứu, và được đối sánh với cơ sở dữ liệu đã được đánh chỉ số để đưa tới người dùng
kết quả tra cứu.

Hình 3.2 Mô hình hệ thống tra cứu thông tin văn bản.
3.2.2 Xử lý hệ thống thông tin văn bản
Các quá trình xử lý trong hệ thống thông tin Retrieval bao gồm hai phần chính
bao gồm: phần đánh chỉ mục và máy tìm kiếm. Đánh chỉ mục quá trình thực hiện để
thiết lập một cơ sở dữ liệu của bộ sưu tập tài liệu kết hợp, hay nói cách khác, lập chỉ
mục là một quá trình chuẩn bị thực hiện trên tài liệu do đó tài liệu đã sẵn sàng để xử
lý. Đánh chỉ mục sẽ được tạo ra từ một bộ sưu tập của các từ đó sẽ được sử dụng để
cải thiện hiệu suất tìm kiếm trong các bước tiếp theo.

http://www.ictu.edu.vn
47

Hình 3.3 Các bước mô tả xây dựng hệ thống.
Các bước trong quá trình lập chỉ mục là:
Bước 1: Ký hiệu (token)
Tức là chuyển đổi tài liệu vào một tập hợp các thuật ngữ bằng cách xóa tất cả
các ký tự chấm câu trong tài liệu và chuyển đổi tất cả thành chữ thường.
Bước 2: Stopword
Là quá trình loại bỏ các từ mà thường xuyên xuất hiện trong các tài liệu mà
không liên quan tới thông tin của tài liệu như: và, hoặc, không và như vậy.
Bước 3: Stemming
Quá trình thay đổi một từ được hình thành bởi cơ sở dữ liệu.
Bước 4: Term weighting
Cập nhật trọng số các thuật ngữ của tài liệu.
3.2.3 Một số kỹ thuật tra cứu thông tin văn bản
Các hệ thống tra cứu thông tin hiện tại thường áp dụng một trong số các
phương pháp như quét văn bản (full text scanning), đánh dấu file (signature files),
nghịch đảo (inversion), mô hình vector và phân cụm (vector model and clustering),
thông tin ngữ nghĩa (semantic information).

http://www.ictu.edu.vn
48

Phương pháp quét văn bản
Đây là phương pháp cổ điển nhất trong số các phương pháp tra cứu thông tin
văn bản. Phương pháp sử dụng tìm kiếm trong tất cả các văn bản trong kho dữ liệu
có chứa chuỗi truy vấn.
Ý tưởng của phương pháp này kiểm tra đối sánh chuỗi con như sau:
- So sánh các ký tự trong chuỗi tìm kiếm tương ứng với các ký tự của văn
bản.
- Nếu không đối sánh được tại vị trí đầu, dịch chuyển chuỗi tìm kiếm bằng
một vị trí phía bên phải và tiếp tục tìm đến cuối văn bản.
Thuật toán này cần tới O(m*n) phép so sánh. Với m là chiều dài của chuỗi tìm
kiếm và n là chiều dài của văn bản.
Đánh dấu file
Cách tiếp cận tra cứu thông tin văn bản thông qua đánh dấu file thu hút nhiều
sự quan tâm của các chuyên gia. Trong phương pháp này, mỗi văn bản được gán
một chuỗi bit (‘đánh dấu’), sử dụng hàm băm trong các từ của văn bản. Kết quả
đánh dấu văn bản được lưu trữ tuần tự trong một file riêng rẽ.
Mô hình vector và phân cụm
Ý tưởng cơ bản trong phương pháp phân cụm là tất cả những văn bản tượng tự
nhau được nhóm lại thành từng nhóm. Khi nhóm các văn bản này lại dễ dàng hơn
khi tra cứu.
Phân cụm đã làm thay đổi lớn trong lĩnh vực tra cứu thông tin văn bản tương
tự như việc nhận dạng mẫu. Thủ tục sinh ra các cụm dựa trên vector hoặc điểm của
một không gian t chiều. Mỗi văn bản được coi như là một vector và được đánh chỉ
số thủ công hoặc tự động. Một thủ tục đánh chỉ số tự động được sử dụng bởi từ điển
như sau:
- Từ điển negative được sử dụng để loại bỏ các từ thông thường.
- Một danh sách dùng để rút gọn các từ
- Một từ điển để gán mỗi từ trong lớp khái niệm.
Phương pháp tra cứu thông tin ngữ nghĩa

http://www.ictu.edu.vn
49

Kỹ thuật tra cứu thông tin theo ngữ nghĩa là một hệ thống tra cứu thông tin
thông minh, trong đó bộ máy tra cứu có thể hiểu được ngữ nghĩa của câu truy vấn
được nhập bởi người sử dụng. Kỹ thuật này có một số đặc điểm sau:
- Sử dụng phân tích thông tin và xử lý ngôn ngữ tự nhiên.
- Sử dụng phương pháp đánh chỉ số ngữ nghĩa ngầm (LSI).
- Sử dụng các mô hình hoạt động khác như mạng nơ ron.
3.3 Phương pháp tra cứu thông tin áp dụng lý thuyết tập thô
Chúng tôi xây dựng hệ thống tra cứu thông tin áp dụng lý thuyết tập Thô theo
như mô hình dưới đây.

Hình 3.4 Mô hình bài toán tra cứu thông tin áp dụng lý thuyết tập thô.
3.3.1 Xây dựng tập văn bản
Gọi D là tập gồm M văn bản. D được biểu diễn bởi
D= {d1, d2,…,dM}
3.3.2 Gán trọng số cho thuật ngữ bởi dung sai xấp xỉ
Xây dựng tập thuật ngữ bao gồm N các từ quan trọng
T= {t1, t2,…,tN}.

http://www.ictu.edu.vn
50

Mỗi một thuật ngữ ti được gán một trọng số wi tương ứng và được xác định
theo công thức
M

(1 + log( f d j (ti ))) × log f (t ) if ti ∈ d j
wij = 
D i
 0 if t ∉ d
i
j


Trong đó :
fdj(ti) là tần suất xuất hiện của thuật ngữ ti trong văn bản dj.
FD(ti) là số văn bản xuất hiện thuật ngữ ti.
Sau đó mỗi wij được biểu diễn thô hóa để giá trị nằm trong khoảng [0,1] như
wij ←

sau:

wij



t h j ∈d j

( whj ) 2

Mỗi văn bản dj được biểu diễn lại một cách chi tiết bởi các thuật ngữ có trọng
số cao nhất trong nó.
d j = (t 1 j , w1 j ; t2 j , w2 j ;...; trj , wrj )

Với các wij ∈ [0,1].
Tất cả tập thuật ngữ trong D và trong truy vấn Q được định nghĩa là qi ∈ T. Và
các wiq ∈ [0,1].
Q = (q1 , w1q ; q 2, w2 q ;...; q s , wsq )

Giả sử fD(ti,tj) là số văn bản trong tập D xuất hiện đồng thời 2 thuật ngữ ti và
tj. Ta định nghĩa một hàm không chắc chắn I phụ thuộc vào một ngưỡng θ
Iθ (t j ) = {t j | f D (ti , t j ) ≥ θ } ∪ {ti }
Iθ thỏa mãn điều kiện của ti ∈ Iθ (t i ) và tj ∈ Iθ (t i ) . Nếu ti ∈ Iθ (t j ) với bất kỳ ti,

tj ∈ T , và cả Iθ . Hàm này tương ứng với quan hệ dung sai L ⊆ T × T . ti Lt j nếu tj
∈ Iθ (t i ) và Iθ (t i ) là lớp dung sai của thuật ngữ ti. Một hàm chưa chắc chắn v xác

định bao nhiêu X trong Y được định nghĩa bởi