Tải bản đầy đủ - 0 (trang)
PHẠM VI THỰC HIỆN

PHẠM VI THỰC HIỆN

Tải bản đầy đủ - 0trang

1. PHẠM VI THỰC HIỆN

 Tìm kiếm đơn giản trên tập chỉ mục

nghịch đảo theo mơ hình MapReduce

(duyệt qua tất cả nội dung chỉ mục, khơng áp

dụng kỹ thuật tìm kiếm nào để tăng tốc độ).

 Cấu trúc lưu trữ kết quả tìm kiếm: tìm thấy từ

nào thì hiển thị từ đó cùng với danh sách docID

chứa từ đã tìm kiếm

[tab] [space] ….

[tab] [space] ….



2.1. Inverted Index (tổng quát)

Documents to

be indexed.



Friends, Romans, countrymen.

Tokenizer

Friends Romans



Token stream.



Countrymen



Linguistic

modules

Modified tokens.



friend roman

Indexer



Inverted index.



countryman



friend



2



4



roman



1



2



countryman



13



16



2.1. Inverted Index: áp dụng cho bài toán



Tokenizer

(term,

docID)

Sort by

term

Inverted Index

(Dictionary and

Postings)



2.1. Indexer steps: Tokenizer



Doc 1



Doc 2



I did enact Julius

Caesar I was killed

i' the Capitol;

Brutus killed me.



So let it be with

Caesar. The noble

Brutus hath told you

Caesar was ambitious



2.1. Indexer steps: Sort



2.1. Indexer steps: Dictionary & Postings





Multiple term

entries in a single

document are

merged.







Split into

Dictionary and

Postings



2.1. Inverted Index - MapReduce

Input,

Splitting



Mapper class



Reducer class



Mapping



Tokenizer

(term,

docID)



Shuffling



Sort by term



Reducing



Inverted Index

(Dictionary and

Postings)



2.1. Inverted Index – MapReduce: Mô hình

Input files



Spliting

(Default 128MB/ split)



red orange blue



Doc1.txt



yellow blue



red orange blue

yellow blue



orange black red

Doc2.txt



Mapping



Shuffling



Reducing



(Key, Value)



(Key, Value)



(Key, Value)



black, Doc2.txt



blue, Doc1.txt

blue, Doc1.txt



blue, Doc1.txt



red, Doc1.txt

orange, Doc1.txt

blue, Doc1.txt



yellow, Doc1.txt

blue, Doc1.txt

orange, Doc1.txt

orange, Doc2.txt

orange, Doc2.txt



orange, Doc1.txt Doc2.txt



red, Doc1.txt

red, Doc2.txt



red, Doc1.txt Doc2.txt



yellow, Doc1.txt

yellow, Doc2.txt



yellow, Doc1.txt Doc2.txt



orange, Doc2.txt

black, Doc2.txt

red, Doc2.txt



orange black red

yellow orange



yellow orange



black, Doc2.txt



Result



yellow, Doc2.txt

orange, Doc2.txt



black, Doc2.txt

blue, Doc1.txt

orange, Doc1.txt Doc2.txt

red, Doc1.txt Doc2.txt

yellow, Doc1.txt Doc2.txt



2.1. Inverted Index – MapReduce: Map



Map(k1: id of row in the file,

v1: a line of text in the file){

docID=file.getName();

word[]=v1.split();

for (i=1;i<=word.length;i++)



emit(k2: word[i], v2: docID);

}



2.1. Inverted Index – MapReduce: Reduce



Reduce(k2: the word,

v2[]: list of docID with the same k2){

deleteDuplicate(v2);

with docID in v2:

listdocID= listdocID+docID;



emit(k3: the word ~ k2, v3: listdocID);

}



2.2. Search - MapReduce

Input,

Splitting



Mapper class



Mapping



Query file



Index files



Tokenizer

(term/query,

listdocID),

 term  query and index



Shuffling



Reducer class



Reducing



Sort by term/query

//Query: xử lý thêm

Write results

(term/query,

listdocID)



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

PHẠM VI THỰC HIỆN

Tải bản đầy đủ ngay(0 tr)

×