Tải bản đầy đủ - 0 (trang)
1 Tình hình nghiên cu

1 Tình hình nghiên cu

Tải bản đầy đủ - 0trang

trên máy học thống kê và không sử dụng kiến thức về ngôn ngữ học, liên kết từ

dựa trên ngữ nghĩa có sử dụng kiến thức ngơn ngữ học, và liên kết từ dựa trên

sự tương đồng về cấu trúc cú pháp. Bài báo của X.Yao và Durme (MANLI, [7])

sử dụng những kỹ thuật đơn giản như part-of-speech tags và từ điển WordNet

nhưng hiệu quả trong việc liên kết từ trên dữ liệu đơn ngữ, đặc biệt là hiệu suất

rất cao, thích hợp sử dụng cho khối lượng dữ liệu lớn. Ngồi ra, còn một số cơng

cụ được xây dựng với mục đích khác nhưng có tích hợp tính năng liên kết từ tự

động. Ví dụ METEOR ([8]) là một độ đo để đánh giá chất lượng các bản dịch

máy bằng cách liên kết bản dịch máy và bản dịch tham khảo, sau đó tính điểm

dựa trên các liên kết này.

Sau đây chúng tơi tóm tắt và phân tích một số phương pháp liên kết từ và

phân lớp liên kết từ được tham khảo đến trong luận văn.



2.2



METEOR



2.2.1



Giới thiệu



METEOR, viết tắt của Metric for Evaluation of Translation with Explicit ORdering,

là một công cụ được xây dựng như một độ đo để đánh giá chất lượng các bản

dịch máy.

Meteor đánh giá chất lượng bản dịch máy bằng cách liên kết các câu trong

bản dịch máy với bản dịch tham khảo (reference translation) do người dịch, sau

đó tính điểm tương đồng (lexical similarity score) giữa các câu trong hai bản dịch

này. Nếu có nhiều hơn một bản dịch tham khảo, điểm này sẽ được tính trên từng

bản dịch máy và bản dịch tham khảo, và điểm cao nhất sẽ được ghi nhận. Chất

lượng của tồn bộ bản dịch máy được tính dựa trên điểm của từng câu trong bản

dịch máy đó.

Như mơ tả ở trên, việc đánh giá chất lượng bản dịch máy sẽ được thực hiện

qua hai bước: bước một là liên kết từ giữa bản dịch máy và bản dịch tham khảo,

bước hai là tính điểm tương đồng giữa hai bản dịch này dựa vào các liên kết từ ở

bước một. Với mục đích là nghiên cứu các phương pháp liên kết từ có liên quan,

luận văn này chỉ tập trung nghiên cứu bước một là bước liên kết từ giữa bản dịch

máy và bản dịch tham khảo.



12



Phần dưới sẽ trình bày phương pháp liên kết từ trong Meteor, riêng phần thử

nghiệm và đánh giá kết quả thử nghiệm đối với Meteor sẽ được trình bày trong

Chương 6.



2.2.2



Liên kết từ trong Meteor



Cho mỗi cặp dịch máy - dịch tham khảo, Meteor xây dựng các liên kết từ dựa

trên các loại so sánh tương đồng sau:

Exact: Các từ giữa hai văn bản được khớp (match) khi từ loại dạng đã chia

(surface form) là giống nhau.

Stem: Các từ được đưa về dạng nguyên mẫu (stem) bằng Snowball Stemmer

và khớp khi dạng nguyên mẫu của chúng giống nhau.

Synonym: Các từ được khớp nếu chúng cùng là từ đồng nghĩa của một bộ

từ đồng nghĩa dựa theo cơ sở dữ liệu WordNet.

Paraphrase: Các từ được khớp nếu chúng được liệt kê là paraphrase với nhau

trong bảng paraphrase. Bảng paraphrase này sẽ được mô tả rõ hơn ở phần sau.

Mỗi kiểu so sánh tương đồng như trên sẽ được cài đặt thành một bước khớp

từ (word matcher) trong Meteor, theo đúng thứ tự ở trên: Exact, Stem, Synonym

và cuối cùng là Paraphrase. Tại mỗi bước, Meteor sẽ xác định tất cả các từ có thể

khớp với nhau giữa hai bản dịch dựa trên những từ khơng khớp nhau từ những

bước trước. Sau đó, liên kết từ sẽ được xác định bằng cách tìm ra tập con lớn

nhất của các cặp từ mà thoả những tiêu chí như sau:

1. Mỗi từ trong từng câu có từ 0-1 matches

2. Số lượng từ được match trong cả hai câu là lớn nhất

3. Số lượng chunk là nhỏ nhất. Một chunk được định nghĩa là một dãy các

liên kết từ liên tiếp nhau và có thứ tự giống như nhau trong cả hai câu.

4. Tổng khoảng cách giữa các từ match với nhau trong hai câu là nhỏ nhất.

Nghĩa là nếu một từ/ngữ trong câu này có thể match với nhiều từ/ngữ

trong câu kia thì từ/ngữ nào xuất hiện tại vị trí gần với từ kia hơn sẽ ưu

tiên được chọn.



13



Ví dụ:

Câu dịch máy: "As we will describe below , we additionally use QuestionBank

in experiments ."

Câu dịch tham khảo: "As described below , we also used QuestionBank in the

experiments ."

Sau khi chạy Meteor để liên kết từ ta được kết quả như Hình 2.1, riêng từ we,

will và the không liên kết với từ nào khác và được xem là Unaligned. Lưu ý, câu

trong bản dịch máy có chứa 2 từ we, theo tiêu chí số 4 thì từ we thứ 2 (nằm ở

vị trí số 6) gần với vị trí của từ we trong câu dịch tham khảo hơn nên Meteor sẽ

liên kết hai từ này với nhau.

As we will describe below , we additionally use QuestionBank in experiments .



As described below , we also use QuestionBank in the experiments .

E



S



E



E E



P



E



E



E



E



E



Hình 2.1: Ví dụ về liên kết từ trong METEOR. E=Exact, S=Stem, P=Paraphrase



2.2.3



Chuẩn hoá ngữ liệu



Để tăng tính chính xác khi liên kết các từ giữa hai bản dịch với nhau, Meteor

có một bước chuẩn hố ngữ liệu trước khi liên kết từ. Bước chuẩn hoá này làm

những việc như sau:

• Tách từ và đưa tất cả các từ về dạng chữ in thường (non-capitalized).

• Xố các dấu gạch nối trong các từ nối.

Ví dụ: far-off → far off

• Xố dấu chấm trong các từ viết tắt.

Ví dụ: U.N. → UN

Xem xét cụm từ "U.S.-based organization", khi chạy qua bước chuẩn

hoá ngữ liệu này sẽ thành "US based organization". Sau bước tiền xử



14



lý này, tất cả các cụm từ ở dưới sẽ khớp với nhau, do đó làm tăng độ

chính xác khi mà các câu trong hai bản dịch có phong cách viết khác nhau.

U.S.-based organization

U.S.based organization

US-based organization

US based organization



2.2.4



Xây dựng bảng Paraphrase



Trong phiên bản mới nhất của Meteor (Meteor Universal 2014), bảng paraphrase

được rút trích ra một cách tự động theo từng bước như sau:

Đầu tiên, rút trích các ngữ (phrase) ra từ ngữ liệu song ngữ và đưa vào bảng

ngữ (Koehn et al., 2003).

Sau đó, tương ứng với một ngữ (e1 ) của target language trong bảng trên, tìm

một ngữ f thuộc source language mà là bản dịch của e1 này. Mỗi ngữ e2 (e2 = e1 )

mà cùng là bản dịch của ngữ f thì được xem là paraphrase của e1 với xác suất

P (f |e1 ).P (e2 |f ). Xác suất e2 là paraphrase của e1 sẽ là:

P (e2 |e1 ) =



P (f |e1 ).P (e2 |f )

f



Để tăng độ chính xác cho việc rút trích paraphrase này, có nhiều kĩ thuật được

áp dụng. Những kĩ thuật sau được áp dụng cho từng mẫu paraphrase (e1 , f, e2 ):

• Loại những paraphrase có xác suất rất thấp (P (f |e1 ).P (e2 |f ) < 0.001).

• Loại những paraphrase mà e1 , f , hay e2 có chứa dấu câu.

• Loại những paraphrase mà e1 , f , hay e2 chỉ chứa từ chức năng (function

words).

Những kĩ thuật sau được áp dụng cho mỗi cặp paraphrase (e1 , e2 ) sau khi tính

tổng xác suất tất cả các mẫu trong ngữ liệu:

• Loại những paraphrase có xác suất rất thấp (P (e2 |e1 ) < 0.01).

• Loại những paraphrase mà e2 chứa trong e1 .



15



2.2.5



Nhận xét



Bộ liên kết từ trong Meteor được xây dựng cho liên kết từ đơn ngữ (monolingual

alignment), có tính tới các yếu tố về hình thái từ và paraphrase, đặc biệt là cho

ngơn ngữ tiếng Anh. Do đó, Meteor khá phù hợp cho bài toán liên kết từ mà

chúng tôi đang nghiên cứu.



2.3

2.3.1



MANLI

Giới thiệu



MANLI là một công cụ liên kết từ được xây dựng để giải quyết vấn đề liên kết

từ trong Suy diễn Ngôn ngữ tự nhiên (Natural Language Inference - NLI).

Vấn đề của Suy diễn Ngôn ngữ tự nhiên có thể tóm tắt lại đó là xác định một

ngữ giả thuyết H có phải được suy diễn ra từ một ngữ tiền đề P hay khơng.

Ví dụ: Để nhận ra rằng câu Kennedy was killed có thể được suy diễn từ câu

JFK was assassinated thì cần nhận ra mối quan hệ giữa Kennedy và JFK, giữa

killed và assassinated.

Do đó, hầu hết những cách tiếp cận cho bài toán này đều dựa vào liên kết từ,

nghĩa là thiết lập những liên kết giữa những từ tương ứng với nhau nằm trong

H và P . Để làm được điều này, MANLI sử dụng biểu diễn liên kết dựa trên cụm

từ, khai thác những kiến thức ngôn ngữ học có liên quan, và sử dụng bộ dữ liệu

huấn luyện có giám sát được xây dựng dành cho liên kết từ trong lĩnh vực NLI.



2.3.2



Kiến trúc hệ thống MANLI



Để giải quyết vấn đề như trên, hệ thống MANLI được xây dựng bao gồm bốn

thành phần:

1. Hàm biểu diễn liên kết dựa trên cụm từ

2. Hàm tính điểm cho các liên kết dựa trên các đặc trưng

3. Bộ giải mã sử dụng phương pháp mơ phỏng để tìm ra những liên kết từ có

điểm cao



16



4. Perceptron learning để tối ưu hố các trọng số đặc trưng

MANLI được ghi nhận có kết quả tốt hơn các công cụ liên kết từ hiện tại, cụ

thể là GIZA++, trên dữ liệu Recognizing Textual Entailment (RTE2).



2.3.3



Nhận xét



MANLI được xây dựng để giải quyết vấn đề cho bài tốn Suy diễn Ngơn ngữ

tự nhiên (NLI), vốn cũng có một số điểm tương đồng với bài tốn mà chúng tôi

đang nghiên cứu nên MANLI cũng là một cơng cụ khá phù hợp để sử dụng cho

bài tốn này.



2.4



GIZA++



2.4.1



Giới thiệu



GIZA++ là công cụ phổ biến nhất để liên kết từ trong lĩnh vực dịch máy thống

kê. Nó được sử dụng để huấn luyện Mơ hình IBM 1-5 và mơ hình liên kết từ

Hidden Markov. Nó được xây dựng cho trường hợp đa ngơn ngữ và khơng có xu

hướng thiên về liên kết các chuỗi giống nhau.



2.4.2



GIZA++ refined



Khi sử dụng GIZA++ để liên kết từ, kết quả xuất ra chỉ là các liên kết từ 1 − n,

trong khi kết quả cần có là tạo ra được các liên kết m × n. Do đó, chúng tơi làm

các bước sau đây:

Đầu tiên, chúng tôi sử dụng phương pháp liên kết từ mặc định 1 − n khi huấn

luyện mô hình. Sau đó, để tạo ra các liên kết m × n, chúng tơi tiếp tục các bước

sau:

• Chạy mơ hình hai lần riêng biệt trên hai hướng: một hướng là liên kết từ

văn bản gốc tới văn bản chỉnh sửa, và ngược lại, liên kết từ văn bản chỉnh

sửa tới văn bản gốc

• Sử dụng heuristics grow-diag-final của Moses để tổng hợp hai kết quả ở

bước trên lại với nhau



17



Kết quả cuối cùng được gọi là GIZA++ refined và chúng tôi sẽ dùng thuật ngữ

này từ đoạn này trở về sau.



2.4.3



Nhận xét



GIZA++ là công cụ liên kết từ được xây dựng cho lĩnh vực dịch máy thống kê và

cho trường hợp đa ngơn ngữ. Tuy nó khơng được xây dựng nhằm để giải quyết

bài toán mà luận văn đang nghiên cứu nhưng đây là công cụ liên kết từ phổ biến

nhất hiện nay và để có thể so sánh tồn diện, chúng tơi cũng chạy thử nghiệm

với GIZA++. Kết quả thử nghiệm sẽ được trình bày trong Chương 6 bên dưới.



2.5



Nhận diện lỗi tiếng Anh của Huichao Xue

và Rebecca Hwa



2.5.1



Giới thiệu



Cơng trình này được trình bày trong bài báo Improved Correction Detection in

Revised ESL Sentences ([9]), nghiên cứu và cải tiến phương pháp nhận diện lỗi

tiếng Anh, nó được phát triển từ bài báo Correction Detection and Error Type

Selection as an ESL Educational Aid ([10]). Nghiên cứu này tập trung vào hai

việc chính: một là phát hiện lỗi tiếng Anh và hai là phân loại các lỗi tiếng Anh

này từ những bài luận tiếng Anh của những sinh viên sử dụng tiếng Anh như là

ngoại ngữ. Hai bài báo trích dẫn ở trên đều dùng bộ ngữ liệu Cambridge Learner

Corpus (CLC) ([11]). Bộ ngữ liệu này gồm khoảng 1,200 bài luận tiếng Anh cùng

với các lỗi đã được chỉnh sửa và phân loại bởi những giáo viên người bản ngữ.

Bộ ngữ liệu này hiện có 75 nhãn lỗi, bao gồm lỗi về chia thì động từ, thứ tự từ,

lỗi chính tả, etc.



2.5.2



Phương pháp



Khi so sánh một câu tiếng Anh gốc do sinh viên viết và câu đã được sửa lỗi,

người ta nhận thấy rằng mỗi lỗi được sửa có thể được phân tích ra thành một bộ



18



Description (Code)

Unnecessary (U)

Incorrect verb tense (TV)

Countability error (C)

Incorrect word order (W)

Incorrect negative (X)

Spelling error (S)

Wrong form used (F)

Agreement error (AG)

Replace (R)

Missing (M)

Incorrect argument structure (AS)

Wrong Derivation (D)

Wrong inflection (I)

Inappropriate register (L)

Idiomatic error (ID)



Sample and Correction

July is the period of time that suits me best.

July is the time that suits me best.

She gave me autographs and talk really nicely

She gave me autographs and talked really nicely.

Please help them put away their stuffs.

Please help them put away their stuff.

I would like to know what kind of clothes should I bring.

I would like to know what kind of clothes I should bring.

We recommend you not to go with your friends.

We recommend you don’t go with your friends.

Our music lessons are speccial.

Our music lessons are special.

In spite of think I did well, I had to reapply.

In spite of thinking I did well, I had to reapply.

I would like to take some picture of beautiful scenery.

I would like to take some pictures of beautiful scenery.

The idea about going to Maine is common.

The idea of going to Maine is common.

Sometimes you surprised when you check the balance.

Sometimes you are surprised when you check the balance.

How much do I have to bring the money?

How much money do I have to bring?

The arrive of every student is a new chance.

The arrival of every student is a new chance.

I enjoyded it a lot.

I enjoyed it a lot.

The girls’d rather play table tennis or badminton.

The girls would rather play table tennis or badminton.

The level of life in the USA is similar to the UK.

The cost of living in the USA is similar to the UK.



Bảng 2.1: Bộ nhãn lỗi của bài báo

gồm những phép biến đổi cơ bản (basic edits) như là: thêm từ (word insertions),

xoá từ (word deletion) và thế từ (word substitutions).

Ví dụ: Xem Hình 2.2 bên dưới, lỗi "to change"→ "changing" là tổng hợp của

việc xoá từ to và thế từ change thành changing, lỗi "moment"→ "minute" là một

phép thế từ. Do đó, chúng ta có thể xây dựng hệ thống để nhận diện lỗi bằng

cách thực hiện hai bước sau: (1) nhận diện những phép biến đổi cơ bản (basic

edits) trong câu sửa lỗi, và (2) tổng hợp những phép biến đổi cơ bản mà chúng

đều sửa cùng một lỗi.

Tuy nhiên, trong thực tế cách tiếp cận hai bước như thế này có thể gây ra

nhận diện sai do sự nhập nhằng. Sự nhập nhằng này có thể từ một trong hai



19



Hình 2.2: Ví dụ về nhận diện lỗi tiếng Anh



bước. Ví dụ về sự nhập nhằng ở bước một, xem Hình 2.3 bên dưới. Các phép

biến đổi cơ bản được chương trình nhận diện ra ở đây là thế từ (because → for),

thế từ (of → repairs) và thêm từ (reparations), trong khi các phép biến đổi này

đúng ra phải được nhận diện là thêm từ (because), thế từ (of → for) và thế từ

(reparations → repairs). Lỗi này xảy ra do thuật toán Levenshtein chỉ cố gắng

giảm thiểu số lượng phép biến đổi, mà không quan tâm các phép biến đổi này có

mang ý nghĩa trong ngơn ngữ học hay khơng.



Hình 2.3: Ví dụ về nhập nhằng trong bước nhận diện những phép biến đổi cơ bản



Ví dụ về sự nhập nhằng ở bước hai, xem Hình 2.4 và 2.5 bên dưới. Hình 2.4

mơ tả những trường hợp lỗi khi mà các phép biến đổi cơ bản cùng sửa một lỗi,

nhưng bước tổng hợp lại không nhận diện ra được, và khơng thể gom nhóm các

phép biến đổi này được. Hình 2.5 mơ tả trường hợp lỗi ngược lại, khi các phép

biến đổi cơ bản không cùng sửa một lỗi, nhưng bước tổng hợp lại xem chúng

cùng sửa một lỗi và gom nhóm chúng lại với nhau. Lỗi này là do trong bước tổng

hợp những phép biến đổi cơ bản, cơng trình nghiên cứu trước đó của Swanson

và Yamangilapplied đã áp dụng một heuristic về khoảng cách - những phép biến

đổi nào mà gần nhau sẽ được gom nhóm lại với nhau.

Theo bước phân tích lỗi, những lỗi như trên làm cho bước nhận diện lỗi sai

30% và 75% việc nhận diện sai tới từ bước hai: bước tổng hợp các phép biến đổi



20



Hình 2.4: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản



Hình 2.5: Ví dụ về nhập nhằng trong bước tổng hợp những phép biến đổi cơ bản



cơ bản. Do đó, để tăng độ chính xác của tồn bộ hệ thống, nghiên cứu này tập

trung vào xây dựng một bộ phân lớp cho bước tổng hợp các phép biến đổi cơ

bản.

Dựa vào việc phân tích lỗi, việc quyết định những phép biến đổi cơ bản có

liên quan với nhau hay không sẽ phụ thuộc vào ngữ cảnh. Từ nhận xét đó, tác giả

huấn luyện bộ phân lớp nhị phân Maximum Entropy dựa trên những đặc trưng

rút trích được từ những ngữ cảnh có liên quan cho các phép biến đổi cơ bản.

Bảng bên dưới mô tả cho các đặc trưng trong bộ phân lớp này. Những đặc

trưng này dùng để xác định: (A) việc tổng hợp hai phép biến đổi cơ bản có trùng

khớp với một lỗi thơng thường hay không và (B) một phép biến đổi cơ bản có

chỉ ra một lỗi đơn lẻ hay khơng.

Type



A



B



Name

gap-between-edits

tense-change

word-order-error

same-word-set

revised-to

editdistance=1

not-in-dict

word-choice

preposition-error



Description

Khoảng cách giữa hai phép biến đổi. Cụ thể, đây là số lượng từ giữa hai phép biến đổi cơ bản trong câu gốc, cũng như là trong câu đã được chỉnh sửa.

Nhận diện những mẫu như là: nếu cặp câu gốc - câu chỉnh sửa mà khớp với mẫu "V-ing => to V"

Bộ từ trong câu gốc của những phép biến đổi cơ bản này có giống bộ từ trong câu chỉnh sửa hay khơng.

Nếu câu gốc và câu chỉnh sửa có chung một bộ từ, thì có thể là tất cả những phép biến đổi này nhằm để sửa lỗi thứ tự từ (word order).

Cụm từ này bao gồm hai từ được chỉnh sửa.

Nếu phép biến đổi cơ bản là một phép thế, và từ gốc/chỉnh sửa chỉ có khoảng cách là 1, nó biểu thị rằng phép biến đổi cơ bản này đang sửa một lỗi chính tả.

Nếu từ gốc khơng nằm trong từ điển, nó thể hiện rằng đây là một lỗi chính tả

Nếu từ gốc và từ được chỉnh sửa có cùng nhãn từ loại, đây có thể là lỗi lựa chọn từ (word choice).

Từ gốc và từ chỉnh sửa cùng là giới từ.



Bảng 2.2: Các đặc trưng được sử dụng trong bộ phân lớp

Những lỗi được gán nhãn một cách rõ ràng được rút trích từ một vài mẫu

trong bộ ngữ liệu sẽ được dùng để huấn luyện cho bộ phân lớp này. Đầu tiên,



21



những phép biến đổi cơ bản sẽ được rút trích ra, sau đó nếu hai phép biến đổi

liên tiếp nhau cần được gom nhóm lại, nó sẽ được đánh dấu là True, ngược lại là

False.



2.5.3



Nhận xét



Bài toán của Rebecca và Huichao Xue đang giải quyết tương tự như bài toán

được nghiên cứu trong luận văn này, tuy nhiên phương pháp thực hiện khác

nhau. Điều này chứng tỏ đây là một vấn đề được nhiều người quan tâm nghiên

cứu và cũng đã đạt được một số kết quả nhất định. Như có đề cập trong Chương

2, chúng tôi thực hiện một số thử nghiệm trên bộ ngữ liệu NUCLE mà Rebecca

đã sử dụng để so sánh kết quả của hai phương pháp với nhau. Kết quả này sẽ

được trình bày chi tiết trong Chương 6.



2.6

2.6.1



Support Vector Machine

Giới thiệu



Support Vector Machine (SVM) là một mô hình phân lớp có giám sát trong lĩnh

vực máy học. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng thành hai

lớp khác nhau. Cho một bộ dữ liệu huấn luyện, mỗi phần tử được gán vào một

trong hai lớp, thuật tốn SVM sẽ xây dựng một mơ hình để gán những phần tử

mới vào một trong hai lớp đó.

Về ý tưởng thì SVM sử dụng thủ thuật để ánh xạ tập dữ liệu ban đầu vào

không gian nhiều chiều hơn. Khi đã ánh xạ sang không gian nhiều chiều, SVM

sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để phân lớp tập dữ liệu đó. Một

cách trực quan để phân loại tốt nhất thì phải xác định siêu phẳng nằm ở càng

xa các điểm dữ liệu của tất cả các lớp càng tốt (gọi là hàm lề), vì nói chung lề

càng lớn thì sai số tổng qt hóa của thuật tốn phân loại càng bé.



2.6.2



Nhận xét



Support Vector Machine là một trong những mơ hình phân lớp tiên tiến nhất

hiện nay, cho kết quả phân lớp khá cao trên nhiều bài toán. Tuy nhiên theo như



22



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

1 Tình hình nghiên cu

Tải bản đầy đủ ngay(0 tr)

×