Tải bản đầy đủ - 0 (trang)
2 Liên kt t t ng

2 Liên kt t t ng

Tải bản đầy đủ - 0trang

và chúng ta nên xem xét để cải tiến phương pháp liên kết từ để giải quyết vấn

đề này.

Kết quả thử nghiệm trên SWA-2 lại khác một chút so với kết quả trên SWA.

Về tổng quan, kết quả trên SWA-2 không tốt bằng SWA trên gần như tất cả các

set up, điều này có thể hiểu được vì số lượng nhãn lỗi trong SWA-2 nhiều hơn

SWA, do đó độ phức tạp cũng cao hơn. GIZA++ refined có độ chính xác cao

nhất với 82.6% so với hai cơng cụ còn lại. Tuy nhiên về độ phủ thì MANLI lại

có kết quả cao nhất và do đó có độ đo F1 cao hơn (Xem Bảng 5.1).



5.2.3



Phân tích lỗi liên kết từ



Khi xem xét kĩ hơn về kết quả phân lớp trên từng nhãn riêng biệt, chúng tôi nhận

thấy rằng mỗi công cụ liên kết từ có từng ưu nhược điểm riêng biệt (Bảng 5.2).

METEOR và MANLI phân lớp tốt trên các loại nhãn Mono-alignment như là

Preserved, Unaligned và Mono-alignment Grammar, tuy nhiên lại phân lớp không

tốt trên các nhãn Bi-alignment Grammar, đặc biệt là METEOR. GIZA++ refined

phân lớp tốt trên các loại nhãn Bi-alignment, đặc biệt là Paraphrase, Determiner

và Typo/Spelling. Điểm yếu của GIZA++ refined là phân lớp loại Preserved và

Mono-alignment. MANLI và METEOR là hai công cụ được xây dựng để liên kết

từ đơn ngữ và được mong đợi sẽ cho kết quả liên kết từ tốt hơn GIZA++ refined,

do đó kết quả thử nghiệm này cũng gây nhiều bất ngờ khi GIZA++ refined lại

là công cụ liên kết từ cho kết quả tốt nhất.

Để giúp cho việc cải tiến các phương pháp liên kết từ này hiệu quả hơn, chúng

tôi chọn ngẫu nhiên một số liên kết sai từ cả ba cơng cụ trên, gom nhóm và phân

tích các lỗi sai này. Kết quả phân tích được trình bày trong Bảng 5.3. Có rất

nhiều loại lỗi khác nhau, tuy nhiên ta có thể chia thành hai nhóm lỗi lớn đó là:

Các từ có liên quan khơng được liên kết với nhau (1) và Các từ không liên quan

được liên kết với nhau (2). Ví dụ:

• (1) Các từ có liên quan khơng được liên kết với nhau. Xem ví dụ ở Hình 5.1,

liên kết từ lỗi ta có là một mono-alignment will và một single alignment

illustrate - illustrates, trong khi đó liên kết từ đúng sẽ là will illustrate illustrates.



41



Bảng 5.2: Kết quả liên kết từ phân loại theo nhãn

MANLI METEOR GIZA++ refined

(%)

(%)

(%)

Preserved

97.3

98.2

96.6

Unaligned

40.8

43.9

11.2

Mono-alignment Preposition

74.4

88.9

39.2

Mono-aligment Determiner

84.0

82.6

74.7

Bi-alignment Verb tense

53.4

54.7

58.8

Bi-alignment Word form

82.1

74.2

73.5

Bi-alignment Agreement

30.2

32.1

24.5

Bi-alignment Preposition

73.0

2.9

86.2

Bi-alignment Determiner

61.4

3.7

79.1

Bi-alignment Others

91.6

66.0

90.2

Paraphrase

25.8

13.5

38.0

Typo/Spelling

41.2

11.7

84.8

Duplicate

30.8

23.1

15.4

• (2) Các từ khơng liên quan được liên kết với nhau. Xem ví dụ ở Hình 5.2,

liên kết từ lỗi ta có là một N × N The analysis - Analysis, trong khi đó hai

liên kết từ đúng phải là một mono-alignment The và một single alignment

analysis - analysis.



The



Analysis



analysis



of



the



of



the



experimental



experimental



results



results



will



illustrates



illustrate



the



the



necessity...



need...



WA

Hình 5.1: Ví dụ về nhóm lỗi (1): Các từ có liên quan khơng được liên kết với

nhau.

Cả ba cơng cụ này đều có tỉ lệ lỗi sai cao trên nhóm lỗi (1), đặc biệt là MANLI

với tỉ lệ lên tới 91%. Chiếm tỉ lệ nhiều nhất trong nhóm lỗi này là các lỗi sai

không liên kết được N × N alignment, chủ yếu là paraphrase và Verb tense, tỉ

lệ lỗi này của MANLI, METEOR và GIZA++ refined lần lượt là 68.0%, 32.0%

và 56.0%. Rõ ràng, việc nhận diện và liên kết đúng các N × N alignment là việc



42



The analysis



Analysis



of



of



the



the



experimental



experimental



results



results



will



illustrate



illustrates



the



the



necessity...



need...



WA

Hình 5.2: Ví dụ về nhóm lỗi (2): Các từ không liên quan được liên kết với nhau.

không hề dễ dàng. Với MANLI và METEOR, loại lỗi chiếm tỉ lệ cao tiếp theo là

không liên kết được những alignment gần nghĩa/đồng nghĩa, chiếm tỉ lệ lần lượt

là 13.0% và 26.0%, trong khi đó GIZA++ refined lại làm rất tốt cơng việc này.

Phân tích kết quả trên SWA-2 thì ta thấy rằng tương tự như SWA, GIZA++

refined cũng có kết quả tốt trên những nhãn inarticulation bi-alignment, đặc biệt

là những liên kết từ m × n. Mặt khác, MANLI lại có kết quả tốt trên những nhãn

inarticulation mono-alignment (ví dụ: textitMono-grammar Preposition, Monogrammar Determiner ), nó có kết quả tốt hơn hai cơng cụ còn lại trên tất cả

những nhãn loại này.

Bảng 5.3: Phân tích lỗi liên kết từ

MANLI METEOR GIZA++ refined

(%)

(%)

(%)

Các từ có liên quan

khơng được liên kết với nhau

Các từ không liên quan

được liên kết với nhau



5.3

5.3.1



91.0



86.0



56.0



8.0



14.0



44.0



Phân lớp liên kết từ

Thiết kế thử nghiệm



Chúng tôi so sánh kết quả phân lớp của ba phương pháp: Support Vector Machine

(SVM, linear kernel), Naăive Bayes, v Decision Tree. Training v testing đều được

thực hiện bằng cách sử dụng 5-fold cross-validation.



43



Với SWA, vì số lượng nhãn Preserved và Paraphrase chiếm tỉ lệ quá lớn trong

ngữ liệu nên chúng tôi đã giảm số lượng của hai nhãn này xuống bằng nhãn thứ ba

để bộ phân lớp không phân lớp thiên lệch về hai nhãn này. Với SWA-2, chúng tôi

giảm số lượng của các nhãn Preserved, Paraphrase Freeword và Mono-grammar

Determiner. Ngoài việc đánh giá trên ngữ liệu SWA, chúng tơi còn khảo sát kết

quả phân lớp trên kết quả thu được từ MANLI, METEOR, và GIZA++ refined.



5.3.2



Kết quả thử nghiệm



Ngữ liệu

SWA



SWA-2



Bảng 5.4: Kết quả phõn lp (5-fold cross validation)

chớnh xỏc (%)

Liờn kt t

SVM

Naăive Bayes Decision Tree

MANLI

67.2

63.9

53.9

METEOR

67.6

66.8

63.2

GIZA++ refined

71.8

68.9

69.4

Gold alignment

89.6

78.3

80.8

MANLI

70.5

66.1

63.9

METEOR

55.5

50.8

39.9

GIZA++ refined

67.8

61.2

62.7

Gold alignment

77.3

68.7

73.2



Trên cả hai ngữ liệu SWA và SWA-2, SVM có kết quả tốt hơn Naăive Bayes v

Decision Tree trong tt c cỏc trng hp, đặc biệt là khi sử dụng ngữ liệu vàng

(Bảng 5.4). Tính trung bình, độ chính xác phân lớp của SVM tốt hơn 5.9%, dao

động từ 2.6 tới 10.05%. Kết quả từ SWA cho thấy rằng khơng có sự khác biệt

nào ỏng k gia Naăive Bayes v Decision Tree bc phân lớp này, trong bốn

kết quả từ hai loại này thì mỗi loại tốt hơn hai kết quả. Tuy nhiên với SWA-2 kết

quả phân lớp của Decision Tree bị ảnh hưởng rất nhiều bởi độ chính xác của kết

quả liên kết từ. Kết quả phân lớp của Decision Tree trên METEOR gim 33.3%

(t 73.2% ti 39.9), trong khi vi Naăive Bayes kết quả phân lớp chỉ giảm 17.9%.

Kết quả phân lớp đặc biệt bị ảnh hưởng bởi kết quả liên kết từ, độ chính xác

phân lớp của ngữ liệu vàng và phân lớp trên kết quả liên kết từ tự động giảm

xuống rõ rệt từ 89.6% còn 71.8%.

Dựa vào confusion matrix từ phân lớp SVM của SWA, chúng tơi có nhận

xét răng ngoại trừ những mono-alignment preposition (10) và determiner (11) ,



44



những loại liên kết từ khác hiện đang bị phân lớp lẫn với loại paraphrase (7). Vấn

đề tương tự cũng xuất hiện trong SWA-2, hơn nữa tất cả các nhãn con thuộc

nhóm Paraphrase còn bị phân lớp lẫn với nhau.

Lý do có thể là những liên kết paraphrase trong ngữ liệu vàng có thể chứa

những liên kết từ tương tự như những loại liên kết từ khác khi được tách ra thành

những liên kết từ đơn (single-word alignments). Chúng tôi đã cố gắng giải quyết

vấn đề này bằng cách phân lớp nhãn Paraphrase trong SWA thành những nhãn

con như trong mơ hình 3.3, tuy nhiên có vẻ như vấn đề vẫn chưa được giải quyết

triệt để. Điều này chỉ ra rằng có thể việc phân lớp paraphrase và những loại liên

kết từ khác cùng một lúc có thể khơng phải là một mơ hình thích hợp.



5.4

5.4.1



So sánh với METEOR

Thiết kế thử nghiệm



Chúng tôi so sánh kết quả của nhiều sự kết hợp giữa các công cụ liên kết từ và

phương pháp phân lớp với METEOR. Do bộ nhãn của METEOR chỉ bao gồm

4 nhãn trong khi SWA là 13 nhãn, nên một bước ánh xạ đơn giản đã được thực

hiện để tiện cho việc so sánh: một nhãn trong SWA sẽ được ánh xạ qua một nhãn

trong METEOR (xem Bảng 5.5). Riêng nhãn Paraphrase trong SWA được ánh xạ

thành nhãn Paraphrase trong METEOR cho loại liên kết m×n (m, n > 1); ngược

lại, nó được ánh xạ thành nhãn Synonym của METEOR (liên kết 1 × 1). Ngoại

trừ bộ nhãn, thử nghiệm này sử dụng các thiết lập tương tự như thử nghiệm

trên.



5.4.2



Kết quả thử nghiệm



Sử dụng Meteor trên tập ngữ liệu SWA, chúng tơi có kết quả thống kê từng loại

liên kết từ như Bảng 5.6

Phân lớp SVM trên ngữ liệu vàng đạt được kết quả tốt nhất (độ chính xác

90.03%), vượt qua kết quả chạy hồn tồn bằng METEOR (Bảng 5.7). Chúng

tôi cũng ghi nhận hai kết quả cho METEOR: METEOR 1 là kết quả của thử

nghiệm trên toàn bộ dữ liệu trong khi METEOR 2 là kết quả trên dữ liệu đã



45



Bảng 5.5: Ánh xạ giữa bộ nhãn SWA và METEOR

Nhãn METEOR

Nhãn SWA

Số lượng

Exact

Preserved (13)

68,552

Verb tense (3)

Word form (4)

Stem

573

Agreement (6)

Paraphrase (7)

Synonym

481

(1 × 1 alignment)

Paraphrase (7)

Paraphrase

906

(m × n alignment)

Preposition (1)

Determiner (2)

Others (5)

Typo/Spelling (8)

Unaligned

2,751

Duplicate (9)

Preposition (10)

Determiner (11)

Unaligned (12)

Tổng cộng

73,263

Bảng 5.6: Kết quả chạy thử nghiệm METEOR trên ngữ liệu SWA

Exact

71,208

Stem

677

Synonym

268

Paraphrase

744

được giảm bớt số lượng các nhãn chiếm tỉ lệ cao. Ngoại trừ kết quả từ ngữ liệu

vàng, sự kết hợp METEOR-SVM có kết quả tốt hơn một cách rõ rệt so với những

sự kết hợp khác (độ chính xác 85.59%). Điều này cũng gợi ý việc cải tiến kết quả

của METEOR bằng cách sử dụng SVM cho bước phân lớp. Lưu ý rằng việc so

sánh ở đây không hồn tồn cơng bằng vì METEOR là hồn tồn khơng giám

sát trong khi SVM đòi hỏi dữ liệu huấn luyện.



46



Bảng 5.7: Kết quả phân lớp trên bộ nhãn METEOR

Phương pháp

Độ chớnh xỏc (%)

METEOR 1 (all data)

84.12

METEOR 2 (filtered data)

78.10

SVM

79.94

MANLI

ă

Naive Bayes

73.45

Alignment

Decision Tree

63.07

SVM

85.39

METEOR

ă

Naive Bayes

77.25

Alignment

Decision Tree

72.41

GIZA++ SVM

82.28

ă

refined

Naive Bayes

75.05

Alignment Decision Tree

71.82

SVM

90.03

Gold

ă

Naive Bayes

81.74

Alignment

Decision Tree

71.13



5.5



Th nghim trên bộ ngữ liệu khác



Để kiểm tra phương pháp đề xuất, chúng tôi áp dụng thử phương pháp này trên

bộ ngữ liệu NUCLE. Mục đích của thử nghiệm này là để so sánh kết quả phân

lớp ở trên với kết quả phân lớp trên bộ ngữ liệu khác. NUCLE là viết tắt của

NUS Corpus of Learner English, bao gồm khoảng 1,400 bài luận của sinh viên

đại học tại NUS. Bộ ngữ liệu này cũng được sử dụng trong bài báo [9].

Kết quả phân lớp trên NUCLE được trình bày như trong Bảng 5.9. Độ chính

xác của phân lớp trên ngữ liệu SWA cao hơn NUCLE trên tất cả 9 set-ups. Điều

này có thể lý giải như sau:

1. Số lượng nhãn lỗi của NUCLE gần như gấp đôi số lượng nhãn lỗi của SWA,

xem bảng so sánh 5.8. Số lượng nhãn lỗi càng nhiều thì độ phức tạp của

bài tốn phân lớp càng tăng.

2. SWA tập trung vào văn phong báo cáo khoa học, trong khi NUCLE bao

gồm tất cả bài luận của sinh viên do đó lĩnh vực trong NUCLE khá rộng.

3. Những lỗi được sửa trong NUCLE, tương ứng với một liên kết từ trong

SWA chỉ dựa trên lỗi thực tế được sửa của giáo viên tiếng Anh mà không



47



theo bất cứ một hướng dẫn gán nhãn lỗi nào. Do đó các nhãn lỗi này khơng

thống nhất và rất khó để cho những cơng cụ tự động liên kết một cách

chính xác. Ví dụ: xem Hình 5.3 và Hình 5.4.

...; as



they did some researches and found out that the country has food resources



...; based on



they did some researches and found out that the country has food resources

Hình 5.3: Liên kết từ trong NUCLE - Ví dụ 1



They will then analyze the solutions



in the economic and social aspects.



They will then analyze the solutions



based on economic and social considerations.



Hình 5.4: Liên kết từ trong NUCLE - Ví dụ 2



Ngữ liệu

SWA

NUCLE

FCE



Bảng 5.8: Thống kê ngữ liệu

Số lượng câu Số lượng nhãn lỗi

3,456

14

47,667

27

28,969

75



48



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 Liên kt t t ng

Tải bản đầy đủ ngay(0 tr)

×