Tải bản đầy đủ - 0 (trang)
5 Th nghim trên b ng liu khác

5 Th nghim trên b ng liu khác

Tải bản đầy đủ - 0trang

theo bất cứ một hướng dẫn gán nhãn lỗi nào. Do đó các nhãn lỗi này khơng

thống nhất và rất khó để cho những cơng cụ tự động liên kết một cách

chính xác. Ví dụ: xem Hình 5.3 và Hình 5.4.

...; as



they did some researches and found out that the country has food resources



...; based on



they did some researches and found out that the country has food resources

Hình 5.3: Liên kết từ trong NUCLE - Ví dụ 1



They will then analyze the solutions



in the economic and social aspects.



They will then analyze the solutions



based on economic and social considerations.



Hình 5.4: Liên kết từ trong NUCLE - Ví dụ 2



Ngữ liệu

SWA

NUCLE

FCE



Bảng 5.8: Thống kê ngữ liệu

Số lượng câu Số lượng nhãn lỗi

3,456

14

47,667

27

28,969

75



48



Bảng 5.9: Kết quả phân lớp trên SWA, NUCLE và FCE

Độ chớnh xỏc (%)

Ng liu Liờn kt t

SVM

Naăive Bayes Decision Tree

MANLI

67.2

63.9

53.9

SWA

METEOR

67.6

66.8

63.2

GIZA++ refined

71.8

68.9

69.4

MANLI

29.4

34.1

29.4

NUCLE METEOR

57.4

53.8

50.4

GIZA++ refined

61.5

57.8

52.2

MANLI

32.7

26.7

29.7

FCE

METEOR

78.6

74.9

72.9

GIZA++ refined

72.8

52.8

61.1



49



Chương 6

KẾT LUẬN VÀ HƯỚNG PHÁT

TRIỂN

6.1



Những kết quả thu được



Việc viết văn bản tiếng Anh một cách thành thạo và chuyên nghiệp, đặc biệt là

bài báo khoa học vẫn còn là một thách thức khơng nhỏ với hầu hết người không

sử dụng tiếng Anh như ngôn ngữ mẹ đẻ. Nhu cầu có một cơng cụ hỗ trợ việc

viết và học tiếng Anh một cách tự động là rất lớn. Trong luận văn này, chúng tơi

trình bày kết quả thử nghiệm và phân tích liên kết từ và phân lớp liên kết từ tự

động trên các bộ ngữ liệu SWA, SWA-2, NUCLE và FCE. Kết quả phân tích này

sẽ được sử dụng để xây dựng bộ ngữ liệu để nghiên cứu các kỹ thuật phân tích

lỗi của hệ thống hỗ trợ học tiếng Anh. Kết quả thử nghiệm và phân tích cũng

chỉ ra rằng việc liên kết và phân lớp từ trong bài toán xây dựng hệ thống hỗ trợ

học tiếng Anh này không phải là một công việc đơn giản.



6.1.1



Ý nghĩa khoa học



Đề tài đề xuất được phương pháp giải quyết cho bài toán khá mới là liên kết từ

để hỗ trợ học tiếng Anh với dữ liệu nghiên cứu là các bài báo khoa học.

Đề tài đã thử nghiệm so sánh phương pháp đề xuất với phương pháp khác,

thử nghiệm phương pháp đề xuất trên nhiều tập ngữ liệu khác nhau và chỉ ra ưu

điểm / khuyết điểm của từng phương pháp. Ngoài ra đề tài còn thử nghiệm và



50



so sánh mức độ phù hợp của các phương pháp liên kết từ với bài toán hiện tại.

Đây có thể làm tài liệu tham khảo cho các đề tài nghiên cứu khác.



6.1.2



Ý nghĩa thực tiễn



Dựa trên phương pháp đề xuất ở trên, đề tài xây dựng được bộ ngữ liệu có liên

kết từ đủ lớn, có thể dùng để tiếp tục nghiên cứu các phương pháp sửa lỗi tiếng

Anh hay xây dựng các hệ thống hỗ trợ học tiếng Anh.



6.2



Hướng phát triển



Dựa vào kết quả thực nghiệm và phân tích lỗi ở trên, chúng tơi đề xuất một số

hướng phát triển luận văn như sau:

• Cải tiến độ chính xác của liên kết từ. Như kết quả phân tích ở trên, độ

chính xác của kết quả phân lớp phụ thuộc nhiều vào độ chính xác của kết

quả liên kết từ, do đó việc cải tiến độ chính xác của liên kết từ cũng sẽ làm

tăng độ chính xác của kết quả phân lớp. Có thể tập trung ở hai hướng cụ

thể như sau:

– Cải tiến độ chính xác của các loại liên kết N × N . Theo thống kê ở

Chương 5, loại lỗi chiếm tỉ lệ nhiều nhất trong cả ba công cụ liên kết

từ là lỗi không nhận diện và liên kết được loại N × N alignment.

– Cải tiến độ chính xác module Synonym của METEOR. Mặc dù được

xây dựng một tính năng riêng để liên kết từ đồng nghĩa / gần nghĩa

nhưng METEOR không đạt kết quả cao trong việc liên kết từ đồng

nghĩa / gần nghĩa so với những cơng cụ khác.

• Cải tiến độ chính xác của phân lớp liên kết từ. Có thể cải tiến phương pháp

phân lớp hiện tại bằng cách phân lớp paraphrase và các loại liên kết từ

khác một cách độc lập, hoặc nghiên cứu một mô hình phân lớp khác phù

hợp hơn với bài tốn này.



51



Tài liệu tham khảo

[1] B. Stein, M. Potthast, and M. Trenkmann, “Retrieving customary web language to assist writers,” in European Conference on Information Retrieval.

Springer, 2010, pp. 631–635. 11

[2] J. Milton and V. S. Cheng, “A toolkit to assist l2 learners become independent writers,” in Proceedings of the NAACL HLT 2010 Workshop on Computational Linguistics and Writing: Writing processes and authoring aids.

Association for Computational Linguistics, 2010, pp. 33–41. 11

[3] J.-S. Liu, P.-C. Hung, and C.-Y. Lee, “A language information retrieval approach to writing assistance,” Computational Linguistics and Chinese Language Processing Vol. 13, no. 3, pp. 279–306, 2008. 11

[4] F. J. Och and H. Ney, “Statistical machine translation,” in EAMT Workshop,

2000, pp. 39–46. 11

[5] P. Liang, B. Taskar, and D. Klein, “Alignment by agreement,” in Proceedings

of the main conference on Human Language Technology Conference of the

North American Chapter of the Association of Computational Linguistics.

Association for Computational Linguistics, 2006, pp. 104–111. 11

[6] H. Bouamor, A. Max, and A. Vilnat, “Monolingual alignment by edit rate

computation on sentential paraphrase pairs,” in Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational

Linguistics, 2011, pp. 395–400. 11



52



TÀI LIỆU THAM KHẢO



[7] X. Yao, B. Van Durme, C. Callison-Burch, and P. Clark, “A lightweight and

high performance monolingual word aligner.” in ACL (2), 2013, pp. 702–707.

12

[8] M. Denkowski and A. Lavie, “Meteor universal: Language specific translation

evaluation for any target language,” in In Proceedings of the Ninth Workshop

on Statistical Machine Translation. Citeseer, 2014. 12

[9] H. Xue and R. Hwa, “Improved correction detection in revised esl sentences.”

in ACL (2), 2014, pp. 599–604. 18, 47

[10] B. Swanson and E. Yamangil, “Correction detection and error type selection

as an esl educational aid,” in Proceedings of the 2012 Conference of the North

American Chapter of the Association for Computational Linguistics: Human

Language Technologies. Association for Computational Linguistics, 2012,

pp. 357–361. 18

[11] H. Yannakoudakis, T. Briscoe, and B. Medlock, “A new dataset and method

for automatically grading esol texts,” in Proceedings of the 49th Annual

Meeting of the Association for Computational Linguistics: Human Language

Technologies-Volume 1. Association for Computational Linguistics, 2011,

pp. 180–189. 18

[12] D. Dahlmeier, H. T. Ng, and S. M. Wu, “Building a large annotated corpus of learner english: The nus corpus of learner english,” in Proceedings of

the Eighth Workshop on Innovative Use of NLP for Building Educational

Applications, 2013, pp. 22–31. 31

[13] D. Nicholls, “The cambridge learner corpus: Error coding and analysis for

lexicography and elt,” in Proceedings of the Corpus Linguistics 2003 conference, vol. 16, 2003, pp. 572–581. 31

[14] F. J. Och and H. Ney, “A systematic comparison of various statistical alignment models,” Computational linguistics, vol. 29, no. 1, pp. 19–51, 2003.

40



53



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

5 Th nghim trên b ng liu khác

Tải bản đầy đủ ngay(0 tr)

×