Tải bản đầy đủ - 0 (trang)
2 Ð xut b nhãn mi

2 Ð xut b nhãn mi

Tải bản đầy đủ - 0trang

• Nhãn Paraphrase hiện giờ đang mang ý nghĩa khá chung chung và không

cung cấp nhiều thông tin cho người học tiếng Anh. Vì vậy nó nên được tách

ra thành nhiều loại lỗi cụ thể hơn dựa vào lý do dẫn đến loại lỗi này.

Do đó, để giải quyết hạn chế trên, chúng tôi đề xuất chỉnh sửa bộ nhãn lỗi như

trong Hình 3.3. Cụ thể, nhãn Noun-number được thêm vào thành một nhãn con

của Grammar; nhãn Paraphrase được tách ra thành ba nhãn con: Lexical, Phrasal

và Sentential, riêng Phrasal có thêm hai nhãn con: Free word và Collocation.

Lexical paraphrase: Gồm những trường hợp sau đây:

Loại 1 : Từ trong câu gốc và từ trong câu chỉnh sửa là hai từ đồng nghĩa

(synonym).

Ví dụ: "eat"→ "consume"

Loại 2 : Từ trong câu gốc và từ trong câu chỉnh sửa có quan hệ hyperonymy,

nghĩa là một từ có nghĩa cụ thể hơn từ kia.

Ví dụ: "reply"→ "talk"

Trong hai trường hợp trên đây, người sửa lỗi (proof-reader) đề xuất từ đồng

nghĩa nhằm làm cho văn bản phù hợp hơn với thể loại văn phong khoa học hoặc

phù hợp hơn với ngữ cảnh. Từ trong văn bản gốc chưa thực sự phù hợp chứ khơng

sai.

Loại 3 : Một ngữ trong câu gốc có thể được viết lại bằng một từ trong câu

chỉnh sửa và ngược lại. Điều này xảy ra khi người viết dùng cách diễn đạt dài

dòng (ngữ) vì khơng biết có từ tương đương tồn tại do giới hạn về vốn từ vựng.

Lưu ý 1: Có những từ được thay đổi dạng thức (chẳng hạn từ động từ sang

tính từ), nhưng sự thay đổi này đi kèm với những thay đổi của từ khác thì được

gọi là phrasal paraphrase chứ khơng phải lexical paraphrase. Ví dụ:

"The wireless mesh network has emerged as a very attractive technology

among academics and industries to flexibly and inexpensively realize a largescale WLAN."→ "An emerging technology called the wireless mesh network

is considered attractive and praised by academics and industries as a flexible and

inexpensive large-scale WLAN."

Lưu ý 2: Nếu một từ đơn được thêm những từ bổ ngữ tạo thành một ngữ mới

thì chỉnh sửa này được phân loại là phrasal paraphrase chứ khơng phải lexical

paraphrase. Ví dụ:



28



"I booked for certain people but now more people are coming, can they still

come?"→ "I booked for a certain number of people but now more people are

coming, can they still come?"

Phrasal paraphrase: La paraphrase cua hai tư trơ len. Loai nay bao gôm

nhưng truơng hơp sau:

Loại 1 - Collocation: Những từ thường xuất hiện cùng với nhau. Chỉnh

sửa này làm cho câu văn trở nên tự nhiên hơn (giống người bản xứ hơn).

Có 7 loại collocation sau đây:

• Verb of creation + Noun Pharase or Prepositional Phrase: come to an understanding, launch a missile

• Verb + Direct Object: reject an appeal

• Adjective + Noun, Noun + Noun: strong tea (powerful tea), house arrest

• Subject + Verb: bees sting

• Noun of Noun: a swarm of bees

• Adverb + Adjective: sound asleep

• Verb + Adverb: argue strenuously

Loại 2 - Free-word combination: Những từ không nhất thiết phải xuất

hiện cùng nhau trong ngữ cảnh. Mục đích của chỉnh sửa nhằm để bài viết rõ ràng

hơn.

Ví dụ:

"For the proper routing, the precise estimations of both delays become

essential."→ "The precise estimations of both delays are essential for the

proper routing."

"However, the estimation of the transmission delay of a link is hard during

the tree construction in the greedy algorithm."→ "However, it is hard to estimate the transmission delay of a link during the tree construction in the greedy

algorithm."

Một số trường hợp đặc biệt của free-word combination:



29



Loại 2.1 - Relative clauses:

"which contains"→ "containing"

"that are annotated"→ "annotated"

Loại 2.2 - Reduced phrase:

"As ABC is descirbed in ..., it is a ..."→ "As described in ..., ABC is ..."

Cần phân biệt lỗi paraphrase với trường hợp người viết có thể mắc lỗi trong

cách sử dụng giới từ như wait somebody → wait for somebody; cách sử dụng

phrasal verb, lỗi spelling như as ... as → such ... as. Những trường hợp này

không phân loại vào Paraphrase mà phân loại vào những loại lỗi Grammar.

Việc thêm những nhãn con này cho loại lỗi Paraphrase có thể giúp cho người

học dễ dàng xác định được những mặt hạn chế mà mình cần cải thiện.

Alignment

Inarticulation bi-alignment

Grammar

Preposition

Determiner

Verb tense

Word form

Others

Agreement

Noun number



1

2

3

4

5

6

7



Paraphrase

8



Lexical



Phrasal

Free word

10 Collocation

11 Sentential

12 Typo/Spelling

13 Duplicate

Inarticulation mono-alignment

9



Grammar

Preposition

15 Determiner

16 Unaligned

14



17



Preserved



Hình 3.3: Bộ nhãn đề xuất mới



30



3.3



Xây dựng ngữ liệu SWA-2



Dựa vào bộ nhãn lỗi đã được chỉnh sửa, chúng tôi gán nhãn lại cho ngữ liệu SWA

và thêm một số bài báo mới, làm tăng số lượng câu trong bộ ngữ liệu từ 3,485

lên 5,151 câu. Từ đoạn này trở về sau, chúng tôi sẽ gọi ngữ liệu này là SWA-2.

Mỗi văn bản trong ngữ liệu được gán nhãn bởi hai người gán nhãn (annotator)

khác nhau. Độ thống nhất giữa hai người gán nhãn được đo bằng cách tương tự

như cho ngữ liệu SWA. Độ thống nhất của dữ liệu SWA-2 đạt 0.747 nếu không

xét đến loại của liên kết từ và đạt 0.651 nếu có xét đến loại của liên kết từ. Kết

quả này cao hơn một chút so với kết quả của SWA (tương ứng là 0.714 và 0.637).



3.4



Ngữ liệu NUCLE



NUCLE là viết tắt của NUS Corpus of Learner English, đây là bộ ngữ liệu lớn

xây dựng cho mục đích phát triển và đánh giá các hệ thống sửa lỗi ngữ pháp.

NUCLE bao gồm khoảng 1,400 bài luận của sinh viên đại học tại NUS (National

University of Singapore) với tổng cộng hơn một triệu từ được sửa lỗi và gán nhãn

một cách hoàn chỉnh [12].

Ngữ liệu NUCLE bao gồm 27 nhãn lỗi và được chia thành 13 danh mục như

trong Bảng 3.1.



3.5



Ngữ liệu FCE



Bộ ngữ liệu FCE được lấy từ các bài viết từ bài kiểm tra First Certificate in

English dùng để đánh giá tiếng Anh trình độ trung-cao cấp (upper-intermediate).

Bộ ngữ liệu này là một phần nằm trong CLC (Cambridge Learner Corpus), là

một tập hợp các bài viết từ kì thi Cambridge Assessment’s English as a Second

or Other Language (ESOL) từ nhiều người học tiếng Anh (English learners) trên

tồn thế giới.

Mỗi bài viết sau đó được gán nhãn bằng tay, sử dụng bộ nhãn lỗi bao gồm

75 nhãn [13] như trình bày ở Bảng 3.3. Phần lớn nhãn lỗi dựa trên một hệ thống

nhãn lỗi hai kí tự, trong đó kí tự thứ nhất thể hiện loại lỗi chung (general type



31



Bảng 3.1: Bộ nhãn lỗi của ngữ liệu NUCLE

Nhãn lỗi Loại lỗi

Verbs

Vt

Verb tense

Vm

Verb modal

V0

Missing verb

Vform

Verb form

Subject-verb agreement

SVA

Subject-verb-agreement

Articles/determiners

ArtOrDet Articles or Determiners

Nouns

Nn

Noun number

Npos

Noun possessive

Pronouns

Pform

Pronoun form

Pref

Pronoun reference

Word choice

Wcip

Wrong collocation / idiom / preposition

Wa

Acronyms

Wform

Word form

Wtone

Tone

of error) và kí tự thứ hai xác định loại từ của từ còn thiếu (word class of the

required word).



32



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 Ð xut b nhãn mi

Tải bản đầy đủ ngay(0 tr)

×