Tải bản đầy đủ - 0 (trang)
2 Muc tiêu, i tng và pham vi nghiên cu

2 Muc tiêu, i tng và pham vi nghiên cu

Tải bản đầy đủ - 0trang

• Mục tiêu 2: Mục tiêu cụ thể là nghiên cứu phương pháp liên kết từ và phân

loại liên kết từ tự động trong ngữ cảnh hỗ trợ học tiếng Anh.

Việc nghiên cứu các phương pháp sửa lỗi tự động hoặc xây dựng hệ thống hỗ

trợ học tiếng Anh dựa trên thống kê đòi hỏi phải có bộ ngữ liệu được liên kết từ

đủ lớn. Những bộ ngữ liệu hiện đang có sẵn trên thế giới chưa đáp ứng đủ nhu

cầu nghiên cứu tồn diện cho mục đích sửa lỗi tự động cho các bài báo khoa học

hoặc hỗ trợ học tiếng Anh. Trong khi đó, do tốn nhiều chi phí nên bộ ngữ liệu

được liên kết bằng tay khơng đủ lớn, điều này đòi hỏi cần phải có phương pháp

liên kết và phân lớp từ tự động để có thể xây dựng một bộ ngữ liệu lớn phục vụ

được nhu cầu nghiên cứu.



1.2.2



Đối tượng



• Các cơng cụ liên kết từ và các phương pháp phân lớp bằng máy học

• Văn bản khoa học được viết bằng tiếng Anh, gồm hai bản: bản chưa chỉnh

sửa và bản được chỉnh sửa bằng tay bởi chuyên gia người bản xứ



1.2.3



Phạm vi nghiên cứu



Nội dung đề tài tập trung vào các bài báo khoa học được viết bằng tiếng Anh

trong hai lĩnh vực nghiên cứu là thị giác máy tính (computer vision) và xử lý

ngôn ngữ tự nhiên (natural language processing).



1.3



Ý nghĩa



Việc xây dựng được bộ ngữ liệu chuẩn để phục vụ nghiên cứu, ngoài việc sử dụng

trong ứng dụng hỗ trợ viết và học tiếng Anh, nó còn có thể được sử dụng trong

các ứng dụng sửa lỗi tự động và có thể dùng cho việc so sánh các công cụ này với

nhau. Hiện nay trên thế giới có một số ngữ liệu được xây dựng để phục vụ cho

nghiên cứu bắt lỗi ngữ pháp, chính tả như bộ ngữ liệu NUCLE, và NICT CLE.

Tuy nhiên chưa có bộ ngữ liệu cho các bài báo khoa học đáp ứng nhu cầu nghiên

cứu toàn diện các kỹ thuật hỗ trợ cho việc học tiếng Anh.



9



Về bài tốn liên kết từ, có khá nhiều các nghiên cứu và cơng cụ có sẵn, tuy

nhiên dành cho mục đích xây dựng hệ thống hỗ trợ học tiếng Anh thì đây còn là

một vấn đề khá mới. Hơn nữa, việc nghiên cứu, tổng hợp và phân tích các phương

pháp phần nào sẽ giúp hệ thống hóa các phương pháp liên kết từ hiện có.

Kết quả của đề tài này sẽ giúp xây dựng được bộ dữ liệu tốt phục vụ nghiên

cứu trên những ứng dụng như sửa lỗi tự động, hỗ trợ viết và học tiếng Anh.



10



Chương 2

CƠ SỞ LÝ THUYẾT

2.1



Tình hình nghiên cứu



Một số chương trình đã được xây dựng để hỗ trợ người không bản xứ viết tiếng

Anh, ví dụ như trong các bài báo [1], [2], [3]. Các hướng giải quyết được đề xuất

là: xây dựng công cụ hỗ trợ người viết truy vấn cụm từ thích hợp (collocation,

language expression) hoặc gợi ý cụm từ thích hợp dựa trên mơ hình ngơn ngữ

n-gram (NETSPEAK, [1]), hoặc dựa trên việc trích xuất co-occurrence và xếp

hạng theo T-scores (SAW, [3]). Một số kĩ thuật khác cũng được tích hợp vào để

người dùng có thể mở rộng khả năng tìm kiếm hoặc giúp cho việc tìm kết quả

nhanh hơn. Ngồi ra, Milton và Cheng ([2]) còn xây dựng chương trình để kiểm

tra lỗi ngữ pháp cho người viết tiếng Anh như là ngơn ngữ nước ngồi (Check

My Word).

Về bài tốn liên kết từ cho tiếng Anh, có khá nhiều cơng trình nghiên cứu về

vấn đề này. Có một số công cụ liên kết từ tự động đã được xây dựng và sử dụng

rộng rãi như GIZA++ ([4]), Berkeley Aligner ([5]). Tuy nhiên, tùy theo loại ứng

dụng cụ thể muốn xây dựng mà bài toán liên kết từ có thể khác nhau ít hay

nhiều. Ví dụ, bài tốn liên kết từ trong dịch máy thống kê có thể khác hồn tồn

với bài tốn liên kết từ sử dụng trong suy diễn ngôn ngữ tự nhiên (NLI - natural

language inference).

Liên quan đến bài toán liên kết từ trên dữ liệu đơn ngữ (monolingual alignment) có bài báo của Bouamor ([6]), tác giả sử dụng 3 kĩ thuật: liên kết từ dựa



11



trên máy học thống kê và không sử dụng kiến thức về ngôn ngữ học, liên kết từ

dựa trên ngữ nghĩa có sử dụng kiến thức ngơn ngữ học, và liên kết từ dựa trên

sự tương đồng về cấu trúc cú pháp. Bài báo của X.Yao và Durme (MANLI, [7])

sử dụng những kỹ thuật đơn giản như part-of-speech tags và từ điển WordNet

nhưng hiệu quả trong việc liên kết từ trên dữ liệu đơn ngữ, đặc biệt là hiệu suất

rất cao, thích hợp sử dụng cho khối lượng dữ liệu lớn. Ngồi ra, còn một số cơng

cụ được xây dựng với mục đích khác nhưng có tích hợp tính năng liên kết từ tự

động. Ví dụ METEOR ([8]) là một độ đo để đánh giá chất lượng các bản dịch

máy bằng cách liên kết bản dịch máy và bản dịch tham khảo, sau đó tính điểm

dựa trên các liên kết này.

Sau đây chúng tơi tóm tắt và phân tích một số phương pháp liên kết từ và

phân lớp liên kết từ được tham khảo đến trong luận văn.



2.2



METEOR



2.2.1



Giới thiệu



METEOR, viết tắt của Metric for Evaluation of Translation with Explicit ORdering,

là một công cụ được xây dựng như một độ đo để đánh giá chất lượng các bản

dịch máy.

Meteor đánh giá chất lượng bản dịch máy bằng cách liên kết các câu trong

bản dịch máy với bản dịch tham khảo (reference translation) do người dịch, sau

đó tính điểm tương đồng (lexical similarity score) giữa các câu trong hai bản dịch

này. Nếu có nhiều hơn một bản dịch tham khảo, điểm này sẽ được tính trên từng

bản dịch máy và bản dịch tham khảo, và điểm cao nhất sẽ được ghi nhận. Chất

lượng của tồn bộ bản dịch máy được tính dựa trên điểm của từng câu trong bản

dịch máy đó.

Như mô tả ở trên, việc đánh giá chất lượng bản dịch máy sẽ được thực hiện

qua hai bước: bước một là liên kết từ giữa bản dịch máy và bản dịch tham khảo,

bước hai là tính điểm tương đồng giữa hai bản dịch này dựa vào các liên kết từ ở

bước một. Với mục đích là nghiên cứu các phương pháp liên kết từ có liên quan,

luận văn này chỉ tập trung nghiên cứu bước một là bước liên kết từ giữa bản dịch

máy và bản dịch tham khảo.



12



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 Muc tiêu, i tng và pham vi nghiên cu

Tải bản đầy đủ ngay(0 tr)

×