Tải bản đầy đủ - 0 (trang)
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

Tải bản đầy đủ - 0trang

-4b. Kho ngữ liệu (corpus) là một tập hợp các mảnh ngôn ngữ được chọn lựa và

sắp xếp theo một số tiêu chí ngơn ngữ học rõ ràng để được sử dụng như một mẫu

ngôn ngữ [18].

Hoặc:

Kho ngữ liệu là một hệ thống tham chiếu dựa trên một bộ sưu tập điện tử của

văn bản bao trong một ngôn ngữ nhất định [27].

c. Kho dữ liệu song ngữ (Parallel corpus) là một kho các cặp văn bản

song ngữ được trình bày dưới dạng điện tử, trong đó có mỗi ngơn ngữ là bản dịch

của ngôn ngữ kia [18].

Trường hợp đơn giản nhất là hai ngơn ngữ trong đó mỗi một kho dữ liệu của

ngôn ngữ này là một bản dịch chính xác của ngơn ngữ kia. Một số kho dữ liệu song

song, bao gồm ngữ liệu của nhiều ngôn ngữ. Một số kho dữ liệu song song thì dữ

liệu của ngôn ngữ này được dịch trực tiếp từ ngôn ngữ kia hoặc thơng qua một ngơn

ngữ trung gian. Ví dụ: kho dữ liệu Anh – Việt, từ tiếng Anh có thể thông qua ngôn

ngữ trung gian là tiếng Pháp để dịch từ tiếng Anh sang tiếng Pháp rồi từ tiếng Pháp

sang tiếng Việt.

1.1.2. Ứng dụng của kho dữ liệu song ngữ

Trên thế giới người ta đã xây dựng các kho ngữ liệu đơn ngữ khá lớn nhưng

chủ yếu là tiếng Anh được rất nhiều nhà khoa học trên thế giới khai thác và sử dụng.

Cũng có một số kho ngữ liệu bằng tiếng Pháp, Hoa, Nhật,... nhưng với quy mô nhỏ

hơn. Đối với kho ngữ liệu song ngữ, hiện nay trên thế giới, có rất nhiều các kho dữ

liệu song ngữ được sử dụng với nhiều mục đích khác nhau như: từ điển, dịch tự

động, tìm kiếm thơng tin xun ngôn ngữ, nghiên cứu ngôn ngữ học, học ngoại

ngữ,...

Một số kho ngữ liệu song ngữ khá lớn như kho ngữ liệu song ngữ Anh - Pháp

ở thư viện quốc hội Canada, kho ngữ liệu song ngữ Anh - Hoa ở Hồng Kông,... Ở

Việt Nam chúng ta hiện nay, nếu không đòi hỏi tiêu chuẩn dịch 1-1 thì có thể kể đến

kho ngữ liệu song song đa ngữ nổi tiếng đó là bộ Kinh thánh với hàng trăm thứ

tiếng, truyện Harry Potter ( Chinese-Korean-Japenese-Vietnamese), các trang web

song ngữ Anh-Việt như ThanhNien, Vietnamnet, NhanDan,.... Riêng kho ngữ liệu



-5song ngữ (dịch 1-1) Anh - Việt có gán nhãn ngơn ngữ hiện nay có kho ngữ liệu song

ngữ Anh - Việt có tên là EVC [1].

Từ kho ngữ liệu đơn ngữ hay song ngữ chúng ta có thể sử dụng để phục vụ

cho nhiều lĩnh vực khác nhau như ứng dụng trong ngôn ngữ học - thống kê, ngôn

ngữ học – so sánh, ngôn ngữ học – máy tính và ứng dụng trong giảng dạy ngoại

ngữ,...

1.1.2.1.



Ứng dụng trong ngôn ngữ học – thống kê



Ngôn ngữ học – thống kê là ứng dụng phương pháp xác suất - thống kê vào

việc thống kê, đo, đếm các đối tượng trong ngành ngôn ngữ học. Cùng với sự trợ

giúp của máy tính đã giúp cho hiệu quả ngành ngôn ngữ học – thống kê tăng lên

đáng kể [1].

1.1.2.2.



Ứng dụng trong ngôn ngữ học so sánh



Ngôn ngữ học so sánh là so sánh các điểm tương đồng, khác biệt giữa các

ngôn ngữ. Để so sánh chúng ta cần có các cứ liệu của các ngơn ngữ mà chúng ta cần

so sánh vì vậy việc thu thập, tổng hợp cứ liệu từ các nguồn khác nhau là rất cần

thiết. Vì vậy, kho ngữ liệu song ngữ Anh – Việt là nguồn cứ liệu quan trọng để có

thể khai thác trong việc phục vụ cho ngôn ngữ học so sánh [1].

1.1.2.3.



Ứng dụng trong giảng dạy ngoại ngữ



Kho ngữ liệu song ngữ đóng vai trò quan trọng trong việc làm nguồn ngữ liệu

và tài liệu sư phạm rất phong phú, gọn nhẹ trong việc dạy và học ngoại ngữ, đặc

biệt là kho ngữ liệu song ngữ Anh – Việt được khai thác và phục vụ cho mục đích

dạy tiếng Anh cho người Việt và dạy tiếng Việt cho người nước ngoài giúp cho

người học tránh được các lỗi thường gặp như cách đặt câu, sử dụng từ như trong

tiếng mẹ đẻ,... Kho ngữ liệu song ngữ Anh – Việt có thể được sử dụng trong giảng

dạy tiếng Anh để lấp khoảng trống giữa thực hành và lý thuyết. Đồng thời, các giáo

viên khi sử dụng kho song ngữ có thể làm giàu thêm kiến thức của họ, cung cấp

thêm dữ liệu xác thực trong bài giảng và cũng là công cụ hữu ích trong việc thiết kế

giáo trình [17].

1.1.2.4.



Ứng dụng trong việc nghiên cứu dịch thuật



-6Kho ngữ liệu song song có thể giúp phiên dịch để tìm ra sự tương đương giữa

ngơn ngữ nguồn và đích. Chúng cung cấp thơng tin về tần số của từ, sử dụng cụ thể

từ vựng và cú pháp. Kho ngữ liệu song song có thể giúp phiên dịch để phát triển các

chiến lược dịch thuật có hệ thống các từ hay cụm từ hay câu khơng có tương đương

trực tiếp bằng ngơn ngữ đích. Trên cơ sở đó, tập hợp các bản dịch có thể được xác

định và các dịch giả có thể chọn một chiến lược dịch theo các chủ đề cụ thể và thể

loại [17].

1.1.3. Nghiên cứu một số kho dữ liệu song ngữ trên thế giới

1.1.3.1.



British National Corpus (BNC)



Kho ngữ liệu 100.000.000 từ được lấy từ các mẫu văn bản từ nhiều nguồn.

Ấn bản mới nhất là BNC XML Edition, phát hành vào năm 2007.

Phần ngôn ngữ viết của BNC (90%) được lấy từ các tờ báo trong khu vực và

quốc gia, các ấn phẩm đặt biệt xuất bản định kỳ và các tạp chí dành cho mọi lứa

tuổi, sách học và tiểu thuyết nổi tiếng, các tiểu luận của trường học và nhiều loại

văn bản khác. Phần ngơn ngữ nói (10%) bao gồm phiên âm chữ viết của các cuộc

hội thoại khơng chính thức (ghi lại bởi các tình nguyện viên được lựa chọn từ các

độ tuổi khác nhau, khu vực và các lớp xã hội một cách cân bằng) và ngơn ngữ nói

được thu thập trong các ngữ cảnh khác nhau, từ kinh doanh chính thức hay các cuộc

họp chính phủ đài phát thanh và điện thoại.

Kho ngữ liệu bắt đầu xây dựng vào năm 1991, và được hoàn thành vào năm

1994. Sau đó khơng có văn bản mới thêm vào sau khi hoàn thành dự án nhưng các

ngữ liệu đã được sửa đổi một chút trước khi phát hành phiên bản thứ hai BNC

World (2001) và phiên bản thứ ba BNC XML Edition (2007). Kể từ khi hoàn thành

dự án, có hai kho phụ với dữ liệu từ BNC đã được phát hành riêng biệt: BNC

Sampler (một bộ sưu tập chung của một triệu chữ viết, một triệu từ đàm thoại) và

BNC Baby (bốn mốt triệu mẫu chữ từ bốn thể loại khác nhau: tiểu thuyết, báo chí,

viết luận và đàm thoại. ) [14][15].

1.1.3.2.



Canadian Hansard Corpus (Anh – Pháp)



Kho ngữ liệu với 90 triệu từ Anh – Pháp, là ngữ liệu song song nổi tiếng được

trích từ các văn bản của Quốc hội Canada, đã được xuất bản bằng ngơn ngữ chính



-7thức tại Canada là tiếng Anh và tiếng Pháp. Nội dung của nó được giới hạn trong

luận lập pháp, ngữ liệu bao trùm một phạm vi rộng các chủ đề và phong cách, ví dụ

như thảo luận tự phát, trao đổi thư bằng văn bản, cũng như các bài phát biểu được

chuẩn bị trước.

Có một vài phiên bản của ngữ liệu song song Hansard Canada. Các phiên bản

USC bao gồm 1.300.000 cặp khối văn bản liên kết (tức là câu hoặc đoạn nhỏ hơn)

từ các hồ sơ chính thức của Quốc hội lần thứ 36 của Canada (1997 - 2000) với

2.000.000 từ trong tiếng Anh và tiếng Pháp. Phiên bản này được tự do tải về tại

trang web USC. TransSearch cung cấp một dịch vụ trực tuyến cho phép người dùng

đăng ký để truy cập vào tất cả các văn bản Hansard từ năm 1986 đến tháng hai năm

2003 (khoảng 235.000.000 từ) [13].

1.1.3.3.



JENAAD Japanese – English Parallel Corpus



(Anh – Nhật)

Kho ngữ liệu Japanese - English News Article Alignment Data (JENAAD)

chứa 150.000 cặp câu. Nguồn gốc của kho ngữ liệu được lấy từ Yomiuri Shimbun,

một trong những tạp chí quốc gia của Nhật Bản, và tờ báo tiếng Anh Daily

Yomiuri. Các ngữ liệu đã được cấp phép từ Viện Công nghệ Thông tin và Truyền

thông Quốc gia (National Institute of Information and Communications Technology

- NICT) Nhật Bản nhằm phục vụ cho mục đích nghiên cứu và giáo dục [20].



1.1.3.4.



PKU 863 (Anh - Trung) của Đại học Bắc Kinh



Kho ngữ liệu song song Anh - Trung PKU trong Dự án 863 của Viện Ngơn

ngữ học Tính tốn của Trường đại học Peking. Kho ngữ liệu gồm có hơn 200.000

liên kết những cặp câu được lấy từ những văn bản song ngữ có chất lượng

(3.066.435 từ tiếng Anh và tiếng Trung Quốc), bao gồm nhiều thể loại và lĩnh vực,

ví dụ những văn bản của chính phủ, những tài liệu chính thức, những văn bản tin

tức, những bài tiểu luận, những kịch bản bài phát biểu, những văn bản văn học, văn

xi hàn lâm, cũng như văn học chính trị, luật, du lịch, công nghiệp thực phẩm,

kinh tế và kinh doanh. Đa số các văn bản được lấy từ các trang web song ngữ trong



-8khi một số được số hoá bằng cách quét vào rồi qua công đoạn nhận dạng chữ

(OCR: Optical Character Recognization) [26].

1.2. MỘT SỐ KỸ THUẬT SỬ DỤNG ĐỂ XÂY DỰNG KHO DỮ LIỆU



SONG NGỮ

1.2.1. Cơ sở dữ liệu

Xây dựng một kho dữ liệu đơn ngữ, song ngữ hay đa ngữ thì cơng việc phức

tạp và tốn nhiều thời gian công sức nhất là xây dựng một cơ sở dữ liệu với nhiều

định dạng trên máy tính và để có được nguồn cơ sở dữ liệu đa dạng, phong phú

chúng ta phải sưu tập và lựa chọn nguồn dữ liệu có thể có được bằng cách sử dụng

các tài liệu gốc có sẵn như sách song ngữ, web song ngữ, kế thừa các CSDL có sẵn

từ các từ điển,…. Các CSDL này có thể tồn tại dưới nhiều định dạng khác nhau do

đó một cơng việc cần thiết nữa đó là lựa chọn cơng cụ để lưu trữ dữ liệu song ngữ.

Hiện nay có nhiều cơng cụ cho phép tổ chức lưu trữ dữ liệu song ngữ như:

XML, Word, HTML, các hệ quản trị cơ sở dữ liệu như Access, SQL, Oracle,… tuy

nhiên tùy theo mục đích khai thác mà ta lực chọn một cơng cụ thích hợp cho việc

khai thác, sau đây tôi xin giới thiệu đôi nét về XML.



1.2.1.1.



Tổng quan về XML



XML (Extensible Markup Language) ra đời vào tháng 2/1998, là ngơn ngữ có

kiến trúc gần giống với HTML nhưng XML nhanh chóng trở thành một chuẩn

phổ biến trong việc chuyển đổi thông tin qua các trang web sử dụng giao thức

HTTP. Trong khi HTML là ngơn ngữ chủ yếu về hiển thị dữ liệu thì XML lại đang

phát triển mạnh về việc chuyển tải, trao đổi và thao tác dữ liệu bằng XML. XML

đưa ra một định dạng chuẩn cho cấu trúc của dữ liệu hoặc thông tin bằng việc tự

định nghĩa định dạng của tài liệu. Bằng cách này, dữ liệu được lưu trữ bằng XML

sẽ độc lập với việc xử lý.

1.2.1.2.



Thuật ngữ



-9Dưới đây là những từ chuyên môn cần được hiểu rõ khi làm việc với

XML:

Document Type Definition (DTD) – Định nghĩa loại tài liệu

Mô tả cách thức tài liệu được thông dịch thông quá các thẻ đánh dấu.

DTD định nghĩa cho các loại tài liệu khác nhau.

Parser – Trình biên dịch

Mã chương trình nhận tài liệu XML, đọc, thơng dịch và trình bày chúng

dưới dạng đối tượng mà những ứng dụng có thể truy cập đến.

Tags – Thẻ

Cách thức tài liệu được đánh dấu để hiển thị. Thẻ sẽ định dạng dữ liệu

của tài liệu.

1.2.1.3.



Cấu trúc của một file XML



Mục đích của việc tổ chức thơng tin là để con người có thể đọc và hiểu

được những gì mà nó muốn truyền tải. Chúng ta xem một tập tin văn bản sau đây:

F10 Shimano Calcutta 47.76

F20 Bantam Lexica 49.99

Theo cách tổ chức thơng tin của tập tin trên, chúng ta thật khó để hiểu tập tin

này muốn nói lên điều gì. Bây giờ, chúng ta tổ chức tập tin trên theo định dạng

một tài liệu XML một cách đơn giản nhất.



- 10 -









F10

Shimano Calcutta



47.76





F20

Bantam

Lexica


49.99







Như vậy, bằng cách sử dụng định dạng XML, người dùng có thể hiểu và

biết được tập tin trên đang muốn truyền tải nội dung gì.

1.2.1.4.



Tạo lập một tài liệu XML



Chúng ta có thể sử dụng trình soạn thảo đơn giản nhất là Notepad để soạn

thảo tài liệu XML, nhưng phải tuân thủ theo qui tắc sau:



- 11 -







…..

....



....





Theo định dạng trên, chúng ta thấy tuy tài liệu XML rất đơn giản nhưng qui

định cũng rất nghiêm ngặt, có nghĩa là các tài liệu XML đều xuất phát từ nút gốc

(root), và mỗi phần tử phải có thẻ đóng và thẻ mở “< …/>”.

1.2.1.5.



Những thành phần của một tài liệu XML



Khai báo: Mỗi một tài liệu XML có một chỉ thị khai báo



Định nghĩa tài liệu XML tuân theo chuẩn của W3C và đây là phiên bản

“1.0”

Chú thích: được khai báo như sau: