Tải bản đầy đủ - 0 (trang)
CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN

CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN

Tải bản đầy đủ - 0trang

“prep”, “acl”, v.v.) thành một quan hệ phụ thuộc duy nhất. Sau đó giới từ được loại bỏ

khỏi cây phụ thuộc.

Chuẩn hóa liên từ: Dựa trên giả định rằng hai từ được liên kết với nhau bởi một

quan hệ phụ thuộc liên từ “consj” phải có cùng vai trò về mặt ngữ nghĩa và ngữ pháp trong

câu. Trong đồ án này, một cạnh bổ sung được thêm vào để đảm bảo rằng các từ trên có

cùng quan hệ phụ thuộc với các từ khác ở trong câu.



(a) Cây con từ cây phụ thuộc ban đầu



(b) Cây con từ cây phụ thuộc chuẩn hóa

Hình 4.2. Ví dụ về cây phụ thuộc chuẩn hóa.



4.2. Đề xuất mơ hình phân lớp quan hệ dựa trên mạng nơ ron tích chập

Hình 4.3 thể hiện kiến trúc tổng quan của mơ hình mạng nơ ron tích chập đề xuất cho

bài tốn trích chọn quan hệ trong văn bản. Một mạng nơ ron tích chập được xây dựng trên

đường đi phụ thuộc ngắn nhất để trích chọn các đặc trưng từ một chuỗi các từ và thông tin

về các quan hệ phụ thuộc. Các thành phần chính của mơ hình gồm: tầng biểu diễn đầu vào

(SDP), tầng tích chập và tầng phân lớp softmax.



4.2.1. Biểu diễn đầu vào

Trong tầng biểu diễn đầu vào, mỗi thành phần của đường đi phụ thuộc ngắn nhất

được biểu diễn thành một vectơ



∈ ℝ , trong đó d là số chiều biểu diễn mong muốn.



Để trích chọn được nhiều đặc trưng hơn từ đường đi phụ thuộc ngắn nhất, các thành phần

trên (từ và quan hệ phụ thuộc) được biểu diễn bởi nhiều thông tin khác nhau và được kết

hợp thành một vecto biểu diễn duy nhất.



26



Hình 4.3. Tổng quan về mơ hình đề xuất



4.2.2. Biểu diễn quan hệ phụ thuộc:

Khi biểu diễn quan hệ phụ thuộc có hai thành phần quan trọng cần được biểu diễn là

loại quan hệ và hướng quan hệ. Các hướng phụ thuộc được chứng minh là có hiệu quả đối

với việc trích chọn quan hệ. Mỗi quan hệ phụ thuộc



được biểu diễn thành một vectơ



là sự kết hợp của hai yếu tố: loại phụ thuộc và hướng phụ thuộc. Sau đó, vectơ nối được

chuyển thành quan hệ phụ thuộc như sau:

= tanh







trong đó:

27



+



(4.1)







∈ℝ



biểu diễn cho loại quan hệ phụ thuộc giữa 62 nhãn;







∈ℝ



là hướng của mối quan hệ phụ thuộc, tức là từ bên trái hoặc



bên phải trên SDP.

Biểu diễn từ:

Để biểu diễn từ, mô hình tận dụng các phương pháp, bao gồm:

 Biểu diễn sử dụng mơ hình fastText có sẵn: học cách biểu diễn từ dựa trên

ngữ cảnh bên ngồi của nó, do đó cho phép các từ thường xuất hiện trong

ngữ cảnh tương tự có các cách biểu thị tương tự. Mỗi từ trong đường đi phụ

thuộc ngắn nhất đầu vào được chuyển thành vector

bằng cách tra cứu ma

trận nhúng



∈ℝ



×|



|



, trong đó



là từ vựng của tất cả các từ xem



xét.

 Biểu diễn từ mức ký tự: mạng nơ-ron tích chập là một cách tiếp cận hiệu

quả để tìm hiểu các biểu diễn ở cấp độ ký tự cung cấp thông tin về hình thái

và hình dạng từ (như tiền tố hoặc hậu tố của từ). Với một từ bao gồm n ký

tự



;



; ...;



, trước tiên biểu diễn cho mỗi ký tự



dụng bảng tra cứu



×|



∈ ℝ



|



,, trong đó



bằng cách nhúng



sử



là bảng chữ cái. Một



mạng nơ-ron tích chập sâu với các kích thước cửa sổ khác nhau được áp

dụng trên chuỗi { , , … , } để trích chọn các đặc trưng mức ký tự của từ.

Vec tơ biểu diễn mức ký tự



cuối cùng được sinh ra thông qua việc áp dụng



một tầng max-pooling trên các đặc trưng tích chập.



28



Hình 4.4. Sử dụng tích chập để trích chọn đặc trưng kí tự

 Biểu diễn thơng tin vị trí: Để trích chọn mối quan hệ ngữ nghĩa, các đặc

trưng cấu trúc (ví dụ: đường đi ngắn nhất giữa các cặp thực thể) khơng có đủ

thông tin. Đường đi phụ thuộc ngắn nhất thiếu thông tin vị trí trong câu, theo

đó các từ mang nhiều thông tin biểu diễn mối quan hệ thường gần với các

thực thể đang xem xét. Đồ án sử dụng các thơng tin vị trí để theo dõi mức độ

gần nhau của từng từ trên đường đi phụ thuộc ngắn nhất với các thực thể

đích trên câu gốc. Đầu tiên tạo ra một vectơ 2 chiều [



;



] cho mỗi từ là



sự kết hợp của khoảng cách tương đối từ từ hiện tại đến hai thực thể. Sau đó,

thơng tin vị trí



có được thông qua một biến đổi như sau:

= tanh



[



,



]+



(4.2)



 Biểu diễn nhãn từ loại: Từ có thể có nhiều hơn một nghĩa được biểu thị

bằng nhãn từ loại của nó như danh từ, động từ, tính từ, trạng từ, v.v. Để giải

quyết bài tốn này, sử dụng thơng tin nhãn từ loại trong biểu diễn từ. Ma trận

nhúng được khởi tạo ngẫu nhiên



29



∈ℝ



×



cho 56 OntoNotes v5.0 của



các nhãn từ loại của Penn Treebank. Mỗi nhãn từ loại sau đó được biểu diễn

dưới dạng một vector



tương ứng.



 Biểu diễn tập dữ liệu WordNet: WordNet là một cơ sở dữ liệu từ vựng lớn

chứa tập hợp các từ đồng nghĩa (synsets). Mỗi tập hợp các từ đồng nghĩa

biểu diễn cho một khái niệm riêng biệt của một nhóm và có nhãn từ loại được

phân lớp thô (nghĩa là danh từ, động từ, tính từ hoặc trạng từ). Trong

WordNet, có tất cả 45 nhóm lớn nhất dưới gốc, bao phủ tồn bộ các từ xuất

hiện trong Wordnet. Sử dụng thông tin một từ thuộc về những tập synsets

nào, chúng ta biểu diễn được một từ bằng một vector n-hot thể hiện sự tương

quan giữa các từ gần nghĩa với nhau. Như vậy, biểu diễn WordNet của một

từ



là một vectơ thưa thể hiện rằng từ đó thuộc về các synset nào.



Cuối cùng, chúng ta nối biểu diễn thơng tin vị trí, biểu diễn nhãn từ loại, biểu diễn

ký tự, biểu diễn vị trí, biểu diễn nhãn từ loại và biểu diễn WordNet của mỗi mã thơng tin

vào một vec-tơ và chuyển đổi nó thành biểu diễn như sau:

= tanh



















+



Hình 4.5. Một ví dụ về biểu diễn từ, tích chập và lớp max-pooling



30



(4.3)



4.2.3. Phân lớp

Các đặc trưng của lớp áp chót sau đó được đưa vào mạng … (Mutil-layer Perceptron

- MLP) được kết nối đầy đủ. Đầu ra ℎ của lớp ẩn cuối cùng là các đặc trưng với mức độ

trừu tượng cao hơn, sau đó được đưa đến một bộ phân lớp softmax để dự đoán phân phối

lớp (K + 1) trên nhãn :

= softmax



ℎ +



(4.4)



4.2.4. Hàm huấn luyện mục tiêu và phương pháp huấn luyện

Mơ hình đề xuất phân lớp quan hệ mạng nơ-ron tích chập có thể được xác định là

tham số tuple . Phân phối lớp (K + 1) của



được dự đốn bởi lớp softmax biểu thị xác



suất SDP có quan hệ R. Tính tốn cross-entropy, và xa hơn là mục tiêu huấn luyện:

( )=



log



+ ‖ ‖



(4.5)



trong đó:

 y ∈ {0, 1}(K+1) chỉ ra vectơ one-hot là biểu diễn nhãn đích và là hệ số chuẩn

tắc



. Để tính tốn các tham số mơ hình



 tối ưu L( ) bằng cách áp dụng mini-batch gradient descent (GD) với phương

pháp tối ưu hóa Adam trong các thử nghiệm.





được khởi tạo ngẫu nhiên và được cập nhật thông qua mạng lan truyền

ngược, qua các cấu trúc mạng nơ-ron.



4.3. Đề xuất mơ hình kết hợp

Mehryary và cộng sự [38] đã chứng minh rằng việc khởi tạo ngẫu nhiên đến một mức

độ nào đó có thể có tác động đến hiệu suất mơ hình trên dữ liệu ẩn, tức là, các mơ hình

được đào tạo riêng lẻ có thể thực hiện tốt hơn (hoặc xấu hơn) so với kết quả trung bình.

Hơn nữa, một phương pháp tập hợp đã được tìm thấy để giảm sự thay đổi nhưng

mang lại hiệu suất tốt hơn so với phương pháp trung bình. Hai phương pháp tập hợp đơn

giản nhưng hiệu quả bao gồm bỏ phiếu đa số [38] và tính trung bình phân phối [39].

Với mục đích tăng tính ổn định của mơ hình, cũng như giảm thiểu sự phụ thuộc của

kết quả và các khởi tạo ngẫu nhiên, đồ án đề xuất việc xây dựng mơ hình kết hợp đầu ra

của nhiều mơ hình mạng nơ-ron tích chập rời rạc. Hình 4.6 thể hiện kiến trúc tổng quan

của mơ hình kết hợp.



31



Trong thực nghiệm này, đồ án sẽ tiến hành thử so sánh kết quả của việc kết hợp nhiều

mơ hình con cũng như so sánh hiệu quả giữa hai phương pháp bỏ phiếu theo số đông (lấy

ngưỡng ở 50%) và tính trung bình phân phối.



Hình 4.6. Mơ hình kết hợp



4.4. Các siêu tham số của mơ hình

Dựa trên thực nghiệm sử dụng mạng nơ-ron tích chập nói chung cũng như áp dụng

vào bài tốn xử lí ngơn ngữ tự nhiên nói riêng ta sử dụng các tham số sau:



32



 Kích thước của bộ lọc: Độ rộng của bộ lọc bằng độ rộng của ma trận đầu

vào, là số chiều của ma trận đầu vào vì cửa sổ trượt sẽ trượt lần lượt qua các

hàng của ma trận đầu vào.

 Kích thước cửa sổ pooling: Các bộ lọc được áp dụng lên ma trận đầu vào

của mạng nơ-ron tích chập ta được các ma trận con có độ rộng là 1, số lượng

bằng chính số lượng bộ lọc đã sử dụng. Vì vậy muốn lấy một phần từ làm

đặc trưng cho câu nên ta sử dụng cửa sổ pooling có kích thước bằng kích

thước của ma trận đầu ra lớp tích chập.

 Lớp dropout: từ kết quả của lớp gộp tối đa ta sẽ có một véc-tơ đặc trưng và

sử dụng nó được sử dụng vào bộ phân lớp có sử dụng mạng nơ-ron có kết

nối đầy đủ. Để tránh tình trạng quá khớp dữ liệu (over fitting) ta sẽ cắt bớt

25% các kết nối từ véc-tơ đặc trưng này vào mạng nơ-ron kết nối đầy đủ.

Lớp dropout(0.25) sẽ được sử dụng ngay sau lớp max-pooling.

 Số lượng epoch huấn luyện mạng nơ-ron: Các ví dụ huấn luyện được đưa

vào mạng tính tốn và điều chỉnh trọng số duy nhất một lần khiến cho các

trọng số trong mạng chưa được tối ưu hóa theo các huấn luyện mạng thông

thường. Mặc dù vậy, nếu số lượng epoch quá lớn, và khơng sử dụng các lớp

dropout sẽ dẫn đến tình trạng q khít dữ liệu.Vì thế epoch thơng thường sẽ

nằm trong khoảng từ 15-30 epoch. Trong phạm vi của đồ án này, chúng ta

sử dụng số lượng epoch là 25.



33



CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Tập dữ liệu và phương pháp đánh giá

5.1.1. Tập dữ liệu

Mơ hình đề xuất này đánh giá dựa trên tập dữ liệu: BioCreative V Chemial Disease

Relation (BC5 CDR) [6] để trích chọn quan hệ hóa chất gây ra bệnh trong các tóm tắt khoa

học y sinh.

Tập dữ liệu BC5 CDR bao gồm ba bộ dữ liệu bao gồm tập huấn luyện, tập phát triển

và tập kiểm thử. Mỗi tập dữ liệu có 500 bản tóm tắt PubMed, trong đó mỗi bản tóm tắt

chứa các thực thể hóa chất và bệnh đã được gán nhãn thủ cơng cũng như mối quan hệ hóa

chất gây ra bệnh được gán nhãn ở mức văn bản. Bảng 5.1 thống kê bộ dữ liệu BC5 CDR.

Bảng 5.1. Thống kê bộ dữ liệu CDR

Tập dữ

liệu



Bài báo



Huấn luyện



Hóa chất



Bệnh



Số ví dụ



ID



Số ví dụ



ID



Mối quan hệ hóa

chất gây ra bệnh



500



5,203



1,467



4,182



1,965



1,038



Phát triển



500



5,347



1,507



4,244



1,865



1,012



Kiểm thử



500



5,385



1,435



4,424



1,988



1,066



5.1.2. Độ đo sử dụng để đánh giá mô hình

Để đánh giá hiệu suất của hệ thống trích chọn quan hệ, các nhãn dự đoán được so

sánh với dữ liệu chú thích bằng cách sử dụng độ chính xác chuẩn (Precision – P), độ hồi

tưởng (Recall – R), độ đo F1 (F1 score).

Một hệ thống trích chọn quan hệ dự đốn “độ chính xác”, chúng chắc chắn là chính

xác, ký hiệu là TP (true positive) (trong đó chỉ có một số trường hợp ngoại lệ). Các câu,

tóm tắt có mối quan hệ nhưng bị dự đốn sai kí hiệu là FN (false negative). Một số trường

hợp khơng có mối quan hệ nhưng được dự đốn đúng, kí hiệu là TN (true negative). Câu,

tóm tắt khơng có quan hệ bị dự đoán sai là FP (false positive).

Bảng 5.2. Ma trận độ đo để đánh giá mơ hình

Thực tế



Dự đốn



Có quan hệ



Khơng có quan hệ



Có quan hệ



TP



FP



Khơng có quan hệ



FN



TN



34



Dựa trên các định nghĩa ở trên, độ chính xác chuẩn (P), độ hồi tưởng (R), độ đo F1

được xác định như sau:

=



=



1=







×



(5.1)

+

+

+

Trong thực nghiệm, mơ hình được điều chỉnh tập dữ liệu trong lúc huấn luyện (và

phát triển) và áp dụng kết quả nhận được lên tập kiểm thử, tất cả đều tách biệt. Mơ hình

tiến hành q trình huấn luyện và kiểm thử 20 lần và tính kết quả trung bình.



5.2. Kết quả và đánh giá

5.2.1. Kết quả phân lớp của mơ hình CNN

a. Kết quả của mơ hình CNN

Như đã phân tích trong mục 4.3, Mehryary đã chứng minh rằng việc khởi tạo ngẫu

nhiên đến một mức độ nào đó có thể có tác động đến hiệu suất mơ hình trên dữ liệu ẩn, tức

là, các mơ hình được đào tạo riêng lẻ có thể thực hiện tốt hơn (hoặc xấu hơn) so với kết

quả trung bình. Hơn nữa, một cơ chế tập hợp đã được tìm thấy để giảm sự thay đổi nhưng

mang lại hiệu suất tốt hơn so với cơ chế trung bình. Hai phương pháp tập hợp đơn giản

nhưng hiệu quả bao gồm bỏ phiếu đa số và tính trung bình phân phối.

Kết quả của mơ hình phân lớp dựa trên CNN bị ảnh hưởng khá lớn bởi việc khởi tạo

ngẫu nhiên các tham số của mơ hình. Vì vậy, để đảm bảo tính khách quan của kết quả,

bảng 5.3 đưa ra kết quả ở mức tóm tắt của 20 lần chạy ngẫu nhiên sử dụng cùng một bộ

siêu tham số (hyper-parameter).

Bảng 5.3. Kết quả của 20 lần chạy mơ hình CNN

Lần chạy



P



R



F1



1



56.28



56.18



56.23



2



56.67



56.34



56.50



3



57.39



57.16



57.27



4



56.06



54.89



55.47



5



57.50



54.82



56.13



6



58.30



55.36



56.80



7



56.87



55.38



56.12



8



56.86



54.36



55.58



9



56.38



54.69



55.52

35



Ghi chú



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN

Tải bản đầy đủ ngay(0 tr)

×