Tải bản đầy đủ - 0 (trang)
CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tải bản đầy đủ - 0trang

Dựa trên các định nghĩa ở trên, độ chính xác chuẩn (P), độ hồi tưởng (R), độ đo F1

được xác định như sau:

=



=



1=







×



(5.1)

+

+

+

Trong thực nghiệm, mơ hình được điều chỉnh tập dữ liệu trong lúc huấn luyện (và

phát triển) và áp dụng kết quả nhận được lên tập kiểm thử, tất cả đều tách biệt. Mơ hình

tiến hành q trình huấn luyện và kiểm thử 20 lần và tính kết quả trung bình.



5.2. Kết quả và đánh giá

5.2.1. Kết quả phân lớp của mơ hình CNN

a. Kết quả của mơ hình CNN

Như đã phân tích trong mục 4.3, Mehryary đã chứng minh rằng việc khởi tạo ngẫu

nhiên đến một mức độ nào đó có thể có tác động đến hiệu suất mơ hình trên dữ liệu ẩn, tức

là, các mơ hình được đào tạo riêng lẻ có thể thực hiện tốt hơn (hoặc xấu hơn) so với kết

quả trung bình. Hơn nữa, một cơ chế tập hợp đã được tìm thấy để giảm sự thay đổi nhưng

mang lại hiệu suất tốt hơn so với cơ chế trung bình. Hai phương pháp tập hợp đơn giản

nhưng hiệu quả bao gồm bỏ phiếu đa số và tính trung bình phân phối.

Kết quả của mơ hình phân lớp dựa trên CNN bị ảnh hưởng khá lớn bởi việc khởi tạo

ngẫu nhiên các tham số của mơ hình. Vì vậy, để đảm bảo tính khách quan của kết quả,

bảng 5.3 đưa ra kết quả ở mức tóm tắt của 20 lần chạy ngẫu nhiên sử dụng cùng một bộ

siêu tham số (hyper-parameter).

Bảng 5.3. Kết quả của 20 lần chạy mơ hình CNN

Lần chạy



P



R



F1



1



56.28



56.18



56.23



2



56.67



56.34



56.50



3



57.39



57.16



57.27



4



56.06



54.89



55.47



5



57.50



54.82



56.13



6



58.30



55.36



56.80



7



56.87



55.38



56.12



8



56.86



54.36



55.58



9



56.38



54.69



55.52

35



Ghi chú



10



56.33



55.50



55.91



11



57.02



55.79



56.39



12



58.82



54.27



56.45



13



58.02



56.66



57.33



14



57.82



56.05



56.92



15



56.42



53.43



54.88



16



56.78



56.51



56.64



17



57.20



55.21



56.18



18



57.01



55.93



56.46



19



57.43



53.79



55.55



20



57.04



53.89



55.42



Trung bình



57.11



55.31



56.20



Kết quả cao nhất



Kết quả thấp nhất



Kết quả trung bình

của 20 lần chạy

Kết quả ở mức tóm tắt



Kết quả của 20 lần chạy ngẫu nhiên cho thấy:



b.



 Kết quả P thấp nhất là 56.06, kết quả P cao nhất là 58.82, khoảng cách giữa

kết quả thấp nhất và kết quả cao nhất lên đến 2.76. Độ lệch chuẩn là 0.7.

 Kết quả R thấp nhất là 53.43, kết quả R cao nhất là 57.16, khoảng cách giữa

kết quả thấp nhất và kết quả cao nhất lên đến 3.73. Độ lệch chuẩn là 1.0.

 Kết quả F1 thấp nhất là 54.88, kết quả F1 cao nhất là 57.33, khoảng cách

giữa kết quả thấp nhất và kết quả cao nhất lên đến 2.45. Độ lệch chuẩn là

0.63.

So sánh kết quả với các nghiên cứu liên quan



Để tiến hành so sánh với các nghiên cứu khác, trong mục này sử dụng kết quả trung

bình của 20 lần chạy. Theo bảng 5.3, ta có: Ptb = 57.11, Ftb = 55.31, F1tb = 56.20.

Các nghiên cứu liên quan được sử dụng để so sánh bao gồm:

 BioCreative benchmarks [8]: BioCreative V là sự kiện đánh giá chính thức cho

nghiên cứu xử lí ngơn ngữ tự nhiên y sinh học (BioNLP). Một bài toán thử thách

tự động trích chọn các quan hệ hóa học, sinh học từ tài liệu y sinh với mục tiêu

hỗ trợ sinh học, phát hiện thuốc và theo dõi các loại thuốc mới an toàn. Tổng cộng

34 đội tham gia giải quyết hai bài tốn chính đó là : 16 đội tham gia bài toán nhận

dạng thực thể bệnh định danh (Disease Named Entity Recognition - DNER), 18

36



đội tham gia bài toán trích chọn quan hệ hóa chất gây ra bệnh (Chemical-Induced

Disease relation extraction – CID). Trong phạm vi so sánh này, ta xét đến hai kết

quả (i) kết quả trung bình của 18 đội tham gia nhiệm vụ (có sử dụng nhãn thực

thể) và (ii) kết quả của đội đứng đầu sử dụng phương pháp đồng xuất hiện.

 UET-CAM [22] sử dụng phương pháp học máy có giám sát sử dụng bộ đặc trưng

phong phú, cải tiến bằng học từ xa sử dụng cơ sở dữ liệu hệ gen độc tính so sánh

(Comparative Toxicogenomics Database – CTD)

 hybridDNN [23] Zhou và các cộng sự đã thiết kế một hệ thống lai cho bài tốn

trích chọn quan hệ. Kế thừa từ các thuộc tính bổ sung của các phương pháp dựa

trên đặc trưng, phương pháp dựa trên nhân và mạng nơ-ron, hệ thống lai có thể

kết hợp thơng tin từ vựng, cú pháp và ngữ nghĩa, do đó đạt được những cải tiến

đáng kể so với các phương pháp riêng lẻ.

 cduCNN [24] sử dụng thông tin nén trong đường đi phụ thuộc ngắn nhất (SDP)

giữa hai thực thể tương ứng để phân loại mối quan hệ ngữ nghĩa giữa chúng. Mơ

hình đề xuất có khả năng sử dụng các đặc điểm ngôn ngữ đặc trưng kiến trúc câu,

chẳng hạn như biểu diễn từ, biểu diễn ký tự, đặc trưng vị trí, WordNet và nhãn từ

loại.

Bảng 5.4. Hiệu suất của mơ hình trên tập dữ liệu BioCreative V CDR

Mơ hình



Tập đặc trưng



P



R



F1



Kết quả chính thức



Kết quả trung bình*



47.09



42.61



43.37



của BioCreative



Kết quả của đội đứng đầu*



55.67



58.44



57.03



UET-CAM



SVM, tập đặc trưng phong phú



53.41



49.91



51.60



(Le và cộng sự, 2015)



+ Tập dữ liệu silverCID



57.63



60.23



58.90



hybridDNN



Đặc trưng cú pháp, biểu diễn từ



62.15



47.28



53.70



(Zhou và cộng sự



+ Ngữ cảnh



62.39



47.47



53.92



62.86



47.47



54.09



2016)



+ Vị trí



cduCNN



Biểu diễn thành phần, DU



57.24



55.27



56.24



(Can và cộng sự,

2019)



+ Chuẩn hóa liên từ



56.95



56.14



56.54



56.66



55.94



56.30



57.11



55.31



56.20



+ Chuẩn hóa giới từ



Mơ hình đề xuất



*Kết quả được cung cấp bởi BioCreative V.



37



Bảng 5.4 so sánh kết quả của mô hình đề xuất và các kết quả so sánh nói trên. Để

đảm bảo tính khách quan, việc đánh giá mơ hình được thực hiện sử dụng cơng cụ đánh giá

chính thức của BC5 CDR và trả về kết quả ở mức tóm tắt. Kết quả so sánh mơ hình học

sâu mà đồ án xây dựng với một số phương pháp nghiên cứu gần đây trên thế giới trên cùng

một tập dữ liệu BC5 CDR đã chứng minh tính cạnh tranh về mặt hiệu suất cũng như tiềm

năng phát triển của mơ hình.

 Kết quả của mơ hình mà đồ án xây dựng vượt cao hơn hẳn mức trung bình của 16

đội tham gia thách thức BC5 CDR, tuy nhiên vẫn còn kém hơn kết quả của đội xếp

hạng nhất sử dụng phương pháp đồng xuất hiện.

 So sánh với mô hình UET-CAM, một mơ hình học máy dựa trên tập đặc trưng lớn,

kết quả F1 của mơ hình học sâu mà đồ án đề xuất cao hơn 4.6% so với mơ hình cơ

sở, điều này chứng minh hiệu quả của việc áp dụng mơ hình học sâu vào miền dữ

liệu này. Tuy nhiên vì ở giai đoạn hiện tại, đồ án chưa sử dụng thêm bất kỳ dữ liệu

bổ sung nào hoặc các phương pháp học bán giám sát, học từ xa, nên kết quả vẫn

thấp hơn so với UET-CAM khi mơ hình này được học thêm với tập silverCID.

 So sánh với mơ hình hybridDNN, mơ hình học sâu mà đồ án đề xuất cho kết quả

F1 cao hơn 2.11%. Điều này phần nào chứng tỏ tính cạnh tranh của kiến trúc mạng

mà đồ án đề xuất, cũng như hiệu quả của việc sử dụng đường đi phụ thuộc ngắn

nhất.

 Mơ hình được sử dụng trong đồ án được lấy ý tưởng và tham khảo từ mơ hình

cduCNN với một số thay đổi trong cài đặt và bộ tham số, vì vậy kết quả của hai mơ

hình này là ngang nhau.



5.2.2. Kết quả phân lớp của mơ hình kết hợp

Theo kết quả đã đưa ra ở bảng 5.3, độ lệch chuẩn của mơ hình với 20 lần chạy là

0.63, trong đó sự chênh lệch giữa kết quả tốt nhất và kết quả kém nhất theo P là 2.76%,

theo R là 3.73%, theo F là 2.45%.

Với mục đích tăng tính ổn định của mơ hình, cũng như giảm thiểu sự phụ thuộc của

kết quả và các khởi tạo ngẫu nhiên, đồ án đề xuất việc xây dựng mơ hình kết hợp đầu ra

của nhiều mơ hình mạng nơ-ron tích chập rời rạc như đã trình bày trong mục 4.3.

Tuy nhiên, việc xây dựng mơ hình kết hợp cũng vẫn có nhiều yếu tố cần phải xem

xét:

 Một mơ hình kết hợp sẽ sử dụng bao nhiêu mơ hình con?

 Để kết hợp kết quả, sử dụng bỏ phiếu số đông hay tính phân phối trung bình?

 Nếu sử dụng bỏ phiếu số đơng, thì ngưỡng lựa chọn là bao nhiêu?



38



a. Thực nghiệm 1: Lựa chọn số mơ hình con để kết hợp và phương pháp kết hợp

Trong thực nghiệm này, đồ án tiến hành thử so sánh kết quả của việc kết hợp từ 1

đến 100 mơ hình con cũng như so sánh giữa hai phương pháp bỏ phiếu (lấy ngưỡng ở 50%)

và tính trung bình phân phối.

Bảng 5.5. So sánh kết quả ở mức tóm tắt khi thay đổi số lượng mơ hình con

với 2 cách kết hợp

Bỏ phiếu



Trung bình phân phối



Số mơ

hình con



P



R



F1



P



R



F1



1



61.24



51.48



55.94



57.10



50.19



53.42



5



61.76



51.33



56.06



61.94



47.94



54.05



10



62.7



51.26



56.41



62.93



48.41



54.72



15



63.15



51.06



56.47



61.18



49.53



54.74



20



63.61



51.06



56.65



61.86



49.91



55.24



25



64.05



50.77



56.64



61.63



50.47



55.49



50



65.44



50.55



57.04



61.04



49.53



54.69



75



66.30



50.36



57.24



60.67



51.22



55.54



100



67.08



50.27



57.47



60.57



51.59



55.72



TB



57.11



55.31



56.20



57.11



55.31



56.20



Kết quả bảng 5.5 cho thấy việc kết hợp nhiều mơ hình cho kết quả tốt hơn kết quả

trung bình của nhiều mơ hình con. Chi tiết kết quả khi thay đổi số lượng mơ hình con sử

dụng phương pháp bỏ phiếu được trình bày ở phụ lục 3.

 Đối với mơ hình kết hợp dựa trên bỏ phiếu theo số đông, kết quả tốt nhất đạt

được khi sử dụng số lượng mơ hình con khoảng từ 95 đến 100 là 57.66%,

tăng 1.46% so với kết quả trung bình.

 Đối với mơ hình kết hợp dựa trên phân phối trung bình, kết quả tốt nhất đạt

được khi sử dụng số lượng mơ hình con khoảng từ 75 đến 80 là 55.85%,

giảm 0.35% so với kết quả trung bình.

Trong hầu hết các trường hợp, sử dụng phương pháp kết hợp kết quả dựa trên bỏ

phiếu theo số đông cho kết quả tốt hơn sử dụng sử dụng phân phối trung bình của các lần

chạy.

Để làm rõ ảnh hưởng của số lượng cây con sử dụng để kết hợp lên hiệu suất mơ hình.

Hình 5.1 cho thấy sự thay đổi của giá trị P, R, F1 khi thay đổi số lượng cây con.



39



0.7



0.65



0.6



0.55



0.5



5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100



0.45

Số lượng mơ hình con

P



R



F1



Hình 5.1. Sự thay đổi của P, R, F1 khi thay đổi số lượng mơ hình con

bằng phương pháp bỏ phiếu

Từ hình 5.1 ta có nhận xét như sau:

 Số lượng mơ hình con tăng dần dẫn đến F1 cũng tăng dần.

 Khi số lượng mơ hình con trong khoảng từ 95 đến 100, F1 dần hội tụ



40



b. Thực nghiệm 2: Lựa chọn ngưỡng kết hợp của phương pháp bỏ phiếu

Thực nghiệm 1 đã chỉ ra phương pháp kết hợp dựa trên bỏ phiếu cho kết quả tốt hơn

phương pháp kết hợp dựa trên tính trung bình. Tuy nhiên phương pháp bỏ phiếu không

nhất định phải dựa trên số đông.

Đối với một mơ hình kết hợp dựa trên phương pháp bỏ phiếu, việc quyết định lựa

chọn kết quả không nhất định phải dựa vào số đông (majority vote, tức là đảm bảo có trên

50% bộ phân lớp con gán nhãn dương thì bộ phân lớp kết hợp mới đưa ra nhãn dương).

Chúng ta có thể đặt ra một ngưỡng để thay đổi sự ưu tiên vào lớp dương hay lớp âm.

Ngưỡng bỏ phiếu càng nhỏ tức là càng ưu tiên cho lớp dương, chỉ cần một số ít bộ phân

lớp đơn lẻ quyết định một ví dụ là dương thì mơ hình kết hợp cũng đưa ra nhãn dương.

Ngược lại, ngưỡng bỏ phiếu càng lớn càng đảm bảo tính chính xác của mơ hình, nhưng sẽ

giảm khả năng tìm được thêm kết quả mới (đặc biệt là các ví dụ khác nhiều so với các ví

dụ đã xuất hiện trong tập kiểm thử hoặc huấn luyện).

Thực nghiệm này xét ngưỡng kết hợp từ 1-100 mơ hình con để đánh giá hiệu suất

của mơ hình với các ngưỡng khác nhau. Phần này sử dụng số mơ hình con đạt kết quả tốt

nhất ở thực nghiệm 1, là 97 mơ hình con.

Bảng 5.6 so sánh kết quả của mơ hình kết hợp sử dụng 97 mơ hình con với các ngưỡng

khác nhau (từ 1 – 100 mơ hình con)

Bảng 5.6. Kết quả của mơ hình kết hợp sử dụng 97 mơ hình con

Ngưỡng lựa chọn



P



R



F1



1



34.12



65.12



44.78



10



43.51



63.59



51.67



20



49.19



60.58



54.29



30



57.45



58.01



57.73



40



61.59



54.02



57.56



50



67.08



50.27



57.47



60



70.15



44.45



54.42



70



73.34



38.45



50.45



80



77.02



31.79



45.00



90



83.21



23.81



37.03



100



86.37



9.18



16.60



số mơ hình con



41



Hình 5.2 là biểu đổ cho thấy sự thay đổi hiệu suất của mơ hình kết hợp khi thay đổi

ngưỡng bỏ phiếu này với 97 mơ hình con.

100

90

80

70

60

50

40

30

20

10

0

1



10



20



30



40

P



50



60



R



F1



70



80



90



100



Hình 5.2. Sự thay đổi hiệu suất của mơ hình kết hợp

khi thay đổi ngưỡng bỏ phiếu này với 97 mơ hình con

Nhận xét, đường đồ thị lên khi số mơ hình con tăng dần, hội tụ ở khoảng 30 mơ hình

con và đi xuống đi số lượng mơ hình con tăng dần. Từ đó ta thấy rằng ngưỡng 30 mơ hình

con là tốt nhất đối với mơ hình kết hợp. Tức là nếu trong số 97 mơ hình con, có ít nhất 30

mơ hình đưa ra kết quả một ví dụ có nhãn CID thì mơ hình kết hợp cũng đưa ra nhãn cuối

cùng cho ví dụ đó là CID.



42



KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO

Kết quả đạt được:

Đồ án tập trung giới thiệu một kỹ thuật học sâu, cụ thể là mạng nơ-ron tích chập, và

ứng dụng vào bài tốn trích chọn quan hệ hóa chất gây ra bệnh. Trên cơ sở nghiên cứu về

các phương pháp trích chọn quan hệ nói chung và các phương pháp sử dụng kỹ thuật học

sâu nói riêng, đồ án đã đạt được các kết quả cơ bản sau:

 Tìm hiểu và cung cấp được cái nhìn tổng quan về một bài tốn trích chọn quan hệ

nói chung và bài tốn trích chọn quan hệ hóa chất gây ra bệnh nói riêng - một bài

tốn hay, khó và có ý nghĩa thực tiễn cao.

 Dựa trên việc nghiên cứu và tìm hiểu về các phương pháp trích chọn quan hệ sử

dụng mạng nơ-ron tích chập và các phương pháp biểu diễn văn bản sử dụng đường

đi phụ thuộc ngắn nhất, Word Embedding, đồ án đã đề xuất được mơ hình sử dụng

mạng nơ-ron vào bài tốn trích chọn quan hệ hóa chất gây ra bệnh và đề xuất một

mơ hình kết hợp sử dụng hai phương pháp bỏ phiếu và tính trung bình phân phối.

 Tiến hành thực nghiệm trên bộ dữ liệu BioCreative V CDR. Kết quả của 20 lần

chạy ngẫu nhiên cho thấy F1 trung bình đạt 56.20%. Kết quả so sánh mơ hình học

sâu mà đồ án xây dựng với một số phương pháp nghiên cứu gần đây trên thế giới

trên cùng một tập dữ liệu BC5 CDR đã chứng minh tính cạnh tranh về mặt hiệu suất

cũng như tiềm năng phát triển của mơ hình

 Mơ hình kết hợp đề xuất tiến hành 2 thực nghiệm với mục đích tăng tính ổn định

của mơ hình, cũng như giảm thiểu sự phụ thuộc của kết quả và các khởi tạo ngẫu

nhiên, đồ án đề xuất việc xây dựng mơ hình kết hợp đầu ra của nhiều mơ hình mạng

nơ-ron tích chập rời rạc.

 Cuối cùng, từ các thực nghiệm ta thấy rằng ngưỡng 30% là tốt nhất đối với mơ hình

kết hợp. Tức là nếu trong số 97 mơ hình con, có ít nhất 30 mơ hình đưa ra kết quả

một ví dụ có nhãn CID thì mơ hình kết hợp cũng đưa ra nhãn cuối cùng cho ví dụ

đó là CID.

Định hướng phát triển:

Để khắc phục những hạn chế đã nêu trên đồng thời phát huy được tiềm năng của mơ

hình đề xuất sử dụng kỹ thuật học sâu, mơ hình đề xuất có thể phát triển theo một hoặc các

định hướng sau:

 Áp dụng đường đi phụ thuộc tăng cường và mạng nơ-ron đệ quy biểu diễn các

cây con trên đường dẫn phụ thuộc để có thêm thông tin.

 Áp dụng thêm bước phát hiện đồng tham chiếu cho văn bản trước khi đưa vào

mơ hình dự đốn dùng mạng nơ-ron tích chập, điều này sẽ làm giảm được bỏ

sót các câu mang mối quan hệ nhưng các đề cập không trực tiếp là thuốc hoặc

bệnh.



43



 Áp dụng kết hợp một số kỹ thuật học sâu khác như mạng nơ-ron Long ShortTerm Memory để so sánh kết quả.

 Tìm hiểu và nâng cấp mơ hình sử dụng trích chọn quan hệ liên câu mức tồn

bộ bài tóm tắt, thay vì chỉ dừng lại ở mức nội câu. Với phương pháp đánh giá

toàn văn bản sẽ giảm tối đa sai số mà từng bước gặp phải.

 Sử dụng thêm dữ liệu bổ sung (tập silverCID, v.v…) hoặc các phương pháp

học bán giám sát, học từ xa để cải thiện kết quả.



44



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 5. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tải bản đầy đủ ngay(0 tr)

×