Tải bản đầy đủ - 0 (trang)
CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ

CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ

Tải bản đầy đủ - 0trang

Nhiều bản tóm tắt PubMed cũng chứa các liên kết đến các bài báo tồn văn, một phần

trong đó là miễn phí, ví dụ như PubMed Central (PMC) hoặc tại các trang web của nhà

xuất bản và các tài nguyên liên quan khác. PMC là một kho lưu trữ điện tử cho phép truy

cập miễn phí tồn văn nhiều tài liệu tạp chí khoa học y sinh và khoa học đời sống tại Mỹ.

Kích thước của các kho lưu trữ điện tử này đã tăng theo cấp số nhân trong vài năm

qua [1]. Tính đến năm 2017, có hơn 24 triệu trích dẫn được lập chỉ mục trong MEDLINE

cũng như PubMed. Hình 1.1 minh họa sự tăng trưởng của các trích dẫn PubMed từ 1970

đến 2017, tăng từ 1 triệu năm 1970 lên 24 triệu vào năm 2017, ấn tượng hơn, con số này

đã tăng 1,7 lần trong 12 năm qua (từ 14 triệu năm 2005 đến 24 triệu trong năm 2017).



Hình 1.1. Tăng trưởng trích dẫn PubMed từ năm 1986 đến 2017

Vì PubMed cung cấp giao diện tìm kiếm rộng rãi, cập nhật và hiệu quả, hàng triệu

truy vấn từ hàng triệu người dùng được phát hành trên PubMed mỗi ngày bởi người dùng

trên toàn cầu. Tuy nhiên, ngay cả khi nhận được kết quả từ PubMed, khó khăn trong việc

xử lý các tài liệu này ngày càng tăng, nó xuất phát từ khối lượng tài liệu y sinh tăng trưởng

nhanh, phạm vi tại chỗ, tính chất liên ngành và hình thức khơng cấu trúc của nó. Bởi vì

các ấn phẩm học thuật chủ yếu được viết bằng văn bản, khai thác văn bản và xử lý ngôn

ngữ tự nhiên ngày càng trở nên quan trọng trong nghiên cứu y sinh, vì nó có thể tạo điều

kiện thuận lợi cho năng suất nghiên cứu bằng cách khai thác thông tin hữu ích ẩn trong

văn bản miễn phí sau đó chuyển nó thành kiến thức có cấu trúc. Từ cuối những năm 1990,

sự hợp tác liên ngành giữa xử lí ngôn ngữ tự nhiên và cộng đồng y sinh đã trở nên phổ

4



biến hơn, hình thành một lĩnh vực nghiên cứu mới được gọi là xử lý ngôn ngữ tự nhiên y

sinh (Biomedical natural language processing - BioNLP) hoặc khai thác văn bản với mục

tiêu phát triển các phương pháp y sinh cho các loại ứng dụng y sinh.

Các nhà nghiên cứu BioNLP sau đó kết hợp các cơng nghệ trích chọn thơng tin để

tìm và trích chọn các loại thông tin được xác định trước từ văn bản bán cấu trúc hoặc khơng

cấu trúc có thể thể hiện trọng tâm thông tin được nhắm mục tiêu. Khai thác thông tin có ý

nghĩa quan trọng đối với nghiên cứu y sinh; nhưng với việc triển khai cơng cụ tìm kiếm

PubMed hiện nay, việc trích chọn thủ cơng các thơng tin hữu ích bị ảnh hưởng bởi chi phí

cao và sự phát triển nhanh chóng của tài liệu y sinh. Do đó, mong muốn phát triển phương

pháp mới để tự động trích chọn kiến thức từ văn học. Nó có một loạt các ứng dụng trong

khai thác tài liệu y sinh và thu hút đầu tư đáng kể của các cộng đồng nghiên cứu trên tồn

thế giới, phản ánh vai trò trung tâm của họ trong nhiều lĩnh vực nghiên cứu y sinh và khoa

học chăm sóc sức khỏe.

Các nhiệm vụ, cuộc thi trong lĩnh vực y sinh học có chuẩn mực đánh giá:

Do những động lực này, các phương pháp cải tiến cho lĩnh vực này thu hút nhiều sự

quan tâm của cộng đồng nghiên cứu nhưng đòi hỏi phải xem xét và đánh giá cẩn thận. Một

trong những cách hiệu quả nhất để cải thiện các nghiên cứu tiên tiến là thông qua các thách

thức với đánh giá điểm chuẩn. Việc tổ chức các thách thức y sinh cũng được thúc đẩy bởi

số lượng ngày càng tăng của các nhóm làm việc trong lĩnh vực khai thác văn bản. Tuy

nhiên, mặc dù hoạt động gia tăng trong lĩnh vực này, khơng có tiêu chuẩn chung hoặc tiêu

chí đánh giá chung để cho phép so sánh giữa các phương pháp khác nhau. Các nhóm khác

nhau đã giải quyết các bài toán khác nhau, thường sử dụng các bộ dữ liệu riêng tư và do

đó, khơng thể xác định các hệ thống hiện tại hoạt động tốt như thế nào, liệu chúng có mở

rộng ra các ứng dụng thực hay khơng và hiệu suất có thể được mong đợi. Do đó, một số

thử thách đánh giá đã được tổ chức bởi cộng đồng nghiên cứu khai thác văn bản để đánh

giá và thúc đẩy các nghiên cứu xử lí ngơn ngữ tự nhiên cho y sinh, một trong số chúng đã

được tổ chức trong vài năm. Các thử thách đánh giá thường được tổ chức như một cuộc

thi hoặc nhiệm vụ chung với nhiều chủ đề, nhiệm vụ và dữ liệu khác nhau. Các nhà tổ chức

của các hội nghị này đã xác định các nhiệm vụ cho tất cả những người tham gia, chuẩn bị

dữ liệu và phát triển khung đánh giá cho từng nhiệm vụ. Các nhà nghiên cứu đã phải giải

quyết nhiệm vụ và tìm ra giải pháp tốt nhất; do đó nó đã thêm yếu tố cạnh tranh vào nghiên

cứu.

Trong lĩnh vực xử lý văn bản y sinh học, một loạt các chuỗi nhiệm vụ, thách thức đã

được tổ chức với các chủ đề, mục đích, bài tốn khác nhau và thu hút nhiều nhóm nghiên

cứu trên tồn thế giới [3]. Có thể kể đến một số chuỗi nhiệm vụ nổi tiếng như:

5



 BioNLP Shared Task (BioNLP-ST) biểu diễn cho xu hướng khai thác văn bản trong

cộng đồng sinh học đối với việc khai thác thông tin chi tiết/trích chọn quan hệ.

Chuỗi nhiệm vụ này thường sử dụng bộ dữ liệu GENIA Event Corpus tập trung vào

sinh học phân tử và các tập con của nó. Ví dụ, BioNLP-ST năm 2009, 2011 và 2013

chủ yếu dựa trên một tập hợp con đơn giản của GENIA Event Corpus ban đầu, sau

đó u cầu người tham gia trích chọn các sự kiện liên quan đến gen như quy định,

biểu hiện và phiên mã cũng như liên kết giữa chúng. BioNLP-ST 2016 tuân theo

phác thảo và mục tiêu chung của các nhiệm vụ trước đó vào năm 2011 và 2013. Nó

xác định các mục tiêu trích chọn có liên quan về mặt sinh học và đề xuất phương

pháp có động lực về mặt ngôn ngữ để biểu diễn cho sự kiện. BioNLP-ST 2016 có

ba nhiệm vụ trích chọn sự kiện, trong đó nhiệm vụ Bacteria Biotope (BB3) bao gồm

nhiệm vụ phụ là trích chọn các sự kiện giữa vi khuẩn và môi trường sống của chúng.

 Chuỗi nhiệm vụ BioCreative giới thiệu hai bài tốn trích chọn quan hệ chính: trích

chọn tương tác protein protein (ví dụ như nhiệm vụ PPI trong BioCreative II) và

trích chọn quan hệ hóa chất gây ra bệnh (nhiệm vụ CDR trong BioCreative V).

 Năm 2011, nhiệm vụ DDIExtraction (Extraction of Drug-Drug Interactions from

BioMedical Texts - Trích chọn tương tác thuốc - thuốc từ văn bản y sinh học) lần

đầu tiên được giới thiệu và sau đó được tổ chức thêm một lần nữa vào năm 2013

như một phần của Hội thảo quốc tế về đánh giá ngữ nghĩa (Semantic Evaluation SemEval).



6



1.2. Phát biểu bài tốn

1.2.1. Định nghĩa bài tốn

Trích chọn thơng tin là q trình lấy thơng tin từ dữ liệu phi cấu trúc hoặc bán cấu

trúc và biến nó thành dữ liệu có cấu trúc.

Một trong những nhiệm vụ cơ bản nhất trong trích chọn thơng tin là trích chọn quan

hệ, tức là, xác định mối quan hệ ngữ nghĩa giữa các cặp thực thể có tên được đề cập đến

trong văn bản. Culotta (2006) [4] định nghĩa trích chọn quan hệ là là nhiệm vụ khai phá

các liên kết về mặt ngữ nghĩa giữa các thực thể. Thơng thường, bài tốn trích chọn quan

hệ bao gồm xác định và trích chọn các mối quan hệ ngữ nghĩa giữa các thực thể được đặt

tên trong văn bản [5]. Tức là, bài toán này yêu cầu dữ liệu phải được xác định trước các

thực thể. Cụ thể hơn, đối với bài tốn trích chọn quan hệ hai ngôi mà đồ án này đang tập

trung giải quyết, mỗi hai thực thể sẽ được ghép cặp để quyết định xem mối quan hệ giữa

chúng là gì (hoặc khơng có quan hệ).

Như vậy, thơng thường, bài tốn trích chọn quan hệ sẽ được giải quyết như một bài

tốn phân lớp có đầu vào và đầu ra như sau:

Đầu vào: Một (tập) văn bản đã được gán nhãn thực thể và tập nhãn quan hệ đã xác

định trước.

Đầu ra: Nhãn quan hệ tương ứng cho từng cặp thực thể trong tập văn bản đó. Một

cặp thực thể có thể có một hoặc nhiều nhãn, tương ứng với bài toán phân lớp quan hệ đơn

nhãn hoặc đa nhãn.

Đồ án này chỉ tập trung giải quyết bài toán phân lớp quan hệ hai ngôi đơn nhãn, tức

là một quan hệ chỉ bao gồm hai thực thể, và một cặp thực thể chỉ có thể nhận một nhãn

duy nhất.

Một quan hệ hai ngơi được mơ tả dưới dạng tốn học là một bộ ba < , rel,



>, trong



đó:









là các thực thể định danh (hoặc cụm danh từ) trong một câu (hoặc một



đoạn văn bản) mà từ đó mối quan hệ được trích chọn

 rel là nhãn quan hệ tương ứng giữa hai thực thể nói trên.

Tương ứng, bài tốn phân lớp quan hệ được định nghĩa dưới dạng toán học: là

một hàm



để xác định xem các thực thể tương ứng có thuộc một mối quan hệ nào đó hay



khơng:



7



+1



nếu







có liên quan theo quan hệ ;(1.1)



(T( , 1, 2)) =

−1



nếu khơng có quan hệ



Trong đó:









là hai thực thể tạo ra một đề xuất để phân lớp quan hệ.



 d là một tài liệu bao gồm các thực thể tương ứng







. d có thể là một câu,



một đoạn văn hoặc một tài liệu tùy thuộc vào phạm vi của các mối quan hệ.

 T (d) là thơng tin được trích chọn từ d.

Có nhiều khía cạnh nên được xem xét trong hệ thống phân lớp quan hệ, chúng thường

khác nhau trên các loại thực thể khác nhau [3]:





Có thể có một hoặc nhiều loại quan hệ trong một tập dữ liệu. Ví dụ, BioCreative V

Chemical Disease Relation và tập dữ liệu BioNLP-ST 2016 BB3 chỉ được chú thích

với một loại quan hệ, trong khi văn bản Phenebank và SemEval 2013 DDI-2013 có

một số loại quan hệ.







Một số mối quan hệ được định hướng và bị ảnh hưởng bởi trật tự các thực thể, chẳng

hạn như mối quan hệ Mechanism trong kho dữ liệu DDI corpus, mối quan hệ giữa

Inherit trong tập dữ liệu Phenebank. Các quan hệ như vậy đòi hỏi mơ hình phải dự

đốn chính xác cả hai loại quan hệ và thứ tự thực thể. Ngược lại, đối với các mối

quan hệ khơng có hướng, chẳng hạn như Associated của tập Phenebank, cả hai

hướng đều có thể được chấp nhận, một ví dụ khác là mối quan hệ hóa chất gây ra

bệnh (CID) trong BioCreative V CDR mà hướng của nó ln đi từ hóa chất sang

bệnh.



 Mối quan hệ là mối quan hệ trong câu (nghĩa là hai thực thể tương ứng xuất hiện

trong cùng một câu) hoặc quan hệ câu chéo (nghĩa là hai thực thể tương ứng có thể xuất

hiện trong các câu khác nhau).

Nắm bắt được các động lực và nhu cầu cao trong việc xử lý dữ liệu y sinh học tự

động để phục vụ cho y tế, xã hội, sức khỏe cộng đồng, đồ án này tập trung vào việc phân

lớp quan hệ trong dữ liệu y sinh học.

Trích chọn quan hệ trong dữ liệu y sinh học thường tập trung vào các mối quan hệ

đặc trưng giữa các thực thể (hoặc cụm danh từ) y sinh. Các mối quan hệ y sinh phổ biến

bao gồm tương tác thuốc-thuốc, quan hệ hóa chất-bệnh, tương tác protein-protein và nhiều

loại khác. Với số lượng nhãn quan hệ phong phú như thế, điều quan trọng là phải hiểu

được cách các hệ thống hoạt động sử dụng các cài đặt khác nhau nhằm mục đích khác

nhau.



8



1.2.2. Ví dụ

Mục này đưa ra một số ví dụ trong dữ liệu BioCreative V Chemical Disease Relation

(BC5 CDR) [6], là tập dữ liệu y sinh tập trung vào mối quan hệ hóa chất gây ra bệnh. Mối

quan hệ giữa thực thế hóa chất (màu xanh) và thực thể bệnh (màu vàng) được giới thiệu

trong hình 1.3 là quan hệ nội câu và quan hệ liên câu.



Hình 1.2. Mối quan hệ nội (trong) câu



Hình 1.3. Mối quan hệ liên (ngồi) câu



1.3. Khó khăn và thách thức

Các đặc trưng đặc biệt của dữ liệu y sinh mang lại nhiều khó khăn cho cộng đồng

nghiên cứu. Nhận dạng thực thể định danh và trích chọn quan hệ trong lĩnh vực y sinh

thường được coi là khó khăn hơn so với các lĩnh vực khác [1,8]. Hệ thống trích chọn quan

hệ y sinh phải đối mặt với cả những thách thức chung của xử lý ngôn ngữ tự nhiên thơng

thường và những khó khăn cụ thể của lĩnh vực y sinh.

Thứ nhất, xử lí ngơn ngữ tự nhiên y sinh vẫn đang phải đối mặt với nhiều bài tốn

xử lí ngơn ngữ tự nhiên hiện tại, tức là, các bài tốn khơng chỉ tồn tại trong lĩnh vực y

sinh, mà còn trong lĩnh vực chung của xử lí ngơn ngữ tự nhiên. Ba trong số đó là [3]:

(i) Dữ liệu mất cân bằng được coi là một bài tốn cực kỳ nghiêm trọng trong phân

lớp, trong đó chúng ta có thể mong đợi độ chính xác kém đối với các lớp hiếm. Thông

thường, trong hầu hết các trích chọn quan hệ, chỉ có các trường hợp tích cực được chú

thích. Do đó, các trường hợp phủ định phải được tạo tự động bằng cách ghép tất cả các

thực thể xuất hiện trong cùng một câu chưa được chú thích là tích cực. Vì có một số lượng

lớn các thực thể như vậy, số lượng các cặp phủ định có thể rất lớn, chiếm một tỷ lệ lớn



9



trong các trường hợp. Hơn nữa, tỷ lệ nhỏ của các ví dụ tích cực có thể bao gồm một số

loại, gây mất cân bằng nghiêm trọng trong dữ liệu.

(ii) Đơn vị ngôn ngữ học đặc biệt như phủ định và kết hợp cũng là những thách

thức trong nhiều bài toán xử lí ngơn ngữ tự nhiên, bao gồm nhận dạng thực thể được dặt

tên và phân lớp quan hệ trong lĩnh vực y sinh. Phủ định là một bài toán nổi tiếng trong

cách hiểu ngơn ngữ vì nó có thể thay đổi bản chất của toàn bộ mệnh đề hoặc câu. Kết hợp

có thể là một phần của thực thể hoặc sự xuất hiện của chúng trong văn bản có thể mang lại

lỗi phân tích cú pháp sau đó dẫn đến nhiễu để phân lớp quan hệ.

(iii) Một thách thức khác đối với phân lớp quan hệ là trong việc mơ hình hóa thứ tự

của các thực thể trong quan hệ có hướng. Một số mối quan hệ được định hướng và nhạy

cảm với trật tự, chẳng hạn như mối quan hệ trong tập dữ liệu DDI, mối quan hệ giữa

Inheres-in trong tập thể Phenebank. Các quan hệ như vậy đòi hỏi mơ hình phải dự đốn

chính xác cả hai loại quan hệ và thứ tự thực thể. Ngược lại, đối với các mối quan hệ không

mong muốn, chẳng hạn như Associated trong Phenebank, cả hai hướng đều có thể được

chấp nhận, một ví dụ khác là mối quan hệ hóa chất gây ra bệnh trong BioCreative V CDR

[6] mà hướng của nó ln đi từ hóa chất sang bệnh.

Thứ hai, khai thác thông tin trong lĩnh vực y sinh thường bị lỗi do hiệu quả của các

bước tiền xử lý tương đối thấp. NER và phân lớp quan hệ yêu cầu nhiều bước xử lý

trước, chẳng hạn như từ, phân đoạn câu, phân giải viết tắt, phân tích cú pháp, chuẩn hóa

thực thể và phân giải đồng tham chiếu. Chúng có ảnh hưởng lớn đến hiệu quả của hệ thống

trích chọn quan hệ. Các bước tiền xử lý này cần được dựa trên khung trích chọn thơng tin

hiện tại. Thật khơng may, vì miền y sinh có nhiều đặc điểm đặc biệt, các công cụ tiền xử

lý được xây dựng cho văn bản chung thường không hoạt động tốt trong miền này. Mặc dù

đã có nhiều nghiên cứu về những bài toán này trong lĩnh vực y sinh, nhưng kết quả vẫn

còn nhiều hạn chế. Đó là vì những khó khăn bản thân cũng như thiếu dữ liệu đào tạo chú

thích.

Thứ ba, các thực thể định danh y sinh (Named Entity - NE) có sự đa dạng và

đặc điểm riêng dẫn đến tính biến đổi cao và mập mờ so với các lĩnh vực khác. Sự mập

mờ trong văn bản có nhiều dạng khác nhau tùy theo loại ngữ nghĩa của thực thể nhưng có

thể do thiếu định danh tiêu chuẩn, danh pháp mở rộng và ngày càng tăng đối với

protein/gen trên nhiều sinh vật hoặc sử dụng rộng rãi các từ viết tắt và tên mô tả. Thật

không may, vì thiếu các quy ước đặt tên tiêu chuẩn, các thực thể có tên y sinh thường

khơng tn theo bất kỳ danh pháp nào trước khi một tên tiêu chuẩn được chấp nhận. Ngồi

ra, có hàng triệu tên thực thể được sử dụng và tên mới được thêm liên tục, ngụ ý rằng cả

từ điển và dữ liệu đào tạo sẽ khơng đủ tồn diện.

10



Thứ tư, một khi thực thể có tên được xác định, sau đó nó được phân lớp thành một

lớp như gen, bệnh, kiểu hình, hóa chất, v.v ... sự mập mờ và không nhất quán thường gặp

ở giai đoạn này. Các thực thể có tên có cùng đặc điểm hình thái có thể thuộc các loại khác

nhau (ví dụ, có một sự mập mờ lớn giữa kiểu hình và bệnh). Các thực thể lồng nhau hoặc

chồng chéo cũng là một thách thức khó khăn vì nhiều thực thể có thể bao gồm các thực thể

khác như một phần của chúng, ví dụ GENIA corpus chứa các thực thể lồng nhau như,

< RNA >< DNA > CIIT A < /DNA > mRNA < /RNA >

trong đó chuỗi “CIITA”, biểu thị một DNA và toàn bộ chuỗi ‘CIITA mRNA, đề cập

đến một RNA Ngay cả khi chúng ta chỉ làm việc với các thực thể liên tục, khơng lồng nhau

và khơng chồng chéo, bài tốn khơng rõ ràng vẫn là một thách thức lớn. Do đó, nội câu

hóa (xác định ranh giới chính xác của thực thể) và định hướng (phân lớp nhịp văn bản

thành loại thực thể chính xác) là hai bước quan trọng để ánh xạ các biến thể của tên y sinh

trong văn bản sang loại thực thể y sinh duy nhất. Những bài tốn này đặc biệt nổi bật trong

bệnh có tên là nhận dạng thực thể và cần được khắc phục để phân lớp quan hệ.

Cuối cùng, y sinh là một lĩnh vực liên ngành. Theo truyền thống, nghiên cứu y sinh

đã được thực hiện chủ yếu trong phạm vi nhỏ. Tuy nhiên, sự phức tạp của lĩnh vực sinh

học và khả năng phát triển của nghiên cứu y sinh ngày càng phụ thuộc vào sự phát triển

của các phương pháp và khái niệm vượt qua các ranh giới này. Việc khám phá toàn diện

các cơ chế sinh học và phát triển các phương pháp trị liệu mới đòi hỏi kiến thức và kỹ năng

của nhiều chuyên ngành. Kết quả là, ngoài các lĩnh vực trực tiếp và liên quan chặt chẽ,

sinh học, hóa học, y tế và xã hội học, nhiều lĩnh vực khác cũng được áp dụng cho nghiên

cứu y sinh như khoa học máy tính, kỹ thuật, vật lý và toán học. Điều này dẫn đến các tài

liệu khoa học được công bố với các nghiên cứu này cũng chứa nhiều thuật ngữ và thông

tin liên ngành. Ngay cả khi chúng ta tạm thời không đề cập đến các ngành khoa học khác,

bài toán thu hẹp khoảng cách giữa các nhà sinh học và nhà khoa học tính tốn dường như

rất quan trọng đối với sự thành công của khai thác thông tin y sinh và Nhận dạng thực thể

định danh nói chung, về phân lớp nói riêng. Hiện nay, khai thác tài liệu khoa học tự động

được xử lý bởi các nhà nghiên cứu với nền tảng tính toán. Tuy nhiên, họ cần kiến thức y

sinh, vốn được sở hữu bởi các nhà sinh học. Điều đó rất quan trọng để xác định các tiêu

chuẩn để đánh giá, để xác định các yêu cầu cụ thể, các ứng dụng tiềm năng và hệ thống

thơng tin tích hợp để truy vấn, trực quan hóa và phân tích dữ liệu trên quy mô lớn và để

xác minh thử nghiệm nhằm tạo thuận lợi cho sự hiểu biết về tương tác sinh học. Gần đây,

việc thành lập các nhóm đa ngành rất quan trọng đối với nghiên cứu y sinh học hiện đại.

Các nhóm này là những người đóng góp quan trọng cho sự tiến bộ của khám phá khoa học

cũng như các khám phá đó thành thực hành hữu ích.



11



CHƯƠNG 2. CÁC HƯỚNG TIẾP CẬN PHỔ BIẾN

CHO BÀI TỐN TRÍCH CHỌN QUAN HỆ

2.1. Các phương pháp thủ công

Phương pháp tiếp cận đơn giản nhất để phát hiện các mối quan hệ tiềm năng giữa hai

thực thể dựa trên số liệu thống kê về sự đồng xuất hiện [7]. Phương pháp này dựa trên giả

thuyết rằng nếu hai thực thể thường xuyên được nhắc đến cùng nhau, bằng cách nào đó có

khả năng chúng có liên quan đến nhau. Phương pháp này xác định mối quan hệ thông qua

việc đếm sự tồn tại của chúng trong toàn bộ các câu trong tập dữ liệu. Tuy nhiên, việc

thống kê đồng xuất hiện chỉ có thể xác định hai thực thể có khả năng có quan hệ mà khơng

thể chỉ ra được quan hệ đó là gì.

Hướng tiếp cận thủ cơng dựa trên hệ luật thường dựa vào một bộ luật hoặc mẫu đã

được xây dựng sẵn để xác định mối quan hệ giữa hai thực thể dựa vào ngữ cảnh chứa

chúng. Một trong những nghiên cứu dựa trên hệ luật gần đây nhất là hệ thống có tên

iXtractR [9], đó là một khung xử lí ngơn ngữ tự nhiên tổng qt sử dụng một số giả thuyết

mới để phát triển các mô hình trích chọn quan hệ y sinh. Các phương pháp dựa trên luật

hoặc mẫu không yêu cầu bất kỳ dữ liệu chú thích nào để huấn luyện một hệ thống nhưng

thường gặp hai nhược điểm:

(i) Các hệ luật và mô hình dựa trên các hệ luật/mơ hình được tạo thủ cơng, rất tốn

kém, mất thời gian và thường đòi hỏi cần các chuyên gia về miền dữ liệu đang

xét.

(ii) Chúng bị giới hạn trong việc trích chọn các loại quan hệ cụ thể và miền dữ liệu

cụ thể.



2.2. Các phương pháp học máy có giám sát

Hầu hết các phương pháp học máy có giám sát sẽ xử lý bài tốn trích chọn quan hệ

dưới dạng một bài tốn phân lớp. Dữ liệu cần phải được xác định trước các thực thể (cùng

với loại của chúng, nếu cần), các loại quan hệ cũng cần phải được định nghĩa trước. Nhiệm

vụ của mơ hình học máy có giám sát là phân lớp một câu chứa hai thực thể về một trong

số các nhãn cho trước. Để xây dựng được mơ hình này, chúng ta cần sử dụng một bộ dữ

liệu đã được gán nhãn chuẩn để huấn luyện.



2.2.1. Học máy dựa trên đặc trưng

Đối với các phương pháp học máy dựa trên đặc trưng, một tập hợp các đặc trưng đại

diện cho quan hệ đang xét cũng như dữ liệu sẽ được thiết kế bởi các chuyên gia. Sau đó,

bộ đặc trưng này được chuyển cho bộ phân lớp với mục đích đào tạo và phân lớp quan hệ.



12



Q trình trích chọn đặc trưng thực chất là quá trình biến đổi một câu đầu vào thành một

véctơ trong không gian đặc trưng để đưa vào mơ hình học máy.

Các hệ thống dựa trên đặc trưng yêu cầu biểu diễn từng trường hợp dữ liệu chú thích

dưới dạng vectơ đặc trưng F =

...;



;



; ...;



trong một khơng gian n chiều, trong đó



;



;



là các đặc trưng được trích chọn tuân theo bộ đặc trưng được xác định trước.

Các đặc trưng thường được sử dụng cho nhiệm vụ trích chọn quan hệ bao gồm [25,



26]:

 Các đặc trưng từ vựng: Trong bộ đặc trưng này, các đặc trưng từ vựng như

vị trí của cặp thực thể được đề cập, số lượng từ giữa cặp được đề cập, từ

trước hoặc sau cặp được đề cập, v.v ... được sử dụng để nắm bắt ngữ cảnh

của câu.

 Các đặc trưng của cây cú pháp: Trong bộ đặc trưng này, cấu trúc ngữ pháp

của câu và cặp được đề cập được sử dụng để tạo đặc trưng. Ví dụ, nhãn từ

loại cho mỗi cặp được đề cập, phần đầu, v.v., có thể được sử dụng như một

đặc trưng để trích chọn quan hệ.

 Các đặc trưng của cây phụ thuộc: Cây phụ thuộc cung cấp cho chúng ta

các từ mà cặp thực thể được đề cập là phụ thuộc và chúng ta có thể sử dụng

các từ đó và các nhãn từ loại của chúng trong bộ đặc trưng. Với điều này,

chúng ta cũng có thể sử dụng đường dẫn cây phụ thuộc giữa cặp được đề

cập, nhãn đường dẫn, khoảng cách giữa cặp thực thể được đề cập trong cây

phụ thuộc, v.v…

 Các đặc trưng thực thể: Một mối quan hệ có thể tồn tại giữa một số loại

thực thể nhất định, ví dụ: TreatmentForMedicalProbols có thể tồn tại giữa

một thực thể điều trị và thực thể bài tốn. Vì vậy, loại cặp thực thể được đề

cập cũng là các giá trị đặc trưng quan trọng cho mục đích phân lớp. Các đặc

trưng thực thể cũng bao gồm sự hiện diện của các thực thể y tế khác giữa các

cặp được đề cập.

 Các đặc trưng biểu diễn từ: Mặc dù các đặc trưng từ vựng biểu diễn cho

cấu trúc câu với cặp được đề cập, chúng ta có thể sử dụng các từ nhúng để

thể hiện cặp thực thể được đề cập. Các đặc trưng nhúng từ có một vai trò

quan trọng trong Nhận dạng thực thể định danh, phân tích cú pháp phụ thuộc,

gán nhãn ngữ nghĩa và trích chọn quan hệ.

Với các phương pháp dựa trên đặc trưng, các nhà nghiên cứu thường cố gắng cải

thiện hiện suất mơ hình bằng cách đề xuất và sử dụng một bộ đặc trưng phong phú. Các

nghiên cứu điển hình là Le [10], Rink [11], trong đó rất nhiều đặc trưng được sử dụng để

13



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ

Tải bản đầy đủ ngay(0 tr)

×