Tải bản đầy đủ - 0 (trang)
CHƯƠNG 3. MẠNG NƠ-RON TÍCH CHẬP

CHƯƠNG 3. MẠNG NƠ-RON TÍCH CHẬP

Tải bản đầy đủ - 0trang

Hình 3.1 mơ tả một mơ hình mạng nơ-ron nhân tạo cơ bản gồm có 3 lớp chính: lớp

đầu vào (input layer), các lớp ẩn (hidden layer), lớp đầu ra (output layer). Lớp đầu vào liên

kết với một hoặc nhiều lớp ẩn ngay phía sau, tại đây các xử lí được thực hiện thơng qua

các kết nối có trọng số. Lớp ẩn cuối cùng của mạng liên kết với lớp đầu ra, lớp đầu ra này

chính là nơi chứa kết quả đầu ra.

Một trong những yếu tố chính của mạng nơ-ron là khả năng “học” . Một mạng nơron không chỉ là một hệ thống phức tạp, mà là một hệ thống thích ứng phức tạp, có nghĩa

là nó có thể thay đổi cấu trúc bên trong dựa trên thông tin đi qua nó. Điều này đạt được

thơng qua việc điều chỉnh trọng số . Trong sơ đồ trên, mỗi dòng biểu thị một kết nối giữa

hai nơ-ron và chỉ ra đường dẫn cho luồng thông tin. Mỗi kết nối có một trọng số, một số

điều khiển tín hiệu giữa hai nơ-ron. Nếu mạng tạo ra một đầu ra là tốt nhất thì khơng cần

phải điều chỉnh các trọng số. Tuy nhiên, nếu mạng tạo ra một đầu ra không như ý thì hệ

thống sẽ cần phải điều chỉnh, thay đổi các trọng số để cải thiện các kết quả tiếp theo.

Mạng nơ-ron nhân tạo có nhiều ứng dụng quan trọng, dưới đây là một số ví dụ về các

ứng dụng:

Phân lớp:

Tất cả các bài toán phân lớp phụ thuộc vào bộ dữ liệu được dán nhãn; nghĩa là, con

người phải đưa hiểu biết của họ vào bộ dữ liệu để mạng nơ-ron tìm hiểu mối tương quan

giữa nhãn và dữ liệu. Điều này được gọi là học có giám sát.

 Phát hiện khn mặt, xác định người trong hình ảnh, nhận diện nét mặt (tức

giận, vui vẻ)

 Xác định các đối tượng trong hình ảnh (biển báo dừng, người đi bộ, vạch kẻ

đường)

 Nhận ra hành động trong video

 Phát hiện giọng nói, xác định người nói, phiên âm lời nói thành văn bản,

nhận ra cảm xúc trong giọng nói

 Phân lớp văn bản là thư rác (trong email) hoặc lừa đảo (trong yêu cầu bảo

hiểm); nhận ra cảm xúc trong văn bản (phản hồi của khách hàng)

Bất kỳ nhãn nào mà con người có thể tạo ra, bất kỳ kết quả nào chúng ta quan tâm và

có liên quan đến dữ liệu, đều có thể được sử dụng để huấn luyện một mạng

nơ-ron nhân tạo.

Phân cụm:



17



Phân cụm hoặc nhóm là phát hiện sự tương đồng. Học sâu khơng yêu cầu nhãn để

phát hiện sự tương đồng. Học mà khơng cần có nhãn được gọi là học khơng giám sát. Dữ

liệu không nhãn là phần lớn dữ liệu trên thế giới. Một định luật về học máy là:

thuật toán có thể đào tạo càng nhiều dữ liệu thì càng chính xác. Do đó, học khơng giám sát

có khả năng tạo ra các mơ hình có độ chính xác cao.

 Tìm kiếm: So sánh các tài liệu, hình ảnh hoặc âm thanh với các mục

tương tự.

 Phát hiện bất thường: Điểm nổi bật của việc phát hiện sự tương đồng là phát

hiện sự bất thường, hoặc hành vi bất thường. Trong nhiều trường hợp, hành

vi bất thường tương quan cao với những thứ muốn phát hiện và ngăn chặn,

chẳng hạn như gian lận.

Phân tích dự đốn hồi quy:

Với phân lớp, học sâu có thể thiết lập mối tương quan giữa các pixel trong một hình

ảnh và tên của một người. Đây được xem là một dự đoán tĩnh. Cùng một từ, tiếp xúc với

đủ dữ liệu phù hợp, học sâu có thể thiết lập mối tương quan giữa các sự kiện hiện tại và

các sự kiện trong tương lai. Nó có thể chạy hồi quy giữa quá khứ và tương lai. Sự kiện

trong tương lai giống như nhãn trong một ý nghĩa. Học sâu không nhất thiết phải quan tâm

đến thời gian, hoặc thực tế là có điều gì đó đã xảy ra. Đưa ra một chuỗi thời gian, học sâu

có thể tạo một chuỗi số và dự đốn số có khả năng xảy ra tiếp theo.

 Sự cố phần cứng (trung tâm dữ liệu, sản xuất, vận chuyển)

 Suy giảm sức khỏe (đột quỵ, đau tim dựa trên các số liệu và dữ liệu quan

trọng từ thiết bị đeo)

 Khách hàng rời bỏ doanh nghiệp (dự đoán khả năng khách hàng sẽ rời đi,

dựa trên hoạt động web và siêu dữ liệu)

 Doanh thu nhân viên.



3.2. Mạng nơ-ron tích chập

3.2.1. Tích chập

Tích chập được hình dung đơn giản như một cửa sổ trượt (sliding window) trượt trên

một ma trận đầu vào. Vì tích chập làm biến đổi thơng tin nên kĩ thuật này được áp dụng

vào xử lí ảnh, video. Ma trận bộ lọc (kernel) là thành phần không thể thiếu của phép tích

chập. Các kernel đã được học để tự điều chỉnh lấy ra những thông tin quan trọng, chính

xác nhất mà khơng cần chọn các đặc trưng. Phép tích chập được thực hiện bằng cách dịch

chuyển ma trận kernel lần lượt qua tất cả các điểm trên ma trận đầu vào. Hình 3.2 là một

ví dụ về xử lí ảnh như sau: Một hình ảnh trắng đen được số hóa thành ma trận có kích



18



thước 5x5, mỗi điểm ảnh có giá trị là 0 hoặc 1. Bên phải là ma trận kernel có kích thước

3x3. Tích chập được áp dụng bằng cách nhân từng phần tử bên của ma trận 3x3 với ma

trận bên trái. Kết quả sẽ nhận được một ma trận đặc trưng được sinh ra.



Hình 3.2. Tích chập với bộ lọc 3×3



3.2.2. Tổng quan về mạng nơ-ron tích chập

Mạng nơ-ron tích chập (Convolutional Neural Network – CNN) là mạng nơ-ron sử

dụng tích chập. Mạng nơ-ron tích chập là một tập hợp các lớp tích chập chồng lên nhau và

sử dụng các hàm kích hoạt phi tuyến như đơn vị tinh chỉnh tuyến tính ( Rectifier Linear

Unit – ReLU) và tanh để kích hoạt các trọng số trong các node. Các lớp tích chập sau chính

là kết quả của lớp tích chập trước đó. Mỗi lớp đều được áp dụng các bộ lọc khác nhau, có

thể lên đến hàng trăm hoặc hàng nghìn giống như những bộ lọc được trình bày ở trên và

kết hợp các kết quả của chúng. Ngồi ra ta còn có khái niệm lớp gộp (pooling layer), dùng

để thu nhỏ không gian hình ảnh.

Trong pha huấn luyện, CNN sẽ tự động học được các giá trị cho bộ lọc dựa trên bài

tốn đang thực hiện. Ví dụ: trong bài tốn phân lớp ảnh, CNN có thể học để phát hiện biên

vật thể từ các điểm ảnh thô trong lớp đầu tiên, sau đó sử dụng các biên này để phát hiện

các hình dạng đơn giản trong lớp thứ hai, tiếp theo sử dụng các hình dạng này để trích

chọn ra các đặc trưng, ví dụ hình dạng bề mặt của vật thể. Lớp cuối cùng là bộ phân lớp

sử dụng những đặc trưng này.



19



Hình 3.3. Mơ hình cơ bản của mạng nơ-ron tích chập

Mạng nơ-ron tích chập có tính bất biến và tính kết hợp cục bộ (Location Invariance

and Compositionality). Ví dụ, khi muốn xác định trong ảnh có một con mèo hay khơng.

Vì cửa sổ trượt sẽ trượt qua lần lượt tồn bộ ảnh nên ta khơng cần quan tâm vị trí con mèo

nằm ở đâu. Thứ hai, tính kết hợp cục bộ cho ta các cấp độ biểu diễn thông tin từ mức độ

thấp đến mức độ cao và trừu tượng hơn thơng qua các lớp tích chập với các bộ lọc khác

nhau. Đó là lý do tại sao mạng nơ-ron tích chập cho ra mơ hình với độ chính xác rất cao.

Tích chập hẹp và tích chập rộng:

Khi áp dụng một bộ lọc 3×3, việc áp dụng ở trung tâm của ma trận hoạt động tốt, tuy

nhiên, không thể áp dụng bộ lọc với biên của ma trận khi chúng khơng có đủ các giá trị lân

cận. Khi đó ta cần sử dụng zero-padding (phần thêm bằng 0) – tất cả các phần tử nằm bên

ngoài ma trận được tính bằng 0. Bằng cách này, ta có thể áp dụng bộ lọc cho mọi phần của

ma trận đầu vào, và nhận được kết quả đầu ra lớn hơn. Tích chập hẹp là khơng sử dụng

zero-padding, ngược lại được gọi là tích chập rộng.



Hình 3.4. Tích chập hẹp và tích chập rộng



Bước nhảy (Stride size):

Một đại lượng khác cho mạng nơ-ron tích chập là kích thước bước nhảy (stride size),

là khoảng cách mà bộ lọc di chuyển tại mỗi bước sau khi thực hiện tích chập. Trong tất cả



20



các ví dụ trên, kích thước bước nhảy là 1. Kích thước bước nhảy càng lớn thì mức ảnh

hưởng của bộ lọc và kích thước đầu ra càng nhỏ. Hình 3.5 biểu diễn việc sử dụng bước

nhảy là 1 và sử dụng bước nhảy là 2 ta được kích thước đầu ra tương ứng là 5 và 3.



Nguồn: http://cs231n.github.io/convolutional-networks/



Hình 3.5. Ví dụ về kích thước bước nhảy

Lớp gộp (Pooling layer):

Một khái niệm quan trọng của mạng nơ-ron tích chập là lớp gộp (poooling layer),

thường được áp dụng sau các lớp tích chập. Lớp pooling phổ biến nhất là max-pooling,

được thực hiện bằng cách lấy kết quả lớn nhất trên kết quả của mỗi bộ lọc. Ví dụ như hình

3.6, lớp gộp với bộ lọc 2x2, bước nhảy 2 áp dụng vào sửa sổ gồm các phần tử (2,4,7,8) sẽ

lấy giá trị cao nhất là 8. Đây còn được gọi là max-pooling (lấy ra phần tử có giá trị cao

nhất). Khơng nhất thiết phải áp dụng gộp một lần trên toàn ma trận, mà có thể áp dụng

theo một kích thước cửa sổ nhỏ hơn.



Hình 3.6. Pooling layer

Việc áp dụng các lớp gộp có thể làm giảm kích thước, tuy nhiên nếu lạm dụng đồng

chúng sẽ làm mất đi một số thông tin. Mặc dù vậy có một vài lý do để áp dụng các lớp

pooling này vào mạng nơ-ron tích chập.



21



 Đầu tiên, áp dụng các lớp gộp ta có thể có được kích thước cố định của ma

trận đầu ra – điều bắt buộc đối với bộ phân lớp. Ví dụ: giả sử ta có 1000 bộ

lọc và áp dụng pooling cho mỗi loại, ta sẽ nhận được đầu ra có kích thước

1000 chiều, bất kể kích thước bộ lọc hay kích thước đầu vào.

 Thứ hai, lớp pooling giúp giảm kích thước đầu ra nhưng mong muốn giữ

được những thơng tin nổi bật nhất. Ta có thể mất thơng tin tồn cục về vị trí

của một thơng tin địa phương nào đó, nhưng vẫn giữ được các thơng tin cần

thiết nhờ các bộ lọc.

 Trong bài toán phân lớp, nhận dạng ảnh, các lớp pooling giúp tạo ra sự bất

biến cơ bản cho các phép dịch chuyển và phép xoay. Khi ta áp dụng gộp trên

một vùng, kết quả đầu ra sẽ không bị thay đổi quá nhiều khi thực hiện các

phép dịch chuyển, xoay một vài điểm ảnh vì việc lấy cực đại vẫn chọn ra cùng

một giá trị.



3.3. Mạng nơ-ron tích chập áp dụng cho bài tốn xử lí ngơn ngữ tự nhiên

Áp dụng mạng nơ-ron tích chập vào bài tốn xử lý ngơn ngữ tự nhiên cần trải qua

hai giai đoạn chính, đó là biểu diễn văn bản để có được đầu vào của mạng nơ-ron tích chập,

sau đó áp dụng mơ hình mạng nơ-ron tích chập để trích chọn ra các đặc trưng cho bài tốn

xử lý ngơn ngữ tự nhiên tương ứng.

Sử dụng biểu diễn từ (Word Embedding):

Biểu diễn từ là một khái niệm được sử dụng rộng rãi, là một tập hợp các kỹ thuật mơ

hình hóa ngơn ngữ và trích chọn các đặc trưng trong xử lý ngôn ngữ tự nhiên, biểu diễn từ

gồm một hàm nhúng số học nhằm ánh xạ các từ hoặc cụm từ có trong từ điển thành các

véc-tơ số thực.

Biểu diễn từ được coi là một trong số ít các ứng dụng thành cơng của học máy không

giám sát hiện nay. Trên thực tế, tạo ra một bộ biểu diễn từ không cần các dữ liệu đã được

gán nhãn. Các phương pháp để sinh ra một bộ biểu diễn từ bao gồm: các nơ-ron nhân tạo,

giảm kích thước đầu vào trên ma trận đồng xuất hiện, các mơ hình xác suất và biểu diễn

từ bởi ngữ cảnh xuất hiện của từ.

Biểu diễn từ được sử dụng để biểu diễn các giá trị đầu vào cho các mô hình xử lý

ngơn ngữ tự nhiên. Thực tế cho thấy rằng, biểu diễn từ có hiệu quả tốt với nhiều bài tốn

xử lý ngơn ngữ tự nhiên như phân tích cú pháp, phân lớp văn bản, phân tích cảm xúc, v.v…

Áp dụng:



22



Mạng nơ-ron tích chập ban đầu được đề xuất để giải quyết nhiều bài toán trong lĩnh

vực thị giác máy mà tiêu biểu là xử lý ảnh. Sau đó với tiềm năng của mình, mạng nơ-ron

tích chập đã được cải tiến để để ứng dụng vào lĩnh vực xử lý văn bản. Để làm rõ cách ứng

dụng của mạng nơ-ron tích chập trong lĩnh vực xử lý văn bản, mục này sẽ đi vào phân tích

một ví dụ cụ thể của phân lớp câu – đây là bài toán cơ bản đầu tiên trong lĩnh vực xử lí văn

bản đã ứng dụng thành cơng mạng nơ-ron tích chập (xem hình 3.3)

 Nhận đầu vào là câu (ngồi ra, có thể là một chuỗi văn bản bất kỳ, v.v).

 Các câu được chia nhỏ thành các từ, chuyển câu đầu vào thành ma trận nhúng

từ. văn bản ở đầu vào được chuyển đổi thành ma trận số.

 Các bộ lọc tích chập được áp dụng trên lớp nhúng đầu vào này, bao gồm việc

áp dụng bộ lọc của tất cả các kích thước để tạo ra bản đồ đặc trưng. Ở đây

sử dụng ba vùng lọc có kích thước: 2, 3 và 4, mỗi kích thước có 2 bộ lọc. Mỗi

bộ lọc thực hiện tích chập trên ma trận câu và tạo các bản đồ đặc trưng (độ

dài thay đổi).

 Lớp tổng hợp tối đa được thực hiện trên mỗi bản đồ, nghĩa là, giá trị lớn nhất

từ mỗi bản đồ đặc trưng được ghi lại. Áp dụng lớp gộp tối đa trên mỗi bộ lọc

để thu được đầu ra có độ dài cố định và giảm chiều của đầu ra.

 Một vectơ đặc trưng đơn biến được tạo ra từ tất cả sáu bản đồ và 6 đặc trưng

này được nối với nhau để tạo thành một vectơ đặc trưng cho lớp áp chót.

 Lớp softmax cuối cùng nhận vectơ đặc trưng này làm đầu vào và sử dụng nó

để phân lớp câu (giả định phân lớp nhị phân và do đó ta có hai trạng thái đầu

ra).



23



Hình 3.7. Minh họa kiến trúc mạng nơ-ron tích chập để phân lớp câu



24



CHƯƠNG 4. MƠ HÌNH ĐỀ XUẤT VÀ CÁC KHÁI NIỆM LIÊN QUAN

4.1. Đường đi phụ thuộc ngắn nhất

4.1.1. Cây phụ thuộc và đường đi phụ thuộc ngắn nhất

Cây phụ thuộc của câu là một dạng biểu diễn có cấu trúc phân tầng dưới dạng cây,

trong đó mỗi từ được biểu diễn tại một nút trên cây và mỗi quan hệ phụ thuộc giữa các từ

được biểu diễn dưới dạng một cạnh có hướng (ví dụ trong hình 4.1). Cây phụ thuộc gốc

cung cấp đầy đủ thông tin về cấu trúc ngữ pháp của một câu. Tuy nhiên, một số thơng tin

trên cây phụ thuộc có thể khơng mang lại nhiều thơng tin cho bài tốn trích chọn quan hệ,

thậm chí gây nhiễu.

Đường đi phụ thuộc ngắn nhất (Shortest Dependency Path - SDP) là chuỗi ngắn

nhất xuất phát từ một từ bắt đầu đến một từ kết thúc trên cây phụ thuộc. Theo nghiên cứu

của Bunescu và cộng sự [27], đường đi phụ thuộc ngắn nhất thể hiện những thông tin xúc

tích nhất giữa hai thực thể, vì thế chúng thường được sử dụng để trích chọn mối quan hệ

giữa các thực thể ở trong câu.



Ví dụ từ PMID 2425813 trong bộ dữ liệu BioCreative V CDR



Hình 4.1. Ví dụ về cây phụ thuộc



4.1.2. Chuẩn hóa cây phụ thuộc

Trong đồ án tốt nghiệp này, hai kỹ thuật chuẩn hóa cây phụ thuộc đã được áp dụng

để giảm bớt các thông tin nhiễu cũng như làm giàu thêm thông tin trong đường đi phụ

thuộc ngắn nhất. Hình 4.2 là một ví dụ minh họa về việc chuẩn hóa cây phụ thuộc.

Chuẩn hóa giới từ: Các giới từ được chuẩn hóa bằng cách thu gọn các quan hệ phụ

thuộc “pobj” (đối tượng của giới từ) với quan hệ phụ thuộc của nút cha tương ứng (ví dụ:



25



“prep”, “acl”, v.v.) thành một quan hệ phụ thuộc duy nhất. Sau đó giới từ được loại bỏ

khỏi cây phụ thuộc.

Chuẩn hóa liên từ: Dựa trên giả định rằng hai từ được liên kết với nhau bởi một

quan hệ phụ thuộc liên từ “consj” phải có cùng vai trò về mặt ngữ nghĩa và ngữ pháp trong

câu. Trong đồ án này, một cạnh bổ sung được thêm vào để đảm bảo rằng các từ trên có

cùng quan hệ phụ thuộc với các từ khác ở trong câu.



(a) Cây con từ cây phụ thuộc ban đầu



(b) Cây con từ cây phụ thuộc chuẩn hóa

Hình 4.2. Ví dụ về cây phụ thuộc chuẩn hóa.



4.2. Đề xuất mơ hình phân lớp quan hệ dựa trên mạng nơ ron tích chập

Hình 4.3 thể hiện kiến trúc tổng quan của mơ hình mạng nơ ron tích chập đề xuất cho

bài tốn trích chọn quan hệ trong văn bản. Một mạng nơ ron tích chập được xây dựng trên

đường đi phụ thuộc ngắn nhất để trích chọn các đặc trưng từ một chuỗi các từ và thông tin

về các quan hệ phụ thuộc. Các thành phần chính của mơ hình gồm: tầng biểu diễn đầu vào

(SDP), tầng tích chập và tầng phân lớp softmax.



4.2.1. Biểu diễn đầu vào

Trong tầng biểu diễn đầu vào, mỗi thành phần của đường đi phụ thuộc ngắn nhất

được biểu diễn thành một vectơ



∈ ℝ , trong đó d là số chiều biểu diễn mong muốn.



Để trích chọn được nhiều đặc trưng hơn từ đường đi phụ thuộc ngắn nhất, các thành phần

trên (từ và quan hệ phụ thuộc) được biểu diễn bởi nhiều thông tin khác nhau và được kết

hợp thành một vecto biểu diễn duy nhất.



26



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 3. MẠNG NƠ-RON TÍCH CHẬP

Tải bản đầy đủ ngay(0 tr)

×