Tải bản đầy đủ - 0 (trang)
Chương 4. NHẬN DIỆN NGƯỜI TỪ DỮ LIỆU CHUYỂN ĐỘNG SỬ DỤNG CNN

Chương 4. NHẬN DIỆN NGƯỜI TỪ DỮ LIỆU CHUYỂN ĐỘNG SỬ DỤNG CNN

Tải bản đầy đủ - 0trang

Chương 3. Cơ sở lý thuyết về Convolutional Neural Network và Recurrent Neural Network



Trong các công thức trên, ý nghĩa của các ký hiệu như sau:

▪ 𝑖, 𝑓, 𝑜 là các cổng đầu vào (input gate), cổng quên (forget gate) và cổng đầu ra



(ouput gate). Mỗi cổng có bộ các tham số 𝑈 và 𝑊 tương ứng. Cổng đầu vào điều

khiển mức độ thu thập thông tin mới. Cổng quên điều khiển mức độ ghi nhớ thông

tin cũ. Cổng đầu ra điều khiển mức độ thể hiện thông tin đầu ra của trạng thái ẩn

(hidden state).



▪ 𝑐̃𝑡 là trạng thái ẩn ứng viên được tính dựa vào dữ liệu đầu vào và trạng thái ẩn

trước đó. Tuy nhiên 𝑐̃𝑡 khơng được sử dụng làm trạng thái ẩn mới (đầu ra của

LSTM unit) mà được sử dụng kết hợp cổng đầu vào 𝑖.



▪ 𝑐𝑡 chính là trí nhớ (internal memory hoặc cell state) của đơn vị tính tốn LSTM.



Theo như cơng thức tính 𝑐𝑡 , ta có thể chọn mức độ bỏ qua trí nhớ trước 𝑐𝑡−1 thơng

qua cổng qn 𝑓 (forget gate) cũng như mức độ thu thập thông tin của trạng thái

ẩn ứng viên 𝑐̃𝑡 thông qua cổng đầu vào 𝑖 (input gate).



▪ 𝑠𝑡 chính là trạng thái ẩn đầu ra của LSTM unit bằng cách kết hợp trí nhớ hiện tại

𝑐𝑡 với cổng đầu ra 𝑜 (output gate).



Một biến thể khác của LSTM là Gated Recurrent Unit (GRU) [45] được đề xuất bởi

Kyunghyun Cho và đồng sự trong năm 2014. GRU hiện nay được sử dụng phổ biến do

kiến trúc đơn giản nhưng vẫn mang lại hiệu quả cao. Vì GRU là thành phần trong kiến

trúc DeepSense-Inception đề xuất nên để tiện theo dõi, kiến trúc của GRU được trình

bày chi tiết trong phần mơ tả kiến trúc DeepSense-Inception tại Chương 5.



3.4 Kết chương

Trong chương này, chúng tôi trình bày tri thức về Neuron Network, Convolutional

Neural Network, Recurrent Neural Network và biến thể Long Short Term Memory

(LSTM). Đây là cơ sở lý thuyết cho việc sử dụng CNN và RNN trong các kiến trúc đề

xuất giúp nhận diện người dùng đặc trưng chuyển động gait được trình bày trong

Chương 4 và Chương 5.



48



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Chương 4. NHẬN DIỆN NGƯỜI TỪ DỮ LIỆU CHUYỂN ĐỘNG SỬ

DỤNG CNN

Nội dung Chương 4 trình bày về hướng tiếp cận nhận dạng người

từ dữ liệu chuyển động sử dụng một kiến trúc CNN đề xuất và các kết quả

thử nghiệm trên dữ liệu chuyển động của 496 người từ tập dữ liệu OUISIR của đại học Osaka (Nhật Bản), tập dữ liệu gait với số lượng người

lớn nhất. Nội dung chương này được tổng hợp và công bố trong Bài báo

khoa học số 1 của nhóm tác giả.



4.1 Giới thiệu

Như đã giới thiệu về bài toán định danh người sử dụng đặc trưng gait trong Chương

2 (mục 2.2), một bước quan trọng trong quy trình định danh là xây dựng mẫu chuyển

động với 2 cách chính: (a) biến đổi dữ liệu đã phân vùng thành các đặc trưng thủ công

(hand-crafted feature) hoặc (b) biến đổi dữ liệu đã phân vùng thành các đặc trưng được

rút trích tự động.

CNN cho phép trích rút đặc trưng cấp cao (high-level feature) một cách tự động

với hiệu quả cao. Matteo Gadaleta và cộng sự đã tận dụng ưu điểm này để đề xuất một

kiến trúc CNN [29] sử dụng trong bài toán định danh người dùng từ dữ liệu chuyển động.

Kiến trúc này sử dụng 2 convolutional layer (conv layer) – conv layer đầu tiên với hàm

kích hoạt tuyến tính (linear activation function) và conv layer thứ hai sử dụng hàm kích

hoạt phi tuyến (non-linear activation function) 𝑡𝑎𝑛ℎ, khơng sử dụng hàm kích hoạt phi

tuyến 𝑅𝑒𝐿𝑈 (Rectified Linear Units) - đi kèm theo sau bởi một lớp pooling duy nhất. So

sánh với các hàm kích hoạt phi tuyến được sử dụng trong CNN, 𝑅𝑒𝐿𝑈 được sử dụng

nhiều hơn do hàm này giúp cho quá trình huấn luyện mạng nhanh hơn với sự thay đổi



độ chính xác tổng qt khơng đáng kể [38]. Bên cạnh đó, việc đánh giá hiệu quả trong

cơng trình [29] được thực hiện trên tập dữ liệu với số lượng người ít (24 người).



49



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Vì thế, chúng tơi tiến hành đề xuất một kiến trúc CNN khác: ln sử dụng hàm kích

hoạt phi tuyến 𝑅𝑒𝐿𝑈 ngay sau mỗi conv layer cũng như sử dụng hai 𝑀𝐴𝑋 𝑃𝑂𝑂𝐿𝐼𝑁𝐺



layer. Kết quả thử nghiệm với dữ liệu của 496 người từ bộ dữ liệu chuyển động OUISIR [3] của đại học Osaka – bộ dữ liệu được xem là lớn nhất về dữ liệu chuyển động

gait – mang lại hiệu quả cao với độ chính xác đạt trên 99%. Bên cạnh đó, do kiến trúc

đề xuất sử dụng hàm kích hoạt 𝑅𝑒𝐿𝑈 và hai 𝑀𝐴𝑋 𝑃𝑂𝑂𝐿𝐼𝑁𝐺 layer giúp rút ngắn thời

gian huấn luyện lên tới 50%.



4.2 Cơng trình liên quan



Hình 4.1 Kiến trúc CNN đề xuất bởi Matteo Gadaleta và cộng sự.

Ký hiệu 𝑋@(𝑌 × 𝑍) với 𝑋 là số bộ lọc, 𝑌 × 𝑍 là kích thước bộ lọc [29].



Trong cơng trình [29], quy trình chứng thực dùng đặt trưng gait được thực hiện

theo nhiều bước. Trong đó, ở bước xây dựng mẫu chuyển động (gait pattern) – trích rút

đặc trưng gait (feature extraction), Matteo Gadaleta và cộng sự đề xuất sử dụng một kiến

trúc CNN như một bộ trích rút đặc trưng cấp cao tự động (Hình 4.1).

Dữ liệu thơ thu được từ cảm biến gia tốc (accelerometer) và con quay hồi chuyển

(gyroscope) sau khi được phân vùng tạo nên 8 vector trong mỗi chu kỳ chuyển động mỗi vector gồm 𝑊 = 400 phần tử, tương ứng với dữ liệu ghi nhận trong 1 giây - bao



gồm 3 vector dữ liệu của 𝐴𝑥, 𝐴𝑦, 𝐴𝑧; 1vector độ lớn (magnitude) 𝑀𝑎 tạo ra bởi

50



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



𝐴𝑥, 𝐴𝑦, 𝐴𝑧; 3 vector dữ liệu của 𝐺𝑥, 𝐺𝑦, 𝐺𝑧 và 1 vector độ lớn (magnitude) 𝑀𝑔 tạo ra bởi

𝐺𝑥, 𝐺𝑦, 𝐺𝑧. Tập hợp 8 vector này tạo nên ma trận với kích thước 8 × 400, chính là đầu

vào (input layer) cho khối trích rút đặc trưng CNN.



Kiến trúc CNN dùng để trích rút đặc trưng chuyển động (CNN Feature Extraction

Block) sử dụng 5 layer (Hình 4.1) bao gồm: input layer 𝑰𝑵𝑷𝑼𝑻, convolutional layer 1



𝑪𝑶𝑵𝑽𝟏, Convolutional layer 2 𝑪𝑶𝑵𝑽𝟐, Max Pooling layer 𝑷𝑶𝑶𝑳𝟏, Fully-connected

layer 1 𝑭𝑪𝟏.



𝑰𝑵𝑷𝑼𝑻 nhận dữ liệu đầu vào là ma trận với kích thước 8 × 400 như mơ tả phía



trên. 𝑪𝑶𝑵𝑽𝟏 sử dụng 20 bộ lọc có kích thước 1 × 20 với hàm kích hoạt tuyến tính



(linear activation function). Kế tiếp, 50 bộ lọc có kích thước 3 × 10 được sử dụng trong

𝑪𝑶𝑵𝑽𝟐 với hàm kích hoạt phi tuyến (non-linear activation function) 𝑡𝑎𝑛ℎ. 𝑷𝑶𝑶𝑳𝟏

giúp giảm kích thước dữ liệu thu được từ 𝑪𝑶𝑵𝑽𝟐 xuống một nửa. Dữ liệu thu được tiếp



tục được xử lý với 𝑭𝑪𝟏 cho kết quả đầu ra là một vector đặc trưng (feature vector) với

số lượng phần từ 𝑁 = 40. Vector đặc trưng này được sử dụng cho quá trình định danh

(classification) kế tiếp.



Đặc điểm của kiến trúc CNN trên là sử dụng hàm kích hoạt phi tuyến 𝑡𝑎𝑛ℎ thay vì



hàm 𝑅𝑒𝐿𝑈 và chỉ sử dụng một max pooling layer duy nhất.



4.3 Phương pháp đề xuất



Về cơ bản, phương pháp đề xuất nhận dạng người dùng dựa trên dữ liệu chuyển

động được thực hiện theo quy trình được mơ tả ở Chương 2 (mục 2.2.2) gồm các bước:

thiết lập cảm biến và thu thập dữ liệu, tiền xử lý dữ liệu, phân vùng tín hiệu, xây dựng

mẫu chuyển động và thủ tục nhận dạng. Riêng bước biến đổi mẫu chuyển động về miền

không gian đặc trưng được áp dụng CNN. Như đã đề cập, chúng tôi sử dụng dữ liệu

chuyển động từ bộ dữ liệu OU-ISIR [4] đã được thực hiện bước thu thập và tiền xử lý

dữ liệu, chi tiết các bước còn lại trong quy trình được mơ tả dưới đây:



51



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



4.3.1 Phân vùng và biến đổi dữ liệu

4.3.1.1 Phân vùng

Dữ liệu chuyển động thu được của một đối tượng được thể hiện như một ma trận

T với kích thức 𝒅 × 𝒏; trong đó d là số dòng, bằng số lượng loại thông số chuyển động



(ở đây d = 3 với 3 loại thông số gia tốc chuyển động 𝐴𝑥, 𝐴𝑦, 𝐴𝑧) và 𝒏 là số lượng lần



lấy mẫu giá trị thông số của đối tượng đó. Phương pháp phân vùng (segmentation) được

sử dụng là phương pháp Fixed Size Overlapping Sliding Window (FOSW) [46].

Một cửa sổ thời gian W với kích thước 𝒅 × 𝒌 được trượt lần lượt từ trái qua phải



trên ma trận T, trong đó 𝒌 là độ rộng của cửa sổ. Mỗi lần trượt thứ i , với độ dài bước

trượt 𝒖, phát sinh một phân vùng Si với kích thước đúng bằng của sổ thời gian W. Tập

hợp P = {Si} thu được chính là các phân vùng dữ liệu được sử dụng trong bước kế tiếp.



Hình 4.2 Mô tả phương pháp FOSW dùng để phân vùng dữ liệu



4.3.1.2 Biến đổi dữ liệu

Để việc trích rút đặc trưng đạt hiệu quả tốt hơn, với mỗi phân vùng dữ liệu S (là

một ma trận có kích thước 𝒅 × 𝒌) trong tập P thu được trong bước trên, ta thực hiện

tính tốn một số thơng số bổ sung như sau:



Với một giá trị 𝐴𝑥, 𝐴𝑦, 𝐴𝑧 tại cột thứ j trong S, ta tiến hành tính



▪ Độ lớn của vector tạo bởi 2 trong 3 thông số gia tốc 𝐴𝑥, 𝐴𝑦, 𝐴𝑧:

52



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Dj (Ax, Ay) = √𝑆𝑗 (𝐴𝑥) 2 + 𝑆𝑗 (𝐴𝑦) 2

Dj (Ay, Az) = √𝑆𝑗 (𝐴𝑦) 2 + 𝑆𝑗 (𝐴𝑧) 2

Dj (Ax, Az) = √𝑆𝑗 (𝐴𝑥) 2 + 𝑆𝑗 (𝐴𝑧) 2



Do đó, với mỗi cột j, ta thu được thêm 3 giá trị Dj (Ax, Ay), Dj (Ay, Az), Dj (Ax, Az).

▪ Độ lớn của vector tạo bởi 3 thông số 𝐴𝑥, 𝐴𝑦, 𝐴𝑧:



Dj (Ax, Ay, Az) = √𝑆𝑗 (𝐴𝑥) 2 + 𝑆𝑗 (𝐴𝑦) 2 + 𝑆𝑗 (𝐴𝑧) 2



Sau bước này, mỗi phân vùng S trong tập P được biến đổi thành phân vùng S’ là

ma trận với kích thước 𝒅’ × 𝒌 (ở đây 𝒅’ = 𝒅 + 4, với 4 là giá trị đặc trưng được tính



tốn theo cơng thức như trên). Các phân vùng S’ chính là dữ liệu đầu vào cho bước trích

xuất đặc trưng cấp cao (high-level features) sử dụng CNN ở bước kế tiếp.

4.3.2 Rút trích đặc trưng cấp cao sử dụng CNN

4.3.2.1 Kiến trúc đề xuất

Ở đây, CNN được sử dụng để trích rút đặc trưng cấp cao một cách tự động từ dữ

liệu đã được phân vùng và biến đổi được trình bày trong mục trước. Kiến trúc chúng tơi

đề xuất thể hiện trong Hình 4.3 gồm nhiều lớp (layer) khác nhau theo thứ tự bao gồm:

lớp đầu vào 𝑰𝑵𝑷𝑼𝑻, conv layer 𝑪𝑶𝑵𝑽𝟏, relu layer 𝑹𝑬𝑳𝑼𝟏, max pooling layer



𝑷𝑶𝑶𝑳𝟏, conv layer 𝑪𝑶𝑵𝑽𝟐, relu layer 𝑹𝑬𝑳𝑼𝟐, max pooling layer 𝑷𝑶𝑶𝑳𝟐, Fullyconnected layer 𝑭𝑪𝟏 và lớp đầu ra 𝑶𝑼𝑻.



Lớp đầu vào 𝑰𝑵𝑷𝑼𝑻 chính là dữ liệu thu được sau khi kết thúc bước phân vùng và



biến đổi dữ liệu với kích thước 100 × 7. Lớp 𝑪𝑶𝑵𝑽𝟏 sử dụng 16 bộ lọc (filter) với kích

thức 5 × 5. trượt trên 𝑰𝑵𝑷𝑼𝑻 cho phép tìm ra mối liên hệ giữa các thành phần dữ liệu



theo thời gian. Kết quả thu được là ma trận ba chiều với kích thước 100 × 7 × 16 được

53



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



áp dụng hàm kích hoạt phi tuyến (non-linear activation function) 𝑀𝐴𝑋 trong lớp

𝑹𝑬𝑳𝑼𝟏, trước khi được giảm kích thước xuống một nửa thơng qua lớp max pooling



𝑷𝑶𝑶𝑳𝟏 (giảm xuống còn 50 × 4 × 16). Dữ liệu tiếp tục được xử lý tương tự ở các lớp

kế tiếp: 𝑪𝑶𝑵𝑽𝟐 (với 32 bộ lọc với kích thước 5 × 5), 𝑹𝑬𝑳𝑼𝟐 và 𝑷𝑶𝑶𝑳𝟐. Kết quả thu



được sau lớp 𝑷𝑶𝑶𝑳𝟐 - một ma trận với kích thước 25 × 2 × 32 - được biến đổi về dạng



vector 1 chiều với 1600 phần tử để làm đầu vào cho lớp fully-connected layer 𝑭𝑪𝟏 (1024



nơron). Kết quả của 𝑭𝑪𝟏 được xem là một vector đặc trưng sử dụng cho quá trình phân

lớp (định danh người dùng).



Hình 4.3: Mơ tả kiến trúc hệ thống, trong đó thơng số sử dụng với mỗi lớp CNN được

ký hiệu theo quy ước 𝑋@𝑌 × 𝑍 với X là số bộ lọc (filter), 𝑌 × 𝑍 là kích thước của bộ lọc.



4.3.2.2 Điểm khác biệt của kiến trúc đề xuất với kiến trúc trước đó



Kiến trúc CNN được đề xuất bởi Matteo Gadaleta và cộng sự trong cơng trình

[29] sử dụng 2 conv layer trong đó conv layer đầu tiên áp dụng hàm kích hoạt tuyến tính

và lớp thứ hai sử dụng hàm kích hoạt phi tuyến 𝑡𝑎𝑛ℎ, nối tiếp bởi 1 lớp max pooling.



Kiến trúc CNN được đề xuất có điểm khác biệt: sau mỗi conv layer luôn được áp dụng

hàm kích hoạt phí tuyến 𝑅𝑒𝐿𝑈 (𝑅𝑒𝐿𝑈 layer) nối tiếp bởi một lớp max pooling, nghĩa là

có tổng cộng 2 lớp max pooling thay vì 1 lớp như [29]– giúp giảm số lượng tham số sử

dụng trong hệ thống cũng như chi phí tính tốn.



54



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



4.3.3 Nhận dạng người dùng

Chúng tôi sử dụng neural network thông thường để nhận dạng người dùng (bài toán

phân lớp – classification). Kết quả thu được của lớp 𝑭𝑪𝟏 - vector đặc trưng (feature



vector) thể hiện cho một đối tượng - chính là dữ liệu đầu vào cho lớp đầu ra cuối 𝑂𝑈𝑇

có số neuron bằng số lượng lớp (nhãn) với hàm kích hoạt 𝑆𝑜𝑓𝑡𝑚𝑎𝑥

𝑓𝑗 (𝑧) =



𝑧

𝑒 𝑗



𝑧𝑘

∑𝐾

𝑘=1 𝑒



với 𝑘 = 1, 2, . . . , 𝐾. Hàm kích hoạt 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 giúp biến các giá trị



tính tốn tại 𝐾 neuron tại lớp 𝑶𝑼𝑻 (vector z) thành các giá trị mới nằm trong khoảng [0,



1] và tổng các giá trị mới bằng 1. Giá trị mới tại mỗi neuron trong lớp 𝑶𝑼𝑻 thu được từ

hàm 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 thể hiện xác suất thuộc về lớp (nhãn – label) tương ứng.



4.4 Thử nghiệm và đánh giá

4.4.1 Tập dữ liệu thử nghiệm



Để tiến hành đánh giá phương pháp đề xuất, nhóm tác giả tiến hành lựa chọn bộ dữ

liệu chuyển động OU-ISIR [4] của đại học Osaka (Nhật Bản) – bộ dữ liệu được xem là

lớn nhất về dữ liệu chuyển động gait. Bộ dữ liệu OU-ISIR gồm 2 tập con:

▪ Tập dữ liệu số 1: có dữ liệu của một số lượng lớn đối tượng (744 người - 389

nam và 355 nữ) trong độ tuổi từ 2 đến 78 thu được từ cảm biến chuyển động

IMUZ (tích hợp cảm biến gia tốc và con quy hồi chuyển) đặt ở ngay giữa lưng

của đối tượng thử nghiệm. Tuy có số lượng đối tượng lớn nhất nhưng tập dữ liệu

số 1 lại chỉ tập trung ghi nhận dữ liệu về một loại trạng thái chuyển động duy nhất

(di chuyển trên sàn phẳng).

▪ Tập dữ liệu số 2: tuy chỉ chứa dữ liệu của 496 đối tượng (ít hơn tập dữ liệu số 1)

nhưng lại có dữ liệu đa dạng về các trạng thái chuyển động (di chuyển trên sàn

phẳng, di chuyển lên và xuống dốc) được ghi nhận với 2 loại cảm biến chuyển

động (3 cảm biến chuyển động IMUZ và 1 điện thoại thơng minh Motorola

ME860 chỉ có cảm biến gia tốc) đặt ở các vị trí khác nhau trên phần thắt lưng của

đối tượng. Trong quá trình thu thập dữ liệu, tần số lấy mẫu

55



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



𝑓 = 100 𝐻𝑧. Sau khi thu được từ các cảm biến chuyển động, dữ liệu đã được



chuẩn hoá bằng cách loại bỏ các giá trị sai lệch do đó chúng ta không cần thiết

phải thực hiện thêm thao tác tiền xử lý dữ liệu (nội suy tín hiệu, khử nhiễu) như

đã đề cập ở phần trước.

Do mục tiêu của nghiên cứu hướng đến hỗ trợ định danh người dùng trong các

trạng thái chuyển động khác nhau (đi ngang trên sàn phẳng, đi lên dốc, đi xuống dốc) do

đó chúng tơi tập trung thử nghiệm với dữ liệu gia tốc (theo 3 trục – 𝐴𝑥, 𝐴𝑦, 𝐴𝑧) trên tập

dữ liệu số 2 (gồm 496 người và có sự đa dạng về các trạng thái chuyển động).

❖ Thách thức với tập dữ liệu thử nghiệm:

Các yếu tố ảnh hưởng tới việc nhận dạng người từ dữ liệu chuyển động có thể được

chia làm 2 nhóm chính: (a) yếu tố sinh lý và (b) yếu tố mô trường. Yếu tố sinh lý là yếu

tố liên quan đến cơ thể người như các dị tật trên cơ thể, tâm trạng, độ tuổi, giới

tính,…Yếu tố mơi trường là các điều kiện ngoại cảnh, các thực thể bên ngoài trực tiếp

hoặc gián tiếp tác động đến quá trình di chuyển của đối tượng như quần áo, địa hình, độ

dốc (slope), …Do đó, so với các bộ dữ liệu về thơng tin chuyển động trước đó, tập dữ

liệu thử nghiệm ở đây chứa đựng một số thách thức sau:

Các bộ dữ liệu trước bộ dữ liệu OU-ISIR có số lượng đối tượng ít (nhỏ hơn [47]

hoặc bằng 100 người [48]), tỉ lệ giới tính (nam/nữ) khơng đồng đều cũng như

phạm vi và phân bố độ tuổi của các chủ thể còn hạn chế. Bộ dữ liệu OU-ISIR có

dữ liệu của một số lượng lớn đối tượng (744 người) với tỉ lệ giới tính (nam/nữ)

đồng điều xấp xỉ 1/1 và phân bố rải đều trong độ tuổi từ 2 đến 78. Dữ liệu thử

nghiệm trích từ bộ OU-ISIR với số lượng đối tượng lớn (496 người), sự phân hoá

trong giới tính cũng như sự biến đổi về độ tuổi gây ra thách thức trong quá trình

nhận dạng.



56



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Các bộ dữ liệu trước bộ dữ liệu OU-ISIR ghi nhận dữ liệu di chuyển trên mặt

phẳng ngang. Dữ liệu OU-ISIR ghi nhận dữ liệu chuyển động trên nhiều độ dốc

khác nhau (đi ngang trên sàn phẳng, di chuyển lên và xuống dốc).



Hình 4.4 Một ví dụ dữ liệu gia tốc (theo 3 trục x, y, z) của một đối tượng

trong bộ dữ liệu OU-ISIR [4].



4.4.2 Thử nghiệm, đánh giá

Với tập dữ liệu số 2 đã mô tả, ban đầu chúng tôi tiến hành thực nghiệm trên dữ

liệu với trạng thái di chuyển trên sàn phẳng để lựa chọn được kiến trúc mạng CNN đạt

hiệu quả cao. Sau đó, chúng tơi dùng chính mơ hình mạng đã xác định này để thử nghiệm

với hai loại trạng thái chuyển động còn lại (đi lên và xuống dốc) nhằm kiểm tra tính phù

hợp của kiến trúc đề xuất với nhiều loại trạng thái chuyển động khác nhau.

Các phương pháp khác phân vùng dữ liệu bằng cách xác định các chu kỳ chuyển

động (gait cycle). Trong nghiên cứu này, chúng tôi hướng tới việc hỗ trợ nhận dạng liên

tục (continuous recognition) cho phép tiến hành định danh tại bất kỳ thời điểm nào.

Chính vì vậy, chúng tôi cần phải cung cấp đủ các mẫu (sample) cho việc huấn luyện

cũng như kiểm thử bằng cách sử dụng phương pháp Fixed Size Overlapping Sliding

Window (FOSW) như đã trình bày trong mục 4.3.1. Để thử nghiệm, chúng tôi chọn độ

rộng 𝒌 của cửa sổ thời gian W với giá trị 𝒌 = 100 (tương ứng với 1 giây chuyển động



do dữ liệu thử nghiệm có tần số lấy mẫu 𝑓 = 100 𝐻𝑧) và giá trị độ dài bước trượt 𝒖 =

57



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



5. Đầu tiên, chúng tôi tiến hành thực nghiệm với trạng thái di chuyển trên sàn phẳng.



Với dữ liệu của một phiên di chuyển trên sàn phẳng của mỗi đối tượng trong tập dữ liệu



thử nghiệm, tiến hành thực hiện bước phân vùng và biến đổi dữ liệu (mục 4.2.1) với

thông số 𝒌, 𝒖 mơ tả ở trên. Kết thúc q trình này thu được tổng cộng 39.085 mẫu

(sample). Số lượng người (số nhãn - label) trong dữ liệu thử nghiệm là 496, lớn hơn



nhiều so với số lượng 24 nhãn trong cơng trình [29]. Để tiến hành kiểm nghiệm mức độ

hiệu quả của việc sử dụng CNN so với sử dụng Neural Network (NN) truyền thống, một

hệ thống với kiến trúc sử dụng NN được xây dựng. Mơ hình hệ thống này được mơ tả

chi tiết trong Hình 4.5. Lưu ý ở đây, dữ liệu đầu vào ban đầu là ma trận có kích thước

100 × 7 được tiến hành biến đổi về dạng vector với số lượng phần tử là 700 để làm dữ

liệu đầu vào cho hệ thống.



Hình 4.5: Mơ hình hệ thống sử dụng Neural Network gồm

2 hidden layer với 300 neuron mỗi layer.



Để phân tích hiệu quả của của kiến trúc CNN được đề xuất, ta tiến hành xây dựng một

số cấu hình để thử nghiệm như trình bày trong bảng dưới đây:



58



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Chương 4. NHẬN DIỆN NGƯỜI TỪ DỮ LIỆU CHUYỂN ĐỘNG SỬ DỤNG CNN

Tải bản đầy đủ ngay(0 tr)

×