Tải bản đầy đủ - 0 (trang)
4 Thử nghiệm và đánh giá

4 Thử nghiệm và đánh giá

Tải bản đầy đủ - 0trang

Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



áp dụng hàm kích hoạt phi tuyến (non-linear activation function) 𝑀𝐴𝑋 trong lớp

𝑹𝑬𝑳𝑼𝟏, trước khi được giảm kích thước xuống một nửa thông qua lớp max pooling



𝑷𝑶𝑶𝑳𝟏 (giảm xuống còn 50 × 4 × 16). Dữ liệu tiếp tục được xử lý tương tự ở các lớp

kế tiếp: 𝑪𝑶𝑵𝑽𝟐 (với 32 bộ lọc với kích thước 5 × 5), 𝑹𝑬𝑳𝑼𝟐 và 𝑷𝑶𝑶𝑳𝟐. Kết quả thu



được sau lớp 𝑷𝑶𝑶𝑳𝟐 - một ma trận với kích thước 25 × 2 × 32 - được biến đổi về dạng



vector 1 chiều với 1600 phần tử để làm đầu vào cho lớp fully-connected layer 𝑭𝑪𝟏 (1024



nơron). Kết quả của 𝑭𝑪𝟏 được xem là một vector đặc trưng sử dụng cho quá trình phân

lớp (định danh người dùng).



Hình 4.3: Mơ tả kiến trúc hệ thống, trong đó thơng số sử dụng với mỗi lớp CNN được

ký hiệu theo quy ước 𝑋@𝑌 × 𝑍 với X là số bộ lọc (filter), 𝑌 × 𝑍 là kích thước của bộ lọc.



4.3.2.2 Điểm khác biệt của kiến trúc đề xuất với kiến trúc trước đó



Kiến trúc CNN được đề xuất bởi Matteo Gadaleta và cộng sự trong cơng trình

[29] sử dụng 2 conv layer trong đó conv layer đầu tiên áp dụng hàm kích hoạt tuyến tính

và lớp thứ hai sử dụng hàm kích hoạt phi tuyến 𝑡𝑎𝑛ℎ, nối tiếp bởi 1 lớp max pooling.



Kiến trúc CNN được đề xuất có điểm khác biệt: sau mỗi conv layer ln được áp dụng

hàm kích hoạt phí tuyến 𝑅𝑒𝐿𝑈 (𝑅𝑒𝐿𝑈 layer) nối tiếp bởi một lớp max pooling, nghĩa là

có tổng cộng 2 lớp max pooling thay vì 1 lớp như [29]– giúp giảm số lượng tham số sử

dụng trong hệ thống cũng như chi phí tính tốn.



54



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



4.3.3 Nhận dạng người dùng

Chúng tôi sử dụng neural network thơng thường để nhận dạng người dùng (bài tốn

phân lớp – classification). Kết quả thu được của lớp 𝑭𝑪𝟏 - vector đặc trưng (feature



vector) thể hiện cho một đối tượng - chính là dữ liệu đầu vào cho lớp đầu ra cuối 𝑂𝑈𝑇

có số neuron bằng số lượng lớp (nhãn) với hàm kích hoạt 𝑆𝑜𝑓𝑡𝑚𝑎𝑥

𝑓𝑗 (𝑧) =



𝑧

𝑒 𝑗



𝑧𝑘

∑𝐾

𝑘=1 𝑒



với 𝑘 = 1, 2, . . . , 𝐾. Hàm kích hoạt 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 giúp biến các giá trị



tính tốn tại 𝐾 neuron tại lớp 𝑶𝑼𝑻 (vector z) thành các giá trị mới nằm trong khoảng [0,



1] và tổng các giá trị mới bằng 1. Giá trị mới tại mỗi neuron trong lớp 𝑶𝑼𝑻 thu được từ

hàm 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 thể hiện xác suất thuộc về lớp (nhãn – label) tương ứng.



4.4 Thử nghiệm và đánh giá

4.4.1 Tập dữ liệu thử nghiệm



Để tiến hành đánh giá phương pháp đề xuất, nhóm tác giả tiến hành lựa chọn bộ dữ

liệu chuyển động OU-ISIR [4] của đại học Osaka (Nhật Bản) – bộ dữ liệu được xem là

lớn nhất về dữ liệu chuyển động gait. Bộ dữ liệu OU-ISIR gồm 2 tập con:

▪ Tập dữ liệu số 1: có dữ liệu của một số lượng lớn đối tượng (744 người - 389

nam và 355 nữ) trong độ tuổi từ 2 đến 78 thu được từ cảm biến chuyển động

IMUZ (tích hợp cảm biến gia tốc và con quy hồi chuyển) đặt ở ngay giữa lưng

của đối tượng thử nghiệm. Tuy có số lượng đối tượng lớn nhất nhưng tập dữ liệu

số 1 lại chỉ tập trung ghi nhận dữ liệu về một loại trạng thái chuyển động duy nhất

(di chuyển trên sàn phẳng).

▪ Tập dữ liệu số 2: tuy chỉ chứa dữ liệu của 496 đối tượng (ít hơn tập dữ liệu số 1)

nhưng lại có dữ liệu đa dạng về các trạng thái chuyển động (di chuyển trên sàn

phẳng, di chuyển lên và xuống dốc) được ghi nhận với 2 loại cảm biến chuyển

động (3 cảm biến chuyển động IMUZ và 1 điện thoại thơng minh Motorola

ME860 chỉ có cảm biến gia tốc) đặt ở các vị trí khác nhau trên phần thắt lưng của

đối tượng. Trong quá trình thu thập dữ liệu, tần số lấy mẫu

55



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



𝑓 = 100 𝐻𝑧. Sau khi thu được từ các cảm biến chuyển động, dữ liệu đã được



chuẩn hoá bằng cách loại bỏ các giá trị sai lệch do đó chúng ta khơng cần thiết

phải thực hiện thêm thao tác tiền xử lý dữ liệu (nội suy tín hiệu, khử nhiễu) như

đã đề cập ở phần trước.

Do mục tiêu của nghiên cứu hướng đến hỗ trợ định danh người dùng trong các

trạng thái chuyển động khác nhau (đi ngang trên sàn phẳng, đi lên dốc, đi xuống dốc) do

đó chúng tơi tập trung thử nghiệm với dữ liệu gia tốc (theo 3 trục – 𝐴𝑥, 𝐴𝑦, 𝐴𝑧) trên tập

dữ liệu số 2 (gồm 496 người và có sự đa dạng về các trạng thái chuyển động).

❖ Thách thức với tập dữ liệu thử nghiệm:

Các yếu tố ảnh hưởng tới việc nhận dạng người từ dữ liệu chuyển động có thể được

chia làm 2 nhóm chính: (a) yếu tố sinh lý và (b) yếu tố mô trường. Yếu tố sinh lý là yếu

tố liên quan đến cơ thể người như các dị tật trên cơ thể, tâm trạng, độ tuổi, giới

tính,…Yếu tố mơi trường là các điều kiện ngoại cảnh, các thực thể bên ngoài trực tiếp

hoặc gián tiếp tác động đến quá trình di chuyển của đối tượng như quần áo, địa hình, độ

dốc (slope), …Do đó, so với các bộ dữ liệu về thơng tin chuyển động trước đó, tập dữ

liệu thử nghiệm ở đây chứa đựng một số thách thức sau:

Các bộ dữ liệu trước bộ dữ liệu OU-ISIR có số lượng đối tượng ít (nhỏ hơn [47]

hoặc bằng 100 người [48]), tỉ lệ giới tính (nam/nữ) khơng đồng đều cũng như

phạm vi và phân bố độ tuổi của các chủ thể còn hạn chế. Bộ dữ liệu OU-ISIR có

dữ liệu của một số lượng lớn đối tượng (744 người) với tỉ lệ giới tính (nam/nữ)

đồng điều xấp xỉ 1/1 và phân bố rải đều trong độ tuổi từ 2 đến 78. Dữ liệu thử

nghiệm trích từ bộ OU-ISIR với số lượng đối tượng lớn (496 người), sự phân hố

trong giới tính cũng như sự biến đổi về độ tuổi gây ra thách thức trong quá trình

nhận dạng.



56



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Các bộ dữ liệu trước bộ dữ liệu OU-ISIR ghi nhận dữ liệu di chuyển trên mặt

phẳng ngang. Dữ liệu OU-ISIR ghi nhận dữ liệu chuyển động trên nhiều độ dốc

khác nhau (đi ngang trên sàn phẳng, di chuyển lên và xuống dốc).



Hình 4.4 Một ví dụ dữ liệu gia tốc (theo 3 trục x, y, z) của một đối tượng

trong bộ dữ liệu OU-ISIR [4].



4.4.2 Thử nghiệm, đánh giá

Với tập dữ liệu số 2 đã mô tả, ban đầu chúng tôi tiến hành thực nghiệm trên dữ

liệu với trạng thái di chuyển trên sàn phẳng để lựa chọn được kiến trúc mạng CNN đạt

hiệu quả cao. Sau đó, chúng tơi dùng chính mơ hình mạng đã xác định này để thử nghiệm

với hai loại trạng thái chuyển động còn lại (đi lên và xuống dốc) nhằm kiểm tra tính phù

hợp của kiến trúc đề xuất với nhiều loại trạng thái chuyển động khác nhau.

Các phương pháp khác phân vùng dữ liệu bằng cách xác định các chu kỳ chuyển

động (gait cycle). Trong nghiên cứu này, chúng tôi hướng tới việc hỗ trợ nhận dạng liên

tục (continuous recognition) cho phép tiến hành định danh tại bất kỳ thời điểm nào.

Chính vì vậy, chúng tơi cần phải cung cấp đủ các mẫu (sample) cho việc huấn luyện

cũng như kiểm thử bằng cách sử dụng phương pháp Fixed Size Overlapping Sliding

Window (FOSW) như đã trình bày trong mục 4.3.1. Để thử nghiệm, chúng tôi chọn độ

rộng 𝒌 của cửa sổ thời gian W với giá trị 𝒌 = 100 (tương ứng với 1 giây chuyển động



do dữ liệu thử nghiệm có tần số lấy mẫu 𝑓 = 100 𝐻𝑧) và giá trị độ dài bước trượt 𝒖 =

57



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



5. Đầu tiên, chúng tôi tiến hành thực nghiệm với trạng thái di chuyển trên sàn phẳng.



Với dữ liệu của một phiên di chuyển trên sàn phẳng của mỗi đối tượng trong tập dữ liệu



thử nghiệm, tiến hành thực hiện bước phân vùng và biến đổi dữ liệu (mục 4.2.1) với

thông số 𝒌, 𝒖 mô tả ở trên. Kết thúc quá trình này thu được tổng cộng 39.085 mẫu

(sample). Số lượng người (số nhãn - label) trong dữ liệu thử nghiệm là 496, lớn hơn



nhiều so với số lượng 24 nhãn trong cơng trình [29]. Để tiến hành kiểm nghiệm mức độ

hiệu quả của việc sử dụng CNN so với sử dụng Neural Network (NN) truyền thống, một

hệ thống với kiến trúc sử dụng NN được xây dựng. Mơ hình hệ thống này được mơ tả

chi tiết trong Hình 4.5. Lưu ý ở đây, dữ liệu đầu vào ban đầu là ma trận có kích thước

100 × 7 được tiến hành biến đổi về dạng vector với số lượng phần tử là 700 để làm dữ

liệu đầu vào cho hệ thống.



Hình 4.5: Mơ hình hệ thống sử dụng Neural Network gồm

2 hidden layer với 300 neuron mỗi layer.



Để phân tích hiệu quả của của kiến trúc CNN được đề xuất, ta tiến hành xây dựng một

số cấu hình để thử nghiệm như trình bày trong bảng dưới đây:



58



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Bảng 4.1: Các cấu hình được dùng trong thử nghiệm



Cấu

hình

A



B



C

D



Mơ tả cấu hình

Sử dụng NN (Hình 4.5) với số neuron trong lớp 𝐹𝐶1 và 𝐹𝐶2 là 300.

Sử dụng CNN. Tuy nhiên, cấu hình sử dụng ở đây tương tự như trong

cơng trình [29]: sau lớp 𝐼𝑁𝑃𝑈𝑇 là một conv layer 𝐶𝑂𝑁𝑉1 với hàm kích

hoạt tuyến tính sử dụng 16 bộ lọc với kích thước 1 × 10, tiếp đó là một

conv layer 𝐶𝑂𝑁𝑉2 với hàm kích hoạt phi tuyến tanh sử dụng 32 bộ

lọc với kích thước 3 × 5, nối tiếp bởi một lớp Max Pooling trước khi kết

thúc bởi Fully-connected layer 𝐹𝐶1 (2048 neuron) để tạo ra vector đặc

trưng.

Sử dụng CNN. Kiến trúc như mô tả trong Hình 4.3, tuy nhiên kích thước

bộ lọc (filter) sử dụng ở 2 lớp 𝐶𝑂𝑁𝑉1 và 𝐶𝑂𝑁𝑉2 đổi thành 3 × 3.

Sử dụng CNN. Chính là kiến trúc đề xuất (Hình 4.3).



Hình 4.6 Cài đặt cấu hình đề xuất sử dụng TensorFlow với ngơn ngữ Python.



Q trình cài đặt sử dụng thư viện mã nguồn mở Tensorflow [49] với ngôn ngữ lập

trình Python (Hình 4.6). TensorFlow là một framework mã nguồn mở cho Deep



59



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Learning được phát triển bởi Google. TensorFlow được viết bằng Python, sử dụng các

đồ thị luồng dữ liệu để tính tốn (hỗ trợ cả CPU và GPU) và cung cấp các API hỗ trợ

cho Neural Network, CNN và RNN.

Kỹ thuật 𝒌-Fold Cross Validation với 𝒌 = 𝟏𝟎 được sử dụng để đánh giá mức độ



hiệu quả của các cấu hình mơ tả trong Bảng 4.1. Với kỹ thuật 𝑘-Fold Cross Validation,

tất cả các mẫu trong tập dữ liệu được chia làm 𝑘 phần (với số lượng mẫu trong mỗi phần



bằng nhau hoặc gần bằng nhau). Việc thử nghiệm được thực hiện 𝑘 lần, trong mỗi lần,



một phần trong 𝑘 phần được dùng làm dữ liệu để kiểm thử (validation set), 𝑘 − 1 phần

còn lại dùng làm dữ liệu huấn luyện (training set). Kết quả đánh giá mơ hình là giá trị



trung bình kết quả của k lần chạy thử nghiệm. Kết quả độ chính xác trung bình sử dụng

10-Fold Cross Validation của các cấu hình sau quá trình thử nghiệm với dữ liệu của

trạng thái di chuyển trên sàn phẳng thể hiện trong bảng sau:

Bảng 4.2 Độ chính xác của việc định danh theo cấu hình thử nghiệm

với trạng thái di chuyển trên sàn phẳng



Cấu hình

thử nghiệm

A

B

C

D



Độ chính xác

Accuracy (%)

73,25

92,68

96,30

99,19



Kết quả thể hiện trong Bảng 4.2 cho thấy hiện quả vượt trội của việc sử dụng CNN

(cấu hình B, C, D) để trích rút đặc trưng cấp cao so với Neural Network thơng thường

(cấu hình A). Cấu hình B (kiến trúc tương tự cơng trình [29]) mang lại độ chính xác thấp

hơn cấu hình C (dựa theo kiến trúc CNN mà chúng tôi đề xuất nhưng sử dụng bộ lọc với

kích thước nhỏ 3 × 3). Việc tăng kích thước của bộ lọc từ 3 × 3 (cấu hình C) lên 5 × 5

(cấu hình D) giúp tăng độ chính xác. Kết quả cấu hình D cho thấy kiến trúc CNN đề xuất

mang lại hiệu quả cao trên 99% đối với việc nhận diện người dùng từ dữ liệu với trạng

thái di chuyển trên sàn phẳng.

60



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



Để kiểm chứng xem việc sử dụng lớp 𝑅𝑒𝐿𝑈 ngay sau mỗi conv layer cũng như sử



dụng 2 lớp max pooling trong kiến trúc đề xuất có giúp cho tăng tốc q trình huấn luyện,

chúng tơi tính tốn thời gian huấn luyện của cấu hình B và cấu hình D trên 100 lần lặp

trong điều kiện sử dụng kỹ thuật mini-batch với giá trị 𝑏𝑎𝑡𝑐ℎ_𝑠𝑖𝑧𝑒 = 128 trong cùng

điều kiện phần cứng. Kết quả được hiển thị trong bảng dưới đây:



Bảng 4.3 Kết quả tốc độ huấn luyện trên cấu hình B và D



Cấu hình thử nghiệm

B

D



Thời gian chạy 100 lần lặp (giây)

53,32

22,73



Kết quả Bảng 4.3 thể hiện rõ hiệu quả của việc ứng dụng lớp 𝑅𝑒𝐿𝑈 cũng như sử



dụng 2 lớp max pooling giúp tăng tốc quá trình huấn luyện hơn 50%.



Ứng với dữ liệu từ các loại trạng thái chuyển động khác (đi lên và đi xuống dốc),

chúng tôi muốn đánh giá liệu kiến trúc CNN đề xuất còn đạt hiệu quả. Vì vậy, chúng tơi

tiến hành xây dựng các mẫu (sample) và chạy thử nghiệm cấu hình D theo cách giống

như khi thử nghiệm với trạng thái di chuyển trên sàn phẳng. Kết quả thực nghiệm được

trình bày trong bảng dưới đây:

Bảng 4.4 Kết quả thử nghiệm cấu hình D với trạng thái di chuyển đi lên và xuống dốc



Trạng thái di chuyển

Lên dốc (Slope up)

Xuống dốc (Slope down)



Độ chính xác Accuracy (%)

99.01

98.50



Qua thực nghiệm, chúng tơi nhận thấy mặc dù độ chính xác của kiến trúc CNN đề

xuất (cấu hình D) ứng với trạng thái di chuyển đi lên dốc và đi xuống dốc có kém hơn

so với kết quả ứng với trạng thái di chuyển trên sàn phẳng nhưng mức độ hiệu quả vẫn

cao (lớn hơn 98%) cho thấy mơ hình đề xuất có tính tương thích cao với nhiều trạng thái

di chuyển khác nhau.



61



Chương 4. Nhận diện người từ dữ liệu chuyển động sử dụng CNN



4.5 Kết chương

Trong nghiên cứu này, chúng tôi đề xuất phương pháp nhận diện người dùng từ dữ

liệu chuyển động với một kiến trúc CNN đề xuất sử dụng kết hợp các convolutional layer

đi kèm với 𝑅𝑒𝐿𝑈 layer và 𝑀𝐴𝑋 𝑃𝑂𝑂𝐿𝐼𝑁𝐺 layer. Kết quả thử nghiệm trên nhiều trạng



thái chuyển động khác nhau của tập dữ liệu có số lượng đối tượng lớn (496 người) – có

được từ bộ dữ liệu OU-ISIR [4] - mang lại hiệu quả với độ chính xác cao. Điều này

khẳng định CNN không chỉ hoạt động hiệu quả đối với các lĩnh vực truyền thống như

thị giác máy tính, xử lý ngơn ngữ tự nhiên mà còn có thể được ứng dụng hiệu quả trong

các bài toán nhận dạng liên quan đến dữ liệu chuyển động. Tuy nhiên, việc đánh giá và

xây dựng mơ hình bước đầu chỉ diễn ra trên tập dữ liệu số 2 với số lượng người không

phải tối đa (496 người) của bộ OU-ISIR. Việc nghiên cứu, đánh giá dự kiến được mở

rộng trên dữ liệu với số lượng người tối đa (tập dữ liệu số 1 gồm 744 người), từ đó bổ

sung hồn thiện phương pháp và tiến hành so sánh với các hướng tiếp cận khác đã có

thử nghiệm trên Tập dữ liệu số 1.

Nội dung của chương này được tổng hợp và công bố trong bài báo khoa học với

tiêu đề “Nhận dạng người từ dữ liệu chuyển động sử dụng Convolutional Neural

Network” được chấp nhận đăng tại hội nghị trong nước (FAIR’X).

Dữ liệu chuyển động - tập hợp các dữ liệu được biến đổi theo thời gian (time series

data) – là một dạng dữ liệu chuỗi (sequence). Do đó RNN hoặc các kiến trúc đặc biệt

của RNN như LSTM, GRU có thể được áp dụng vào dữ liệu chuyển động để học các

mối quan hệ theo thời gian. Trong Chương kế tiếp, chúng tôi trình bày một kiến trúc đề

xuất mang tên DeepSense-Inception, sử dụng mô đun tương tự Google Inception do

chúng tôi đề xuất kết hợp với kiến trúc đặc biệt của RNN là GRU giúp định danh người

dùng từ dữ liệu chuyển động một cách hiệu quả.



62



Chương 5. Nhận diện người từ dữ liệu chuyển động sử dụng kiến trúc tương tự Google Inception và RNN



Chương 5. NHẬN DIỆN NGƯỜI TỪ DỮ LIỆU CHUYỂN ĐỘNG SỬ

DỤNG KIẾN TRÚC TƯƠNG TỰ GOOGLE INCEPTION VÀ RNN

Nội dung Chương 5 trình bày, thử nghiệm và đánh giá kiến trúc đề

xuất mang tên DeepSense-Inception, dựa trên DeepSense Framework,

giúp nhận diện người dùng từ dữ liệu chuyển động thông qua mô đun với

kiến trúc tương tự Google Inception và Reccurrent Neural Network. Nội

dung chương này được tổng hợp và công bố trong Bài báo khoa học số 2

của nhóm tác giả.



5.1 Giới thiệu

Kết quả thực nghiệm trong Chương 4 cho thấy tiềm năng ứng dụng của CNN (sử

dụng làm bộ trích rút đặc trưng cấp cao tự động vào việc nhận dạng người dùng từ dữ

liệu chuyển động. Dữ liệu chuyển động là dạng dữ liệu biến đổi theo thời gian (timeseries data) – tức là dạng dữ liệu chuỗi (sequence). Với tính chất này, trong nghiên cứu

Shuochao Yao và cộng sự đã đề xuất một kiến trúc mang tên DeepSense [5] cho phép

trích rút đặc trưng từ nhiều loại cảm biến khác nhau, đồng thời học được các mối quan

hệ theo dạng thời gian của dữ liệu chuyển động. Trong kiến trúc này, họ sử dụng CNN

thơng thường để trích rút đặc trưng từ từng cảm biến đơn lẻ. Tất cả các đặc trưng từ các

cảm biến đơn lẻ được gộp (merge) lại sau đó CNN tiếp tục được sử dụng để học các đặc

trưng cấp cao liên quan đến nhiều cảm biến. Cuối cùng kiến trúc mở rộng của Recurrent

Neural Network (RNN) là GRU (Gated Reccurrent Unit) [45] được sử dụng để học mối

liên kết giữa các đặc trưng theo thời gian. Trong nghiên cứu này, chúng tôi đề xuất một

kiến trúc mới mang tên DeepSense-Inception (DSI), kế thừa kiến trúc của DeepSense

[5] với 3 thành phần chính:

▪ các mơ đun tương tự Google Inception [6] cho phép trích rút đặc trưng từ các cảm

biến đơn lẻ một cách hiệu quả hơn so với việc sử dụng CNN thông thường như trong

DeepSense.

63



Chương 5. Nhận diện người từ dữ liệu chuyển động sử dụng kiến trúc tương tự Google Inception và RNN



▪ mô đun gồm các conv layer kết hợp với các pooling layer vừa giúp trích rút đặc trưng

kết hợp từ các cảm biến, vừa giúp giảm số lượng tham số cần sử dụng.

▪ mô đun sử dụng RNN để học được các mối quan hệ theo thời gian từ dữ liệu, từ đó

tạo ra vector đặc trưng phục vụ cho quá trình nhận dạng (classification task).

Với kiến trúc đề xuất, bằng cách thay đổi các thông số, chúng tôi tạo ra nhiều biến thể

mô hình với cấu trúc 𝑫𝑺𝑰 − 𝒎 − 𝑳 miêu tả trong phần 5.3. Thử nghiệm trên bộ dữ liệu



UCI Human Activity Recognition [7] cho thấy mơ hình 𝑫𝑺𝑰 − 𝟖 − 𝟑 đạt kết quả hứa

hẹn với độ chính xác đạt 99,9% vượt qua kết quả tốt nhất (đạt 99,7%) của kiến trúc

DeepSense khi thử nghiệm trên cùng tập dữ liệu.



5.2 Cơng trình liên quan

Kiến trúc đề xuất của chúng tơi dựa trên DeepSense Framework [5], có sử dụng

kiến trúc tương tự như Google Inception [6] kết hợp với kiến trúc mở rộng của RNN là

GRU (Gated Reccurrent Unit). Vì vậy, phần này chúng tơi tập trung miêu tả kiến trúc

của DeepSense Framework [5] như thể hiện trong Hình 5.1 bên dưới.



Hình 5.1 Kiến trúc chính của DeepSense Framework [5].



64



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

4 Thử nghiệm và đánh giá

Tải bản đầy đủ ngay(0 tr)

×