Tải bản đầy đủ - 0 (trang)
2 D liu thc nghim và phng thc ánh giá

2 D liu thc nghim và phng thc ánh giá

Tải bản đầy đủ - 0trang

4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



STT

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24



STT

1

2

3

4

5

6

7



Bảng 4.1: Thống kê dữ liệu trong tập xây dựng mơ hình

Tên phim

Thời gian (giây) Số keyframe Số shot

Armageddon

8681,05

217026

1737

BillyElliot

6349,36

158734

1270

Eragon

5985,57

149639

1198

Harry Potter 5

7954,72

198868

1591

I Am Legend

5780,58

144514

1157

Leon

6344,49

158612

1269

Midnight Express

6960,96

174024

1393

Pirates Of The Caribbean 1

8241,01

206025

1649

Reservoir Dogs

5721,98

142825

1143

Saving Private Ryan

9750,89

243772

1951

The Sixth Sense

6178,01

154450

1236

The Wicker Man

5870,89

146772

1175

The Bourne Identity

6816,29

170407

1364

The Wizard of Oz

5859,29

146482

1172

Dead Poets Society

7415,17

185379

1484

Fight Club

8006,34

200158

1602

Independence Day

8834,96

220874

1767

The Godfather

10194,96

254874

2039

Pulp Fiction

8887,97

222199

1778

Forrest Gump

8176,97

204424

1636

Fargo

5646,34

141158

1130

The Pianist

8567,10

241177

1714

Fantatic Four 1

6097,41

152360

1219

Legally Blond

5523,49

138087

1105

Tổng

173833,8

4345840

34779

Bảng 4.2: Thống kê dữ liệu trong tập đánh giá

Tên phim

Thời gian (giây) Số keyframe Số shot

V for Vendetta

7626,49

190662

1526

Terminator 2

8831,37

220784

1767

Jumanji Collectors

5993,98

149849

1199

Ghost in the Shell

4966,00

124150

994

Desperado

6012,89

150322

1203

Brave Heart

10224,49

255612

2045

8 Mile

63655,53

158888

1272

Tổng

50010,75

1250267

10006



59



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



cho các đội thi. Độ đo này dựa trên thứ tự các shot được trả về từ hệ thống phát

hiện cảnh bạo lực trong một video so với kết quả được đưa ra từ ban tổ chức.

MAP-2014 được tính bằng cơng thức sau:

M AP =



v

u=1



AP (v)

V



(4.1)



Ở đây V là tổng số video và AP là độ chính xác trung bình cho từng video. Trong

đó AP được tính theo cơng thức sau:

AP =



n

k=1 (P (k)xrel(k))



numberof positiveshots



(4.2)



Trong đó P(k) là độ chính xác của top k phân đoạn có độ bạo lực cao nhất

do hệ thống trả về và rel(k) sẽ bằng 1 nếu phân đoạn thứ k được gán nhãn là

bạo lực (được ban tổ chức VSD cung cấp) hoặc 0 nếu đoạn đó khơng chứa cảnh

bạo lực.



4.3



Kết quả thực nghiệm và đánh giá



Với mục tiêu đánh giá việc áp dụng DF vào việc biểu diễn khái niệm bạo lực

trong video, trong nội dung quá trình thực nghiệm của luận văn sẽ tiến hành

thực nghiệm và đánh giá các yếu tố sau:

• Đánh giá việc sử dụng DF biểu diễn khái niệm bạo lực thơng qua các khái

niệm và thuộc tính liên quan đến bạo lực (C1).

• Đánh giá việc biểu diễn khái niệm bạo lực bằng DF thông qua việc học

trực tiếp khái niệm bạo lực từ đơn vị từng cảnh (frame) được rút ra từ

video(C2).

• Đánh giá phương thức biểu diễn đặc trưng cho shot tương ứng với hai cách

biểu diễn max pooling và sum pooling.



60



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



4.3.1



Kết quả thực nghiệm DF biểu diễn khái niệm bạo

lực thông qua sub-concepts (C1)



Trong phần thực nghiệm này sẽ tiến hành đánh giá việc sử dụng DF để biểu

diễn khái niệm bạo lực thơng qua các khái niệm, thuộc tính có liên quan đến bạo

lực được đề xuất trong nghiên cứu [2].

Tập các khái niệm, thuộc tính được mơ tả như sau:

1. Lửa (Fire): có thê là một hình ảnh chứa ngọn lửa lớn, cũng như lửa phát

ra bắn súng...

2. Vũ khí nóng (Firearms): hình ảnh chứa bất kỳ loại súng.

3. Vật dụng gây sát thương (Cold arms): hình ảnh chứa các loại vũ khí

như dao, thanh kiếm, lưỡi lê.

4. Rượt đuổi xe ô tô (car chases)

5. Cảnh chết chóc (gore)

6. Máu (blood): dựa vào mức độ cảnh chứa máu ta có thể chia ra làm các

loại sau:

• Khơng đáng kể (unnoticeable): hình ảnh máu nhỏ hơn 5% khung hình.

• Mức thấp (low): hình ảnh máu chiếm từ 5% đến 25% khung hình.

• Mức trung bình (medium): hình ảnh máu chiếm từ 25% đến 50% khung

hình.

• Mức cao (high): hình ảnh máu chiếm lớn hơn 50% khung hình.

7. Đánh nhau (fights): dựa vào mức độ và số lượng người tham gia có thể

chia ra làm các loại sau:

• 1vs1: chỉ có hai người đánh nhau.

• nhỏ (small): chỉ nhóm nhỏ (số lượng người nhỏ hơn 10).

• lớn (large): chỉ nhóm có số người tham gia lớn hơn 10 người.



61



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



Bảng 4.3: Kết quả thực nghiệm đánh giá DF biểu diễn từ sub-concept (C1)

Mơ hình

Alexnet



VGG 16



VGG 19



UvANet



Cấu trúc mạng

MAP % (max pooling) MAP(sum pooling)

fc6

45.43

44,89

fc7

47.21

44.8

fullyconnected layer

35.81

33.50

fc6

42.86

41.99

fc7

44.18

42.7

fullyconnected layer

36.9

35.57

fc6

46.15

43.5

fc7

48.12

44.41

fullyconnected layer

34.92

35.28

UvANet_Bottom-up-4k

39.29

38.49

UvANet_Bottom-up-8k

39.48

39

UvANet_Bottom-up-12k

39.5

38.2



• Tấn cơng từ xa (distant attack): khơng chứa cảnh đánh nhau trực tiếp

nhưng có một người nào đó bị bắn hoặc bị tấn cơng từ xa (bị trúng

đạn, bị trúng tên, ...).

Bảng 4.3 là kết quả thực nghiệm trên các DF được rút trích từ 3 mơ hình bao

gồm Alexnet, UvANet và VGG trong đó gồm các kết quả rút trích đặc trưng ở

các layer khác nhau. Hai phương thức kết hợp đặc trưng từ các keyframe của một

shot bao gồm lấy giá trị lớn nhất (max pooling) và lấy giá trị tổng (sum pooling)

cũng được đánh giá.

Dựa vào bảng kết quả cho thấy trong ba mơ hình đánh giá thì mơ hình VGG

cho kết quả cao nhất với độ chính xác là 48,12% ứng với đặc trưng được rút trích

từ fc7 layer. Xét về mặt cấu trúc của mơ hình (so sánh kết quả việc sử dụng đặc

trưng ở các layer khác nhau trong các mơ hình) ta thấy rằng ở các tầng kế các

layer cuối cùng thường cho kết quả cao hơn (hình 4.10). Trong đó đặc trưng ở

lớp fc7 ln cho kết quả cao nhất, điều này cũng phù hợp với mô tả về DL đã

nhấn mạnh việc càng ở lớp kế sau thì mơ hình càng mang tính tổng qt hóa.

Trên phương diện biểu diễn thông tin video theo cách cắt video thành từng

shot và lấy mẫu keyframe thì kết quả thực nghiệm cho thấy việc kết hợp các đặc

trưng từ các keyframe bằng phương pháp max pooling thường cho kết quả tốt

hơn so với sum pooling (hình 4.10).

Ngồi ra, để so sánh việc sử dụng DF với các đặc trưng thị handcraffted, học

viên tiến hành thực nghiệm tương tự trong đó thay thế việc sử dụng DF bằng



62



4. DL cho bài tốn phát hiện sự kiện trong dữ liệu video



Hình 4.9: Phân tích kết quả dựa trên kiến trúc DL (C1)



Hình 4.10: Phân tích kết quả lựa chọn cách biểu diễn video (C1)



63



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



đặc trưng RGB-SIFT – một đặc trưng mà rất nhiều nghiên cứu sử dụng trong xử

lý ảnh, đặc trưng chuyển động (Motion), đặc trưng âm thanh MFCC. Theo đó

độ chính xác đạt được khi sử dụng RGB-SIFT là 39.44%, Motion là 47.64% và

MFCC là 34.09%. Dựa vào biểu đồ so sánh kết quả ở hình 4.11, so sánh kết quả

tốt nhất của các mơ hình cho ta thấy việc sử dụng DL đem lại hiệu quả tốt hơn

1% so với đặc trưng chuyển động, 13% so với việc sử dụng RGB-SIFT và MFCC.



Hình 4.11: So sánh sử dụng DF với phương pháp sử dụng đặc trưng RGB-SIFT,

Motion, MFCC (C1)



4.3.2



Kết quả thực nghiệm DF biểu diễn trực tiếp khái

niệm bạo lực (C2)



Bảng 4.4 là kết quả thực nghiệm việc sử dụng DF để biểu diễn trực tiếp khái

niệm bạo lực. Trong đó thay vì sử dụng các khái niệm, thuộc tính liên quan đến

khái niệm bạo lực thì các đặc trưng được rút trích trực tiếp từ các keyframe được

gán nhãn là bạo lực và huấn luyện mô hình.

Từ bảng kết quả ta thấy với đặc trưng được rút trích ra từ mơ hình VGG-16

và cách kết hợp maxpooling cho kết quả tốt nhất (50.17%). Khi so với kết quả

được thực hiện từ việc biểu diễn thông qua các sub-concept ta thấy rằng độ chính

xác cao nhất đã tăng lên từ 48.12% lên 50.17%.



64



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



Bảng 4.4: Kết quả thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2)

Mơ hình

Alexnet



VGG 16



VGG 19



UvAnet



Cấu trúc mạng

Fc6

fc7

Fully connected layer

Fc6

fc7

Fully connected layer

Fc6

fc7

Fully connected layer

UvANet_Bottom-up-4k

UvANet_Bottom-up-8k

UvANet_Bottom-up-12k



MAP % (max pooling) MAP % (sum pooling)

45.20

45.57

47.30

45.20

35.92

35.55

49.25

47.60

50.17

47.19

36.90

37.91

50.02

49.12

48.84

47.26

36.76

38.07

42.29

39.60

42.32

40.82

42.86

42.46



Hình 4.12: Phân tích kết quả dựa trên kiến trúc DL (C2)



Khi xét về mặt cấu trúc của mơ hình ta thấy rằng kết quả ở các fc7 layer

cũng cho kết quả cao hơn so với các layer khác (hình 4.12). Cũng tương tự vậy

bằng phương pháp max pooling sẽ cho thường cho kết quả tốt hơn so với sử dụng

sum pooling (hình 4.13).

Khi so sánh sử dụng DF với sử dụng đặc trưng RGB-SIFT 40.67%, Motion

47.64%, MFCC 34.09% thì cho thấy kết quả sử dụng DF tốt hơn từ 3% đến 15%

(hình 4.14 ).



65



4. DL cho bài tốn phát hiện sự kiện trong dữ liệu video



Hình 4.13: Phân tích kết quả lựa chọn cách biểu diễn video (C2)



Hình 4.14: So sánh đặc trưng DF với đặc trưng handcraffted (C2)



4.3.3



Đánh giá



Dựa vào kết quả chạy thực nghiệm và phân tích trên khía cạnh khác nhau của

các thực nghiệm (C1) và (C2) ta có thể rút ra một số đánh giá và nhận xét sau:

• Ta có thể áp dụng DL mà cụ thể ở đây là các DF vào việc giải quyết bài

toán phát hiện cảnh bạo lực trong video. Cụ thể hơn, video sẽ được chia

thành các đoạn (shot), trong mỗi đoạn ta lấy mẫu nhiều cảnh (keyframe).

Việc rút trích đặc trưng được thực hiện trên các keyframe này.



66



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



• Sử dụng DF sẽ cho kết quả tốt hơn từ 1% đến 15% so với việc sử dụng đặc

trưng handcraffed.

• Trong việc biểu diễn thơng tin từng shot từ các keyframe thì sử dụng

phương pháp max-pooling sẽ cho kết quả cao hơn so với các phương pháp

sum-pooling.

• Sử dụng DF biểu diễn trực tiếp khái niệm bạo lực (C2) sẽ cho độ chính xác

cao hơn so với sử dụng DF biểu diễn gián tiếp khái niệm bạo lực thơng qua

các khái niệm hay thuộc tính liên quan đến bạo lực(c2) (hình 4.15 ).

• Trong các mơ hình DL đang được cộng đồng nghiên cứu thế giới sử dụng

như Alexnet, VGG, UvANet thì mơ hình VGG cho kết quả tốt nhất cho

bài tốn VSD. Trong đó các đặc trưng từ các tầng kế cuối sẽ cho kết quả

tốt hơn.



Hình 4.15: So sánh phương thức biểu diễn khái niệm bạo lực:(C1) - biểu diễn khái

niệm bạo lực qua các sub-concept; (C2) - biểu diễn trực tiếp khái niệm bạo lực



4.4



Kết chương



Nội dung chính của chương là giới thiệu, đề xuất và kết quả thưc nghiệm việc

áp dụng các đặc trưng DL từ các mơ hình DL vào giải quyết bài toán VSD. Theo



67



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



đó, từ một video ta có thể tiến hành cắt thành các đoạn (shot), trong mỗi đoạn

sẽ lấy mẫu các cảnh (keyframe) sau đó thực hiện việc rút trích đặc trưng trực

tiếp từ các keyframe này. Việc biểu diễn thông tin của một shot được thực hiện

bằng cách kết hợp các đặc trưng riêng lẻ của các keyframe của một shot bằng

phương pháp maxpooling sẽ làm tăng độ chính xác q trình nhận diện. Trong

q trình thực nghiệm các đặc trưng được rút ra từ các tầng kế cuối của các mơ

hình Alexnet, VGG, UvAnet thường cho kết quả tốt, trong đó với mơ hình VGG

sẽ cho kết quả tốt nhất. Kết quả thực nghiệm đã chứng minh việc sử dụng DF

vào giải quyết bài toán VSD nâng cao độ chính xác so với sử dụng các đặc trưng

handcraffed từ 1% đến 15%.



68



Chương 5

Kết luận và hướng phát triển

5.1



Kết luận



Nội dung luận văn tập trung vào việc giải quyết bài toán phát hiện sự kiện

trong dữ liệu video bằng cách áp dụng thuật toán đang được cộng đồng trên thế

giới quan tâm đó là DL. Sự kiện được đề cập trong luận văn là phát hiện cảnh

bạo lực, bạo lực ở đây được định nghĩa là các cảnh không nên cho em bé dưới 8

tuổi xem. Bài tốn được mơ tả như sau: đầu vào là video và yêu cầu đầu ra là

đoạn chứa các cảnh bạo lực. Đây là một bài tốn có ý nghĩa thực tế, cũng là tiền

đề để xây dựng các công cụ hỗ trợ phân tích và kiểm sốt nội dung video. Bản

thân bài tốn cần giải quyết đã có rất nhiều những thách thức như độ phức tạp

và độ lớn của dữ liệu cũng như tính ngữ nghĩa của việc biểu diễn khái niệm bạo

lực. Bên cạnh đó, thuật tốn DL là thuật tốn mới, việc tìm hiểu áp dụng DL

vào dữ liệu video mà cụ thể là bài toán VSD vẫn có nhiều thách thức.

Theo đó trong luận văn này đề xuất sử dụng các DF từ các mô hình DL bao

gồm Alexnet, VGG, UvAnet để trích xuất đặc trưng và biểu diễn cho khái niệm

bạo lực nhằm nâng cao độ chính xác của hệ thống. Q trình thực nghiệm đã

chứng minh việc áp dụng DF từ các mô hình DL sẽ nâng cao độ chính xác của

hệ thống từ 1% đến 15% so với các nghiên cứu trước đây. Dựa trên mục tiêu đặt

ra luận văn đã có các kết quả sau:

1. Tìm hiểu tổng quan về bài toán phát hiện sự kiện trong video MED, cũng

như bài toán phát hiện cảnh bạo lực trong video - VSD.



69



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

2 D liu thc nghim và phng thc ánh giá

Tải bản đầy đủ ngay(0 tr)

×