Tải bản đầy đủ - 0 (trang)
5 Mt s nghiên cu s dung DL trong thi giác máy

5 Mt s nghiên cu s dung DL trong thi giác máy

Tải bản đầy đủ - 0trang

Chương 3.Tổng quan về Deep learning



khoảng từ năm 2009 đến nay [25],[6], [26], [27]. Trong đó có một số mà kết quả

nổi bật như: cuộc thi nhận diện biển báo giao thơng (Traffic Sign Recognition

Benchmark ), nhóm nghiên cứu đã đạt giải nhất với kết quả có tỉ lệ lỗi 0,56 %

là đội duy nhất có chính xác hơn cả kết quả nhận diện bằng con người (tỉ lệ lỗi

1,56%) và cách xa đội đứng sau (tỉ lệ lỗi 1,69%) [6].



Hình 3.21: Đầu vào bài tốn nhận diện biển báo giao thông [6]



Tháng 10/2012, trong cuộc thi về classification và localization ảnh trong tập

dữ liệu ImageNet (gồm 16 triệu ảnh của 20 nghìn loại – categories), bằng cách

sử dụng deep convolutional neural networks giáo sư Geoffrey Hinton và cộng sự

đã thắng tuyệt đối với cách biệt lên đến 10-15% so với đội đứng thứ 2 [7]. Cho

tới nay đối với bài tốn này tỉ lệ lỗi đã giảm xuống còn 4,82% năm 2015 tốt hơn

so với con người với độ lỗi là 5,1%.

Ngoài ra trong các lĩnh vực khác như xử lý tiếng nói, xử lý ngơn ngữ tự nhiên

với việc áp dụng các thuật toán DL đã đem lại các kết quả khả quan so với việc

áp dụng các thuật toán trước đây [4], [9],[10], [11]. Đặc biệt các công ty lớn như

Google, Facebook, Microsoft, Baidu đều thành lập các lab về DL để nghiên cứu

và áp dụng vào các sản phẩm của mình. Trong đó đã có một số ứng dụng được

triển khai như dịch vụ tìm kiếm ảnh trong Google+, ứng dụng dịch của Microsoft

Translator, hay chức năng nhận dạng tiếng nói trong Android



47



Chương 3.Tổng quan về Deep learning



Hình 3.22: Dữ liệu trong ImageNet [7]



3.6



Kết chương



DL là thuật toán mới cho lại kết quả cao trong nhiều lĩnh vực và có rất nhiều

các cơng ty cơng nghệ cũng như các nhóm nghiên cứu trên thế giới đầu tư nghiên

cứu. Một trong những đặc điểm khiến DL mang lại kết quả như vậy đó là khả

năng tự học đặc trưng trực tiếp từ dữ liệu đầu vào. Theo đó, với khả năng này

DL hứa hẹn là một giải pháp tốt cho việc biểu diễn các khái niệm phức tạp và

mang tính ngữ nghĩa cao thay vì sử dụng các đặc trưng handcraffed. Theo đó

trong chương tiếp theo nội dung luận văn sẽ đề xuất áp dụng các đặc trưng (Deep

feature) được rút ra từ các mơ hình DL để giải quyết bài toán VSD.

Tuy nhiên, một trong những thách thức chính của DL đó là thiết kế kiến trúc

tối ưu cho bài tốn. Vì hiện nay chưa có lý thuyết nào có thể đưa ra cách thiết

kế kiến trúc mạng phù hợp cho một bài tốn bất kì. Ngồi ra, để xây dựng và

huấn luyện một mơ hình đòi hỏi tài ngun tính tốn lớn cũng như lượng dữ liệu

huấn luyện rất lớn. Do đó, trong nội dung thực hiện ở chương tiếp theo học viên

sẽ tiến hành đề xuất áp dụng các đặc trưng (Deep feature) được rút ra từ các mơ

hình có sẵn để so sánh và đánh giá việc sử dụng DL cho bài toán VSD.



48



Chương 4

Deep Learning cho bài toán phát

hiện cảnh bạo lực trong video

Bài toán phát hiện cảnh bạo lực trong video là một bài tốn khó với rất nhiều

thách thức. Một trong những thách thức chính đó là tính nhập nhằng về ngữ

nghĩa và phức tạp của khái niệm bạo lực - bao gồm tham gia của nhiều đối tượng

và hành động. Chính điều này gây nên khó khăn trong q trình biểu điễn thơng

tin bạo lực vì hầu hết các nghiên cứu trước đây thường sử dụng các đặc trưng

cấp thấp (như RGB-SIFT, HOG,...)- mới chỉ biểu diễn thông tin ở cấp thấp –

thông tin về cạnh trong ảnh (only capture low-level edge information) [13], chưa

thể hiện được hết được tính ngữ nghĩa cũng như độ phức tạp của một khái niệm

bạo lực.

Theo nội dung được giới thiệu trong chương 3 thì một trong những ưu điểm

của DL là khả năng tự học đặc trưng, các đặc trưng được học theo nhiều tầng

trong đó tầng sau được học từ thơng tin của tầng trước. Các đặc trưng được rút

trích ra từ các mơ hình DL ( Deep features - DF) có tính khái qt hóa hay mang

nhiều ngữ nghĩa hơn so với các đặc trưng cấp thấp. Theo đó, trong luận văn này

học viên đề xuất áp dụng DF vào giải quyết bài toán VSD.

Cho tới thời điểm hiện tại chưa có một lý thuyết nào đưa ra cách thiết kế kiến

trúc mạng DL phù hợp cho một bài toán bất kì. Bên cạnh đó, việc huấn luyện

một mơ hình cho bài tốn sử dụng DL đòi hỏi tài ngun tính tốn cao và dữ



49



4. DL cho bài tốn phát hiện sự kiện trong dữ liệu video



liệu huấn luyện cực lớn. Do đó nội dung luận văn này chỉ tập trung vào việc áp

dụng DF từ các mơ hình có sẵn được cộng đồng thế giới sử dụng rộng rãi đó là

Alexnet, VGG và UvANet. Ngồi ra dựa trên việc đánh giá DF trên các mơ hình

cõ sẵn sẽ làm cơ sở để đưa ra các đề xuất về việc lựa chọn mơ hình, kiến trúc

mạng áp dụng cho bài toán VSD. Cụ thể hơn, để thấy rõ được ưu điểm của các

DF trong việc biểu diễn khái niệm bạo lực, luận văn sẽ tiến hành thực nghiệm

theo các thiết đặt sau đây:

(C1) Đánh giá DF cho bài toán VSD thông qua việc biểu diễn các thực thể và

hành động có liên quan đến bạo lực (sub-concepts, attributes ) trong đó các

sub-concepts được sử dụng từ cơng trình nghiên cứu [2].

(C2) Đánh giá các DF cho bài toán VSD bằng việc học trực tiếp khái niệm bạo

lực từ đơn vị từng cảnh (frame) được rút ra từ video. Trong đó mơ hình

phát hiện được xây dựng từ việc rút trích các đặc trưng DF trực tiếp từ

các frame của video theo dữ liệu đã được gán nhãn bạo lực hay không bạo

lực từ tập dữ liệu.

Nội dung đánh giá bao gồm các kết quả từ các thiệt đặt (C1), (C2) cũng như

so sánh với việc áp dụng đặc trưng cấp thấp (RGB-SIFT, đặc trưng chuyển động

(motion), đặc trưng âm thanh (MFCC-Mel-frequency cepstral coefficients)).



4.1



Kiến trúc hệ thống



Hệ thống phát hiện cảnh bạo lực trong video có đầu vào là một video và đầu

ra là các cảnh có chứa nội dung bạo lực. Hình 4.1 là kiến trúc chung mơ tả giai

đoạn xây dựng mơ hình phát hiện cảnh bạo lưc được xây dựng trong luận văn.

Hệ thống cho phép đánh giá việc sử dụng các loại đặc trưng khác nhau như DF

hoặc các đặc trưng cấp thấp như RGB-SIFT. Các thành phần chính của hệ thống

bao gồm: tiền xử lý video, rút trích đặc trưng, biểu diễn đặc trưng, huấn luyện

mơ hình .

Trong đó đặc trưng DF được rút ra từ ba mơ hình được nhiều nhóm nghiên

cứu sử dụng bao gồm Alexnet [7] , VGG [28], UvANet [29].



50



4. DL cho bài tốn phát hiện sự kiện trong dữ liệu video



Hình 4.1: Kiến trúc chung xây dựng bộ phát hiện thông tin bạo lực



Để đánh giá việc giải quyết bài toán VSD thông qua cách biểu diễn các thực

thể và hành động có liên quan đến bạo lực học viên sử dụng các sub-concepts

được giới thiệu trong cơng trình nghiên cứu [2]. Các sub-concepts bao gồm: lửa

(fire), vũ khí nóng (firearms), vật dụng gây sát thương (cold arms), rượt xe(car

chases), cảnh chết chóc (gore), máu (blood), đánh nhau (fights). Tương ứng với

mỗi sub-concept hệ thống cũng sẽ thực hiện việc rút trích đặc trưng và xây dựng

bộ phân lớp. Véc tơ cuối để biểu diễn thông tin của một đoạn (shot) video là

véc tơ được tạo thành với số chiều là số sub-concepts và giá trị mỗi chiều là giá

trị đầu ra có được từ bộ phân lớp mới xây dựng. Đây là véc tơ đầu vào cho quá

trình xây dựng mơ hình phát hiện bạo lực (hình 4.2).



4.1.1



Tiền xử lý video



Đầu vào của hệ thống là các video mà cụ thể ở đây trong dữ liệu luận văn

sử dụng từ cuộc thi MediaEval Affect Task là các bộ phim Hollywood [30] [31].

Các video sẽ được cắt thành các đoạn (shot) mỗi đoạn có thời lượng là 5 giây,

trong mỗi đoạn chúng tôi sẽ lấy mẫu cảnh (keyframe) theo tần suất 5 frame/giây

để làm dữ liệu đầu vào cho quá trình rút trích đặc trưng tiếp theo. Việc lấy mẫu



51



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



Hình 4.2: Xây dựng bộ phát hiện thơng tin bạo lực thông qua sub-concepts



cũng như thông số về thời gian trong một đoạn được sử dụng theo nghiên cứu

[32], [33] nhằm đảm bảo mức cân bằng giữa mặt thời gian và độ chính xác sau

khi rút trích đặc trưng.



4.1.2



Rút trích đặc trưng



Trong kiến trúc hệ thống, học viên sử dụng Caffe framework [34] để thực hiện

q trình rút trích đặc trưng DF từ ba mơ hình bao gồm Alexnet [7] , VGG [28],

UvANet [29]. Ngồi ra, trong hệ thống còn sử dụng đặc trưng RGB-SIFT để so

sánh độ chính xác giữa các đặc trưng DF và đặc trưng handcraffed cũng như làm

căn cứ so sánh với nghiên cứu [2].

4.1.2.1



Alexnet



Mơ hình Alexnet được Alex Krizhevsky và cộng sự giới thiệu năm 2012 trong

cuộc thi về phân lớp 1000 lớp ảnh với tập dữ liệu huấn luyện là 1,3 triệu ảnh

từ Imagenet. Alexnet với 60 triệu tham số và 650 nghìn neural có kiến trúc gồm

8 tầng (layer) trong đó có 5 layer đầu là convolution và 3 layer còn lại là fully

connected layer. Đầu ra ở lớp cuối cùng là 1000 tương ứng với số lớp ảnh cần



52



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



phân lớp. Các nghiên cứu gần đây thường sử dụng các đặc trưng được rút ra ở

3 layer cuối trong kiến trúc mạng Alexnet (fc6, fc7, fully connected layer) có số

chiều tương ứng là 4096, 4096 và 1000. Đây là một mô hình DL khiến cho cộng

đồng nghiên cứu về thị giác máy chú ý khi đạt giải nhất trong cuộc thi về phân

lớp ảnh (tỉ lệ lỗi mơ hình này là 15.3 % trong khi đội thứ hai tỉ lệ lỗi là 26.2%).

Cho tới nay đây là một trong những mô hình được các nhóm nghiên cứu sử dụng

nhiều trong các bài tốn về thị giác máy.



Hình 4.3: Mơ hình kiến trúc mạng Alexnet [7]



4.1.2.2



VGG



Mơ hình VGG được Visual Geometry Group 1 thuộc trường Đại học Oxford

giới thiệu năm 2014, mô hình này cũng được huấn luyện trên dữ liệu của Imagenet. Nhóm nghiên cứu cung cấp 2 mơ hình tương ứng với số layer là VGG 16 và

VGG 19. Trong mỗi mơ hình đều có kiến trúc có 3 layer cuối là fully connected

layer. Số chiều ba tầng cuối tương ứng với mơ hình Alexnet.

Mơ hình VGG được chú ý tới khi trong cuộc thi về phát hiện và phân lớp

ảnh Imagnet 2014 (Localisation task & Classification task) trong đó VGG đứng

thứ nhất trong bài toán Localisation (tỉ lệ lỗi 25.03 %) và đứng thứ hai trong

bài toán Classification (tỉ lệ lỗi 7.3%). Trong kiến trúc VGG thay vì sử dụng các

1



http://www.robots.ox.ac.uk/ vgg/

https://blog.heuritech.com/2016/02/29/a-brief-report-of-the-heuritech-deep-learningmeetup-5/

1



53



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



Hình 4.4: Mơ hình kiến trúc mạng VGG 16



1



kenel có kích thước và bước nhảy lớn, nhóm nghiên cứu đã sử dụng kenel có kích

thước 3 x 3 và bước nhảy p = 1 với mục đích bảo tồn thơng tin trong q trình

truyền thơng tin giữa các layer.



Hình 4.5: Mơ hình kiến trúc mạng VGG 19



4.1.2.3



2



UvANet



Khác với Alexnet và VGG thì UvANet được giới thiệu là mơ hình được huấn

luyện từ dữ liệu của tồn bộ dữ liệu của Imagnet (14 triệu ảnh của 21814 lớp).

Bằng cách đề xuất cách tổ chức lại dữ liệu trước khi huấn luyện mơ hình, nhóm

nghiên cứu đã cung cấp bốn mơ hình khác nhau căn cứ vào cách học mơ hình

và số đầu ra của lớp cuối cùng. Tên các mơ hình tương ứng với số lớp bao

gồm U vAN etBottom−up−4k 4437, U vAN etBottom−up−8k 8201, U vAN etBottom−up−13k

12988.

2



http://www.slideshare.net/xavigiro/deepfix-a-fully-convolutional-neural-network-forpredicting-human-fixations



54



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



Hình 4.6: Mơ hình kiến trúc mạng Googlenet



1



Về kiến trúc của UvANet được dựa trên kiến trúc mạng Googlenet gồm 22

layer (hình 4.7) đây cũng là đội đạt giải nhất trong cuộc thi Imagenet 2014 [35].

Bằng cách hiệu chỉnh dữ liệu và cấu trúc mạng cũng như huấn luyện lại mơ hình,

theo nhóm tác giả thì hiện UvANet là mơ hình cho kết quả cao nhất trong cuộc

thi phát hiện sự kiện trong video (Media eval detection).

4.1.2.4



RGB-SIFT



Red Green Blue-Scale Invariant Feature Transform (RGB-SIFT) là một đặc

trưng cải tiến của đặc trưng SIFT, trong đó SIFT được tính trong 3 kênh màu

Red Green Blue. Đặc trưng SIFT là một đặc trưng căn bản được sử dụng nhiều

trong lĩnh vực thị giác máy. Ý tưởng chính của SIFT là tìm ra các điểm bất

biến (keypoint) - các điểm không đổi trong bức ảnh mà sau khi thực hiện các

phép biến đổi như làm mờ, xoay,... Trong nội dung luận văn này để so sánh tính

hiệu quả của việ sử dụng DF và handcraffed feature học viên thực hiện rút trích

RGB-SIFT và thực hiện so sánh.

4.1.2.5



Đặc trưng âm thanh MFCC



Đối với dữ liệu video thì âm thanh cũng đóng một vai trò quan trọng giúp nhận

dạng, phát hiện các sự kiện. Trong luận văn này học viên sử dụng đặc trưng âm

thanh MFCC (Mel-frequency cepstral coefficients) [36] để biểu diễn các thơng

1

1



http://homes.cs.washington.edu/ jmschr/lectures/bioinformatics.html

http://www.codeproject.com/KB/recipes/619039/SIFT.JPG



55



4. DL cho bài tốn phát hiện sự kiện trong dữ liệu video



Hình 4.7: Đặc trưng SIFT



1



tin bạo lực liên quan đến âm thanh (ví dụ như tiếng súng, tiếng thét, tiếng nổ).

Đây cũng là một loại đặc trưng handcraffed được cộng đồng nghiên cứu thường

sử dụng. Trong đó, cấu hình được sử dụng trong MFCC được thiết đặt theo cấu

hình thường được sử dụng với cửa sổ độ dài 25 ms và cứ cách 10 ms lấy mẫu một

lần. Đặc trưng thơ MFCC cũng được mã hóa bằng cách sử dụng mơ hình Bag

Of Words.

4.1.2.6



Đặc trưng chuyển động (Motion)



Các cảnh bạo lực trong video thường có nhiều hành động với các hiệu ứng khác

nhau. Theo [37], các đặc trưng chuyển động là cách tiếp cận tốt nhất cho bài

toán phân loại hành động. Trong nội dung luận văn này học viên sẽ sử dụng đặc

trưng cải tiến Dense trajectory được giới thiệu trong nghiên cứu [37] để biểu diễn

thơng tin chuyển động trong video. Trong đó, đặc trưng này sử dụng các bộ mô tả

Motion Boundary Histogram (MBH), Histograms of Oriented Gradients (HoG),

và Histograms of Optical Flow (HoF) để biểu diễn các thông tin liên quan đến

hành động. Cụ thể hơn sử dụng HOG để nắm bắt sự di chuyển của các đối tượng,

trong khi đó HOF dùng để biểu diễn tốc độ của các đối tượng. Bộ mô tả MBH

dùng để nắm bắt biên của các chuyển động, sử dụng hiệu quả trong các trường

hợp camera bị rung.



56



4. DL cho bài toán phát hiện sự kiện trong dữ liệu video



4.1.3



Biểu diễn đặc trưng



Q trình rút trích đặc trưng sẽ được thực hiện trên keyframe của từng shot.

Bước tiếp theo để biểu diễn thông tin đặc trưng của một shot ta tiến hành tổng

hợp (pooling) các đặc trưng từ các frame của shot đó. Hiện nay có 2 cách pooling

bao gồm lấy giá trị lớn nhất (max pooling) và lấy giá trị tổng (sum pooling) (hình

4.8). Trong nội dung thực nghiệm của luận văn cũng sẽ so sánh kết quả hai cách

biểu diễn này để đưa ra cách thức biểu diễn đặc trưng tối ưu dữ liệu video cho

bài tốn VSD.



Hình 4.8: Hai cách thức biểu diễn đặc trưng cho shot



Đối với việc sử dụng đặc trưng RGB-SIFT học viên sử dụng cách thức biểu

diễn và các thông số dựa vào nghiên cứu của Jiang và cộng sự [38]. Trong đó sử

dụng mơ hình Bag-of-Words với số lượng từ trong từ điển (codebooks) là 1000.

Quá trình xây dựng và huấn luyện codebooks được thực hiện bằng cách lấy mẫu

1 triệu keypoint sử dụng thuật toán K-means. Mỗi keypoint được biểu diễn bằng

phương pháp soft-weighting manner được giới thiệu trong cơng trình nghiên cứu

của Jiang và cộng sự [39].



4.1.4



Thuật toán SVM



Thuật toán Support Vector Machine (SVM) được sử dụng nhiều cho quá trình

xây dựng quá trình phần lớp, trong luận văn này học viên sử dụng SVM để xây



57



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

5 Mt s nghiên cu s dung DL trong thi giác máy

Tải bản đầy đủ ngay(0 tr)

×