Tải bản đầy đủ - 0 (trang)
1 Phát biu bài toán

1 Phát biu bài toán

Tải bản đầy đủ - 0trang

2. Bài toán phát hiện cảnh bạo lực trong video



internet (hình 2.2).

Từ thực tế này bài tốn phát hiện cảnh bạo lực trong video được đề xuất và

được mô tả như sau: đầu vào là video bất kì, đầu ra là các cảnh có chứa thơng

tin bạo lực (hình 2.3).



Hình 2.1: Thống kê cho thấy trong 6 tháng đầu năm 2011 có hơn 75% tội phạm

hình sự là thanh thiếu niên



Hình 2.2: Có sự ảnh hưởng của việc xem video có nội dung bạo lực đến hành vi

của trẻ em 2



2



http://anninhthudo.vn/phap-luat/75-toi-pham-hinh-su-la-nguoi-tre/420361.antd



9



2. Bài tốn phát hiện cảnh bạo lực trong video



Hình 2.3: Mơ tả bài tốn VSD



Đây là một bài tốn có tính ứng dụng cao, là tiền đề cho việc xây dựng các

hệ thống tự động nhằm hỗ trợ phân tích và kiểm sốt nội dung các video trước

khi đến với người dùng, đặc biệt là trẻ em. Trong đó, khái niệm bạo lực được sử

dụng trong luận văn được định nghĩa như sau: cảnh bạo lực là cảnh chứa hình

ảnh khơng nên cho một đứa trẻ dưới 8 tuổi xem - “one would not let an 8 years

old child see in a movie because they contain physical violence”. Đây là khái niệm

được đề xuất sử dụng trong cuộc thi về phát hiện cảnh bạo lực trong video (The

2014 Affect in Multimedia Task: Violent Scenes Detection)3 , cuộc thi thu hút rất

nhiều đội ở nhiều phòng thí nghiệm, các viện nghiên cứu ở khắp nơi trên thế giới

tham gia.

Kiến trúc tổng quan của một hệ thống phát hiện cảnh bạo lực bao gồm các

phần chính sau: (1) tiền xử lý video, (2) trích xuất và biểu diễn đặc trưng, (3) sử

dụng thuật tốn máy học để xây dựng mơ hình từ tập đặc trưng rút trích, (4) sử

dụng mơ hình đã học để phát hiện các cảnh bạo lực trong video đầu vào (hình

2.10). Trong đó độ chính xác của hệ thống phụ thuộc nhiều vào việc trích chọn

đặc trưng phù hợp ở bước (2) để biểu diễn cho khái niệm bạo lực.

3



http://www.multimediaeval.org/mediaeval2014/violence2014/



10



2. Bài toán phát hiện cảnh bạo lực trong video



Hình 2.4: Kiến trúc tổng quan hệ thống VSD



2.2



Một số thách thức



Độ lớn và phức tạp về mặt dữ liệu video cần xử lý cũng như sự nhập nhằng,

tính ngữ nghĩa cao của khái niệm bạo lực là những thách thức chính trong bài

tốn phát hiện cảnh bạo lực trong video.



2.2.1



Về mặt dữ liệu



• Sự mất cân bằng (imbalanced dataset) của dữ liệu, trong dữ liệu video số

lượng các cảnh chứa bạo lực thường ít hơn nhiều so với các cảnh còn lại

đây là thách thức lớn cho các thuật toán máy học hiện nay. Chẳng hạn

trong dữ liệu của cuộc thi phát hiện sự kiện trong video (TRECVID 2011,

multimedia event detection task) với hơn 32,000 video clip của gần 1,000

giờ video, nhưng số lượng liên quan trung bình khoảng 100 cho mỗi sự kiện.

• Dữ liệu huấn luyện khơng đủ. Thơng thường các thuật tốn học máy sẽ

làm việc tốt khi dữ liệu huấn luyện (training data) nhiều và phủ hầu hết



11



2. Bài toán phát hiện cảnh bạo lực trong video



Hình 2.5: Minh họa tính phức tạp và mất cân bằng của dữ liệu



các biến đổi (variation) của dữ liệu cần phân loại. Tuy nhiên đối với các bài

tốn nhận dạng sự kiện trong thực tế, tìm kiếm được nhiều dữ liệu huấn

luyện lại rất khó khăn. Lấy ví dụ ở trên, chỉ có khoảng 100 mẫu trong hơn

32,000 mẫu, nên việc tìm ra 100 mẫu này lại rất tốn kém cơng sức. Ngồi

ra, các thuật tốn hiện nay hầu hết chỉ chạy tốt cho một số loại dữ liệu

nhất định, khả năng tổng qt hóa chưa cao.

• Các loại đặc trưng thường được sử dụng hiện nay đòi hỏi tài nguyên lớn

hàng trăm CPU cores, GPU,... quá trình tính tốn rất phức tạp.

• Đối với dữ liệu thức tế, ví dụ dữ liệu thu được qua hệ thống giám sát có

chất lượng và độ phân giải kém ( minh họa hình 2.6 ).



Hình 2.6: Độ phân giải của dữ liệu thực tế



12



2. Bài toán phát hiện cảnh bạo lực trong video



2.2.2



Độ phức tạp của khái niệm bạo lực



Khái niệm bạo lực nhập nhằng đơi khi còn phụ thuộc vào suy nghĩ chủ quan

của con người. Một cảnh đối với người là bạo lực, nhưng có thể người khác lại

khơng bạo lực. Trước năm 2011, do chưa có định nghĩa hình thức của khái niệm

bạo lực và cũng chưa có tổ chức nào phát triển các bộ dữ liệu chuẩn cho bài tốn

này nên các cơng trình nghiên cứu thường sử dụng khái niệm bạo lực tự định

nghĩa và tiến hành trên các bộ dữ liệu tự thu thập. Trong đó, các khái niệm liên

quan đến bạo lực (như cảnh có máu và lửa, âm thanh cháy nổ ...) thay thế cho

khái niệm bạo lực. Cho đến năm 2011 sau khi MediaEval VSD phát triển định

nghĩa hình thức của khái niệm bạo lực và công bố kèm bộ dữ liệu chuẩn thì các

nghiên cứu mới sử dụng thống nhất chung khái niệm.



Hình 2.7: Minh họa tính phức tạp khái niệm bạo lực nhiều thể hiện



Bên cạnh đó, khái niệm bạo lực còn mang tính ngữ nghĩa cao do liên quan

đến nhiều đối tượng cũng như nhiều loại hoạt động, hành vi tương tác với nhau.

Đây là bài toán phức tạp do đối với bài toán đơn thuần phát hiện từng đối tượng,

hành vi cũng đã là bài toán khó.

Trong nội dung luận văn này, học viên tập trung vào việc giải quyết thách

thức phức tạp của khái niệm bạo lực bằng cách sử dụng các đặc trưng Deep



13



2. Bài toán phát hiện cảnh bạo lực trong video



feature từ một số mơ hình DL.



2.3



Một số nghiên cứu liên quan



Các nghiên gần đây tập trung vào việc trích chọn đặc trưng để biểu diễn khái

niệm bạo lực trong video. Theo đó, dựa vào các loại đặc trưng được sử dụng ta có

thể chia các nghiên cứu liên quan thành các hướng nghiên cứu chính sau: hướng

nghiên cứu sử dụng đặc trưng thị giác (visual feature) [15], [16], hướng nghiên

cứu sử dụng đặc trưng âm thanh [17],[18] , hướng nghiên cứu sử dụng kết hợp đa

đặc trưng [19],[20], [21],[3].



Hình 2.8: Thuộc tính biểu diễn thơng tin bạo lực [2]



Một số đặc trưng thị giác thường được sử dụng như Scale-Invariant Feature

Transform (SIFT), Histogram of Oriented Gradients (HoG), Histograms of Optical Flow (HoF), ... Trong đó, một số nghiên cứu trước đây sử dụng những đặc

trưng này để phát hiện các phân cảnh chứa lửa, máu, vụ nổ, ... làm cơ sở để phát

hiện cảnh bạo lực. Nghiên cứu đầu tiên thuộc lĩnh vực này là của Jeho và cộng sự

[15], nhóm tác giả đề xuất tiếp cận nhận dạng cảnh bạo lực bằng cách phát hiện

các cảnh xuất hiện ngọn lửa, máu, phân tích mức độ chuyển động và sử dụng đặc

trưng của hiệu ứng âm thanh. Trong khi đó, Chen và cộng sự đã tách rời việc

phát hiện cảnh bạo lực thành phát hiện cảnh hành động và cảnh đẫm máu [16].

Bên cạnh đó, các nghiên cứu gần đây sử dụng các thuộc tính (attributes) để biểu

diễn khái niệm bạo lực. Các thuộc tính ở đây liên quan đến hành vi, sự kiện, vật



14



2. Bài toán phát hiện cảnh bạo lực trong video



dụng liên quan đến bạo lực như: lửa (fire), vũ khí nóng (firearms), vật dụng gây

sát thương (cold arms), rượt đuổi xe (car chases), cảnh chết chóc (gore), máu

(blood), đánh nhau (fights) [2]. Tuy nhiên, trong nghiên cứu này tác giả chỉ sử

dụng các đặc trưng handcraffed để biểu điễn các khái niệm thuộc tính.

Âm thanh cũng là một yếu tố quan trọng để phát hiện cảnh bạo lực trong

video, Mel-frequency Cepstral Coefcient (MFCC) là đặc trưng âm thanh thường

được các nhóm nghiên cứu sử dụng. Trong đó bằng việc sử dụng MFCC các

nhóm nghiên cứu đã giành giải nhất cuộc thi về phát hiện sự kiện trong video

(TRECVID Multimedia Event Detection 2010) [17],[18].



Hình 2.9: Một số loại đặc trưng hình ảnh và âm thanh



Hướng nghiên cứu giải quyết bài toán bằng cách kết hợp đa đặc trưng gần

đây cũng được nhiều nhóm nghiên cứu quan tâm. Trong nghiên cứu [19], tác giả

đã so sánh và đánh giá các loại đặc trưng trong đó bao gồm việc kết hợp đặc

trưng thị giác và âm thanh. Ngoài ra cách thức kết hợp các loại đặc trưng với

nhau cũng được quan tâm nghiên cứu. Các nghiên cứu [20], [21], [3] chỉ ra rằng

có hai hướng kết hợp đó là (1) Early fusion: kết hợp các loại đặc trưng trước làm

dữ liệu huấn luyện mơ hình, (2) Late fustion: tổng hợp từ kết quả của các mơ

hình được học từ các đặc trưng riêng rẽ. Trong q trình thực nghiệm, nhóm các



15



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

1 Phát biu bài toán

Tải bản đầy đủ ngay(0 tr)

×