Tải bản đầy đủ - 0 (trang)
4 Mt s th vin và framework h tr DL

4 Mt s th vin và framework h tr DL

Tải bản đầy đủ - 0trang

Chương 3.Tổng quan về Deep learning



tiếp theo nội dung luận văn sẽ giới thiệu một số thư viện phổ biến đang được

cộng đồng nghiên cứu sử dụng.



Hình 3.19: Một số thư viện hỗ trợ DL



3.4.1



Caffe



Caffe được viết bằng C++ và phát triển bởi Yangqing Jia từ trung tâm

Berkeley Vision & Learning Center của đại học UC Berkeley. Được giới thiệu đầu

tiên năm 2014 với mục đích là sử dụng để áp dụng thuật toán DL trong các bài

toán liên quan đến thị giác máy, cho đến ngày nay cùng với sự đóng góp của cộng

đồng, caffe framework được sử dụng cho nhiều lĩnh vực khác như xử lý ngôn ngữ

tự nhiên, xử lý tiếng nói...

Sau đây là một số tính năng nổi bật của caffe framework:

• Ngồi ngơn ngữ dùng để phát triển là C++, caffe framework còn hỗ trợ

Matlab, Python.

• Dễ dàng trong việc thiết lập và cài đặt do Caffe có kiến trúc đặc biệt trong

đó sử dụng các thư viện đi kèm một cách độc lập.

• Caffe cho phép người dùng có thể dẽ dàng tùy chọn huấn luyện thuật toán

DL trên CPU hoặc GPU.



43



Chương 3.Tổng quan về Deep learning



• Người dùng có thể tự thiết lập một cấu trúc mạng cho hệ thống của mình

theo một quy ước có trước, vì vậy người dùng khơng cần can thiệp quá sâu

vào phần lập trình mà vẫn sử dụng được DL.

• Người sử dụng có thể dễ dàng thực hiện quá trình huấn luyện trên dữ liệu

của mình thơng qua các câu lệnh đơn giản. Ngồi ra, người dùng cũng có

thể sử dụng các mơ hình đã được huấn luyện sẵn (pretrain model) do cộng

đồng đóng góp (models zoo).



3.4.2



Torch



Torch được phát triển bằng ngơn ngữ Lua bởi nhóm nghiên cứu tại trường

Đại học NewYork. Torch hiện được sử dụng rộng rãi trong nhiều phòng nghiên

cứu cũng như các hãng công nghệ nổi tiếng Facebook, Google, Twitter, NYU,

IDIAP ...

Sau đây là một số tính năng nổi bật của Torch framework:

• Torch được phát triển bằng ngơn ngữ Lua, một ngơn ngữ mà dễ dàng tích

hợp với C. Do đó, chỉ trong vài giờ, bất kì thư viện C hay C++ nào cũng

đều trở thành thư viện Lua.

• Torch cũng có thể sử dụng các mơ hình huấn luyện trước từ Caffe framework.

• Torch có khả năng chạy trên nhiều hệ điều hành, trong đó bao gồm các hệ

điều hành di động như iOS, Android.

Tuy nhiên Torch khi cần thiết kế hay sử dụng một cấu trúc mạng người dùng

sẽ phải tự lập trình với các quy ước đã đặt ra trước.



3.4.3



TensorFlow



Thư viện TensorFlow viết bằng C++ và phát triển bởi Google và được giới

thiệu vào tháng 11 năm 2015. Hiện tại TensorFlow được cho là sử dụng trong

nhiều dịch vụ của Google như phân loại email của gmail, nhận biết phát âm và



44



Chương 3.Tổng quan về Deep learning



dịch tự động, nhận biết khuôn mặt trong Google Photo, tối ưu hố kết quả tìm

kiếm, quảng cáo trong Youtube, . . .

Một số tính năng nổi bật của Torch framework:

• TensorFlow hỗ trợ cả hai ngơn ngữ c và python.

• TensorFlow có thể chạy trên nhiều CPU cũng như GPU giúp đẩy nhanh

quá trình huấn luyện cũng như xử lý dữ liệu thực từ mơ mình đã được học.

Ngồi ra với việc có thể sử dụng thư viện này trên các hệ thống cloud sẽ

làm đẩy nhanh hiệu năng của các hệ thống sử dụng TensorFlow.

• Với khả năng chạy trên nhiều hệ điều hành như bao gồm cả iOS, Android,

hứa hẹn sẽ phát triển được các ứng dụng thông minh nhờ áp dụng các tính

năng nổi bật của DL.



3.4.4



Theano



Theano là thư viện thuần Python được phát triển bởi LISA Lab – Đại Học

Montreal. Theano cung cấp các thư viện tính toán, cho phép người dùng định

nghĩa, tối ưu và đánh giá các hàm tính tốn. Theano có khả năng xử lý một lượng

lớn dữ liệu với thời gian nhanh chóng và cho phép sử dụng cả CPU và GPU. Để

thiết kế kiến trúc mạng neural cho riêng mình, người dùng phải tự lập trình từ

những hàm của thư viện Theano. Theano sử dụng 2 gói thư viện để hỗ trợ cho

việc định nghĩa mơ hình mạng neural:

• Lasagne: Là thư viện định nghĩa các lớp (trừ lớp cuối cùng) của mơ hình

mạng neural. Lasagne giúp người dùng lưu trữ dữ liệu trong mạng, tính

tốn giá trị hàm lỗi, cập nhật trọng số.

• Keras: Là lớp cuối cùng trong cấu trúc mạng. Hỗ trợ cài đặt các hàm kích

hoạt và định nghĩa lớp softmax.

Tương tự như Caffe, Theano cũng có hỗ trợ các mơ hình đã được huấn luyện do

người sử dụng chia sẻ từ các trang web khác nhau.



45



Chương 3.Tổng quan về Deep learning



Phương Pháp Thuật toán

Tỉ lệ lỗi

K-nearest-neighbors

0.52

SVMs

0.56

Neural Nets

0.35

Deep Leaning (convolutional net)

0.23

Bảng 3.3: Kết quả bài toán nhận diện chữ số viết tay [8]



3.5



Một số nghiên cứu sử dụng DL trong thị

giác máy



Sau đây là khảo sát một số cơng trình nghiên cứu cũng như các ứng dụng đã

được triển khai trong việc sử dụng DL để giải quyết các bài toán.

Trong bài toán nhận diện chữ số viết tay mà tập dữ liệu phổ biến đó là

MNIST1 (tập dữ liệu chữ số viết tay bao gồm 60.000 mẫu học và 10.000 mẫu

kiểm tra thì kết quả tốt nhất khi sử dụng các thuật toán khác nhau được liệt kê

ở bảng 1. Theo đó trong hội nghị CVPR 2012, giáo sư Juergen Schmidhuber và

cộng sự đã sử dụng convolutional net để thực hiện việc nhận diện chữ số với sai

số 0,23 % [8].



Hình 3.20: Bài tốn nhận diện chữ số viết tay



Cũng bằng cách sử dụng DL nhóm giáo sư Juergen Schmidhuber đã liên tục

đứng đầu trong rất nhiều cuộc thi thuộc lĩnh vực nhận diện và xử lý ảnh trong

1



http://yann.lecun.com/exdb/mnist/



46



Chương 3.Tổng quan về Deep learning



khoảng từ năm 2009 đến nay [25],[6], [26], [27]. Trong đó có một số mà kết quả

nổi bật như: cuộc thi nhận diện biển báo giao thơng (Traffic Sign Recognition

Benchmark ), nhóm nghiên cứu đã đạt giải nhất với kết quả có tỉ lệ lỗi 0,56 %

là đội duy nhất có chính xác hơn cả kết quả nhận diện bằng con người (tỉ lệ lỗi

1,56%) và cách xa đội đứng sau (tỉ lệ lỗi 1,69%) [6].



Hình 3.21: Đầu vào bài tốn nhận diện biển báo giao thông [6]



Tháng 10/2012, trong cuộc thi về classification và localization ảnh trong tập

dữ liệu ImageNet (gồm 16 triệu ảnh của 20 nghìn loại – categories), bằng cách

sử dụng deep convolutional neural networks giáo sư Geoffrey Hinton và cộng sự

đã thắng tuyệt đối với cách biệt lên đến 10-15% so với đội đứng thứ 2 [7]. Cho

tới nay đối với bài toán này tỉ lệ lỗi đã giảm xuống còn 4,82% năm 2015 tốt hơn

so với con người với độ lỗi là 5,1%.

Ngoài ra trong các lĩnh vực khác như xử lý tiếng nói, xử lý ngơn ngữ tự nhiên

với việc áp dụng các thuật toán DL đã đem lại các kết quả khả quan so với việc

áp dụng các thuật toán trước đây [4], [9],[10], [11]. Đặc biệt các công ty lớn như

Google, Facebook, Microsoft, Baidu đều thành lập các lab về DL để nghiên cứu

và áp dụng vào các sản phẩm của mình. Trong đó đã có một số ứng dụng được

triển khai như dịch vụ tìm kiếm ảnh trong Google+, ứng dụng dịch của Microsoft

Translator, hay chức năng nhận dạng tiếng nói trong Android



47



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

4 Mt s th vin và framework h tr DL

Tải bản đầy đủ ngay(0 tr)

×