Tải bản đầy đủ - 0 (trang)
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN

Tải bản đầy đủ - 0trang

Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



lý để giảm thiểu được rủi ro nhất có thể. Trong bài toán này, tác giả đặt mục tiêu cần

đưa ra được các dự đoán như sau:

 Dự đoán nhu cầu tuyển dụng ngành IT của Hà Nội.

 Dự đoán độ tuổi tuyển dụng lao động trung bình.

1.4. Các cơng cụ, mơ hình đáp ứng cho bài tốn

1.4.1. Hệ thống quản trị và lưu trữ cơ sở dữ liệu NOSQL

Dữ liệu phi cấu trúc (NOSQL) chia ra thành 04 loại phổ biến: Key-value,

Document database, Graph database và Wide column stores.



Bảng 1.1. Các dạng dữ liệu NoSQL

Key-value: là kiểu dữ liệu chung cho các hệ quản trị cơ sở dữ liệu phi cấu trúc

NoSQL và là kiểu dữ liệu đơn giản nhất. Dữ liệu của kiểu Key-value lưu trữ dưới dạng

khóa (key - là một chuỗi duy nhất) liên kết với giá trị (value) có thể ở dạng chuỗi văn

bản đơn giản hoặc các tập, danh sách dữ liệu phức tạp hơn. Quá trình tìm kiếm dữ liệu

thường sẽ được thực hiện thơng qua key, điều này dẫn đến sự hạn chế về độ chính xác.

Các cơng cụ sẵn có: Redis,…



Người thực hiện: Lưu Đức Phong



11



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Hình 1.1. Dữ liệu dạng Key-Value

Document: là hệ cơ sở dữ liệu quản lý và lưu các dữ liệu ở dạng văn bản

(Document). Các văn bản (document) sẽ được chuẩn hóa về các dạng chuẩn như JSON

(Javascript Object Notation), XML hoặc BSON (Binary JSON). Giá trị của các cột

trong các cơ sở dữ liệu văn bản chứa dữ liệu bán cấu trúc (Semi-Structured Data), đặc

biệt là cặp thuộc tính key-value. Các cột có thể chưa nhiều thuộc tính, số lượng và loại

thuộc tính đươc lưu trữ có thể khác nhau giữa các dòng. Thêm vào đó các kiểu lưu trữ

dữ liệu dạng Key-value đơn giản là cả key và value đều có thể tìm kiếm trong CSDL

Document. Các cơng cụ sẵn có: CouchDB (JSON), MongoDB (BSON),…



Hình 1.2. Dữ liệu dạng Document



Người thực hiện: Lưu Đức Phong



12



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Column-oriented databases (column-family): Nhìn bề ngoài, chúng khá

giống với CSDL quan hệ nhưng thực tế là hoàn toàn khác. Một số sự khác biệt dễ thấy

nhất là việc lưu trữ dữ liệu theo dòng đối với các HQT CSDL quan hệ với việc lưu trư

dữ liệu theo cột của các HQT CSDL Conlumn Family. Và các tư tưởng của cả hai loại

CSDL này cũng hoàn tồn khác nhau. Chúng ta khơng thể áp dụng cùng một giải pháp

mà chúng ta đã sử dụng trong CSDL quan hệ vào CSDL Conlumn Family. Bởi vì,

CSDL Column Family là các CSDL phi quan hệ [1]. Các công cụ sẵn có: BigTable,…



Hình 1.3. Dữ liệu dạng Coloumn

Graph databases: Là tập hợp cơ sở dữ liệu có dạng đồ thị trong đó có các nút,

giữa các nút (nodes) có quan hệ (relationships), thuộc tính (attributes) để mơ tả và lưu

trữ dữ liệu. Các cơng cụ sẵn có: Neo4J, Sones, AllegroGraph, Core Data, DEX,

FlockDB, InfoGrid, OpenLink Virtuoso,…



Hình 1.4. Dữ liệu dạng Graph [1]



Người thực hiện: Lưu Đức Phong



13



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



1.4.2. Các công cụ trực quan hóa số liệu

Trong thời gian trở lại đây giải pháp về báo cáo thống kê trả qua nhiều thay đổi,

hiện nay việc áp dụng các báo cáo BI (Business Intelligence) kết hợp phân tích

(Analytic) đang trở nên phổ biến. Đáng chú ý nhất là là xu hướng self-service, nó cung

cấp cho người dùng thông thường khả năng tự xử lý và phân tích số liệu mà khơng cần

nhiều kiến thức chun mơn về lập trình hay phân tích.

Theo báo cáo đánh giá của Gartner về Magic Quadrant 2017, Ở nhóm dẫn dắt

(leaders) các cơng cụ của TableAU và Microsoft (PowerBI) là những hãng đứng đầu

về khả năng đáp ứng, cung cấp dịch vụ.



Hình 1.5. Đánh giá các cơng cụ trình diễn dữ liệu [2]

Power BI: Là phần mềm đóng gói của Microsoft, người dùng có thể cài đặt tại

các máy cá nhân, kết nối với nhiều loại CSDL. Điểm mạnh của sản phẩm là chi phí cài

đặt thấp. Tuy nhiên hạn chế của công cụ là khả năng xử lý dữ liệu lớn. Bên cạnh đó

các báo cáo xoay chiều (tương tự như Pivot Table trong excel) vẫn chưa được hỗ trợ.

TableAU: Là một trong những phần mềm mạnh nhất về tích hợp và trình diễn

dữ liệu (visualization) cũng như phân tích trực quan (visual analysis). Cơng cụ hỗ trợ

tối đa cho người dùng (end-user), giúp người dùng có thể chủ động định nghĩa và điều

chỉnh các báo cáo trong thời gian ngắn. Điểm mạnh của công cụ là khả năng xử lý dữ

liệu lớn, việc thay đổi/cập nhật nhanh chóng với các giao diện kéo thả (drag & drop).



Người thực hiện: Lưu Đức Phong



14



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



1.4.3. Mạng nơ-ron nhân tạo và mơ hình dự đốn

1.4.3.1. Định nghĩa và cấu trúc

Định nghĩa: là một mơ hình tốn học hay mơ hình tính toán được xây dựng dựa

trên các mạng nơ-ron sinh học. Nó gồm có một nhóm các nơ-ron nhân tạo (nút) nối

với nhau, và xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại

các nút.

Trong thực tế sử dụng, nhiều mạng nơ-ron là các cơng cụ mơ hình hóa dữ liệu thống

kê phi tuyến. Chúng có thể được dùng để mơ hình hóa các mối quan hệ phức tạp giữa

dữ liệu vào và kết quả hoặc để tìm kiếm các dạng/mẫu trong dữ liệu [3].

Trong đó, một nơ-ron là một thành phần của mạng nơ-ron nó giúp xử lý các

thơng tin, cấu trúc như sau:



Bảng 1.2. Nơ-ron nhân tạo [4]

Các thành phần cơ bản của một nơ-ron nhân tạo bao gồm: đầu vào, trọng số liên

kết, hàm tổng, ngưỡng và đầu ra. Cụ thể:

-



Đầu vào (Input): Là các giá trị đầu vào của nơ-ron, các tín hiệu này thường

được đưa vào dưới dạng một vector N chiều.



-



Trọng số liên kết (weight): Mỗi liên kết đều được gắn với các trọng số ta

thường gọi là trọng số liên kết. Trọng số liên kết thường được khởi tạo ngẫu

nhiên và được cập nhật lại trong quá trình học mạng.



-



Hàm tổng (Summing function): bằng tích của đầu vào với trọng số liên

kết.



Người thực hiện: Lưu Đức Phong



15



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học

-



GVHD: Nguyễn Hữu Đức



Ngưỡng (bias): là một thành phần của hàm truyền, và được coi như một

input bổ sung với trọng số luôn bằng 1.



-



Hàm truyền (Transfer function) : là hàm dùng giới hạn đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông

thường, phạm vi đầu ra của mỗi nơ-ron được giới hạn trong đoạn các

khoảng [0,1] hoặc [-1 ,1]. Các hàm truyền có thể là hàm tuyến tính hoặc phi

tuyến.



Hàm truyền



Đồ thị



Định nghĩa



Symmetrical Hard Limit

(hardlims)



Linear (purelin)



Saturating Linear (satlin)



Log-Sigmoid (logsig)



Bảng 1.3. Các hàm truyền [4]



Người thực hiện: Lưu Đức Phong



16



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học

-



GVHD: Nguyễn Hữu Đức



Đầu ra: Là tín hiệu đầu ra của một nơ-ron, với mỗi nơ-ron sẽ có tối đa là

một đầu ra.



1.4.3.2. Mạng nhiều tầng truyền thẳng

Có rất nhiều loại mạng nơ-ron khác nhau [10], [12], [13], [17] trong đó mạng

nơ-ron truyền thẳng nhiều lớp được sử dụng phổ biến nhất (MLP - Multi Layer

Perceptron). Đã có nhiều nghiên cứu sử dụng mạng nơ-ron truyền thẳng nhiều lớp

trong bài toán dự báo [14], [15], [16], [18] và đã chứng tỏ đây là hướng tiếp cận rất

hiệu quả.

Một mạng nơ-ron nhiều tầng truyền thẳng thường sẽ có nhiều hơn 2 tầng (n

>=2 tầng), trong đó số tầng ẩn bằng n-1 và 1 tầng output. Riêng tầng đầu vào (input)

không được tính.



Bảng 1.4. Mạng nhiều tầng truyền thẳng [4]

Kiến trúc của mạng truyền thẳng MLP bao gồm các thành phần:

-



Đầu vào và đầu ra là các vector trong không gian nhiều chiều.



-



Mỗi nơ-ron của các tầng sau liên kết với tất cả các nơ-ron tầng liền trước nó.



-



Đầu ra của nơ-ron tầng trước là đầu vào của nơ-ron thuộc tầng liền sau nó.



1.4.3.3. Huấn luyện mạng nơ-ron

-



Các phương pháp học:

o Học giám sát (supervised learning): Ngay từ đầu mạng sẽ được

cung cấp một tập hợp dữ liệu học cùng với bộ trọng số tự do. Các kết

quả đầu ra thực tế sẽ được so sánh với đầu ra mong muốn. Giá trị sai



Người thực hiện: Lưu Đức Phong



17



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



khác giữa giá trị thực tế và giá trị đầu ra là cơ sở cho việc hiệu chỉnh

trọng số ccuar mạng. Quá trình huấn luyện liên tục và dừng lại khi

mạng đạt được giá trị sai số như mong muốn. Điển hình cho kỹ thuật

này là mạng nơ-ron lan truyền ngược.



Bảng 1.5. Học giám sát

o Học không giám sát (unsupervised learning): Mạng kiểu này phải

tự tìm ra các đặc tính cũng như quy luật tương quan giữa dữ liệu đầu

vào để tạo ra dữ liệu đầu ra. Trong quá trình tự tìm ra các đặc điểm,

mạng trải qua quá trình tự tổ chức để thay đổi tham số.



Bảng 1.6. Học không giám sát

o Học tăng cường (Reinforcement learning): Đối với học có giám sát,

các giá trị đầu ra được biết chính xác với mỗi đầu vào. Tuy nhiên,



Người thực hiện: Lưu Đức Phong



18



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



trong thực tế có một số trường hợp chỉ biết ít thơng tin chi tiết, chẳng

hạn mạng chỉ biết rằng giá trị đầu ra thực sự quá cao hay có thể mạng

chỉ có được thông tin phản hồi báo rằng đầu ra đúng hay sai. Thuật

học dựa trên thông tin đánh giá này được gọi là thuật học củng cố,

thông tin phản hồi được gọi là tín hiệu tăng cường.



Bảng 1.7. Học tăng cường

-



Thuật toán lan truyền ngược [4]:



Đầu vào

Đầu ra

- Mạng feed-forward với Các vector trọng số



Ký hiệu

- j: nơron thứ j (hay nút



ni đầu vào, nh nút ẩn và no Thuật toán:

thứ j)

đầu ra.

Bước 1: Khởi tạo trọng số - Xj: vector đầu vào của

- Hệ số học η



bởi các giá trị ngẫu nhiên nút thứ j



- Tập dữ liệu huấn luyện nhỏ.



- Wj: vector trọng số của



D = {là vector đầu vào, là Bước 2: Lặp lại cho tới nút thứ j

vector đầu ra mong khi thỏa mãn điều kiện kết - xji: đầu vào của nút thứ j

muốn}.

thúc.

từ nút thứ i

Với mỗi mẫu, thực hiện - wji: trọng số trên xji

các bước sau:



- bj: ngưỡng tại nút thứ j



2.1 Tính đầu ra oj cho mỗi - oj: đầu ra của nút thứ j

nút j:

- t : đầu ra mong muốn của

j



oj = f(d – bj) với d = nút thứ j

Σxjiwji

- Downstream(j): Tập tất

Người thực hiện: Lưu Đức Phong



19



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học

Đầu vào



GVHD: Nguyễn Hữu Đức

Đầu ra

Ký hiệu

2.2 Với mỗi nút k thuộc cả các nút nhận đầu ra của

tầng ra, tính δk theo cơng nút thứ j làm một giá trị

thức:



đầu vào.



δk = (tk – ok)(1 – ok)ok



- η: tốc độ học



2.3 Với mỗi nút h thuộc - f: hàm truyền với f(x) =

tầng ẩn, tính δh theo cơng 1 / (1 + e-x)

thức:

δh = oh(1 – oh) Σδkwkh với

k ∈ Downstream(j)

2.4 Cập nhật: wji = wji +

Δwji

Trong đó Δwji = ηδkxji



1.4.3.4. Mạng nơ-ron hồi quy (RNN - Recurrent Neural Network)

Đối với mạng nơ-ron thông thường các đầu vào và đầu ra là độc lập và khơng liên

kết thành chuỗi. Một số bài tốn sẽ khơng phù hợp khi áp dụng mơ hình này, ví dụ

đốn từ tiếp theo của một câu, trong đó để đoán được ta cần biết lịch sử xuất hiện các

từ đứng trước đó ở các văn bản để dạy thiết lập cho mạng,… Những bài toán như trên

phù hợp với mạng hồi quy RNN, do mơ hình sẽ thực hiện cùng một tác vụ cho tất cả

các phần tử của một chuỗi với đầu ra phụ thuộc vào cả các phép tính trước đó:



Hình 1.6. Mơ hình mạng nơ-ron hồi quy RNN [5]



Người thực hiện: Lưu Đức Phong



20



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Tuy mạng RNN giúp giải quyết các bài tốn có dữ liệu tuần tự nhưng kiến trúc

của mạng khá đơn giản nên khả năng liên kết các thành phần có khoảng cách xa trong

câu không tốt. Nguyên nhân do mạng hồi quy RNN chịu ảnh hưởng bởi gradient (độ

dốc) bị thấp dần trong quá trình học (vanishing gradient). Gradient lại là thành phần

quan trọng bậc nhất trong việc huấn luyện các model. Vì thế khi giá trị của gradient

được tạo bởi các thành phần phía đầu đoạn văn trở nên q nhỏ, nó sẽ khơng đóng góp

gì cho việc học của model. Từ hạn chế này ta nhận thấy kiến trúc của mạng hồi quy

RNN khơng có cơ chế lọc (filter) và bỏ đi các thơng tin khơng cần thiết, điều đó dẫn

đến bộ nhớ sẽ đến ngưỡng và sẽ bỏ đi những dữ liệu trước đó ở xa trong quá khứ.

Để khắc phục các hạn chế của mạng RNN nêu trên, một phiên bản đặc biệt của

mạng RNN là mạng LSTM (Long Short Term Memory) đã được ra đời:

Mạng LSTM là một dạng đặc biệt của mơ hình mạng RNN. Điểm chính trong

kiến trúc mạng của LSTM chính là các memory cell với các cổng cho phép lưu trữ

hoặc truy xuất thông tin. Các cổng này cho phép ghi đè (input gate), loại bỏ dư thừa

(forget gate) và truy xuất (output gate) các thơng tin được lưu trữ bên trong các

memory cell.



Hình 1.7. Mơ hình mạng LSTM [5]



Q trình hoạt động của mạng LSTM [5]:



Người thực hiện: Lưu Đức Phong



21



Lớp: 2016AKHKTTT.KH



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN

Tải bản đầy đủ ngay(0 tr)

×