Tải bản đầy đủ - 0 (trang)
CHƯƠNG 2: XÂY DỰNG CHƯƠNG TRÌNH THU THẬP VÀ PHÂN TÍCH XU HƯỚNG NGHỀ NGHIỆP

CHƯƠNG 2: XÂY DỰNG CHƯƠNG TRÌNH THU THẬP VÀ PHÂN TÍCH XU HƯỚNG NGHỀ NGHIỆP

Tải bản đầy đủ - 0trang

Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



2.2. Giải quyết bài tốn

2.2.1. Cơ sở dữ liệu

Bảng

Mục đích

companyName

Chứa thơng tin các công ty tuyển dụng

MajorName

Chứa thông tin danh mục ngành

Description

Mô tả tin tuyển dụng

Location

Địa điểm tuyển dụng

NumofRecruitment

Số lượng nhân sự cần tuyển

AgeRequire

Độ tuổi yêu cầu

Experience

Số năm kinh nghiệm

ActiveTime

Thời gian thu thập

Bảng 2.12. Bảng cấu trúc dữ liệu tuyển dụng

2.2.2. Các công cụ giải quyết yêu cầu

2.2.2.1. Mô-đun thu thập dữ liệu

Mô đun thu thập dữ liệu được xây dựng trên ngôn ngữ Python với các thành phần

được mô tả như trong Hình 3.2



Hình 2.9. Luồng thu thập dữ liệu

Hệ thống bao gồm các thành phần:

-



Cấu hình và lập lịch quét các dữ liệu:

o Thiết lập các đường dẫn/folder/DB để tiến trình định kỳ quét

o Định nghĩa các luật (rules) để phân biệt các dữ liệu mới sinh để thu

thập về



-



Chuyển đổi dữ liệu raw về dạng chuẩn hóa

o Thực hiện mapping dữ liệu giữa dữ liệu raw và dạng dữ liệu mong

muốn chuẩn hóa



Người thực hiện: Lưu Đức Phong



25



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học

-



GVHD: Nguyễn Hữu Đức



Lưu đồ các bước xử lý



Hình 2.10. Các bước thu thập dữ liệu

Bước 1: Load cấu hình vào chương trình scan dữ liệu bao gồm các thông tin:

đường dẫn, rule phát hiện ra các loại file mới

Bước 2: Thiết lập chu kỳ chạy của tiến trình theo đơn vị thời gian mong muốn

(thường để là phút). Sau khi thiết lập ở sau mỗi khoảng thời gian được thiết lập sau khi

kết thúc việc qt dữ liệu của lần trước đó, tiến trình qt dữ liệu sẽ được active lại

Bước 3 & 4: Từ các cấu hình đã được định nghĩa trong file configuration, tiến

trình sẽ truy cập vào các folder/database theo các đường dẫn

Bước 5: Dựa vào luật phát hiện dữ liệu mới, tiến trình sẽ lấy được các

files/record mới cần được xử lý. Thực hiện chuyển đổi dữ liệu từ dạng Raw về dạng

mong muốn thơng qua cấu hình mapping dữ liệu. Sau khi thu thập và mapping dữ liệu

xong sẽ gọi và cập nhật vào cơ sở dữ liệu thông qua GatewayAPI, tiến trình sẽ sleep

theo cấu hình.

2.2.2.2. API Gateway

Phân hệ API Gateway được phát triển trên ngôn ngữ C# với các thành phần

được mơ tả trong Hình 3.4.



Người thực hiện: Lưu Đức Phong



26



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Hình 2.11. Kiến trúc API Gateway

Hệ thống bao gồm các thành phần:

-



API Gateway:

o Là lớp trung gian đứng giữa các ứng dụng khai thác, tương tác dữ

liệu và ứng dụng quản lý CSDL.

o Điều hướng và phân phối các request, đảm bảo tính An tồn thơng tin

và bảo mật của dữ liệu (mã hóa dữ liệu)



-



Query Nodes:

o Là các node gần với tầng CSDL nhất, được phát triển được phát triển

phục vụ các mục đích đặc thù của nghiệp vụ, các node có thể triển

khai độc lập trên các hạ tầng khác nhau với chức năng như

Insert/Update/Delete :

 Nhận Thực hiện kết nối và truy vấn lấy các dữ liệu theo các

điều kiện được truyền vào.

 Chuẩn hóa các nghiệp vụ thành các hàm (function) và các biến

số.



-



Lợi thế trong việc triển khai lớp API GateWay và các Query Nodes:

o Giúp tường minh các luồng giao tiếp giữa các ứng dụng và CSDL.

Dễ dàng trong việc khoanh vùng lỗi và xử lý sự cố phát sinh

o Mềm dẻo khi phát sinh thêm nghiệp vụ hoặc thay đổi luồng.



Người thực hiện: Lưu Đức Phong



27



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



o Đảm bảo ATTT và phân quyền về mặt nghiệp vụ

o Giúp tái sử dụng lại các function (giảm thiểu nỗ lực coding) thơng

qua việc cấu hình các tham số.



2.2.2.3. Hệ thống lưu trữ dữ liệu

Dữ liệu tuyển dụng được lưu trữ trên cơ sở dữ liệu MongoDB và được quản lý

bằng MongoDB Ops Manager

Kiến trúc tổng quát



Hình 2.12. Kiến trúc CSDL MongoDB [6]



Hệ thống bao gồm các thành phần như sau:

-



Sharded:

o Chứa các dữ liệu sau khi được lưu trữ.



-



Configure:

o Lưu trữ các meta Data, các cấu hình trong cụm cluster



-



Query Router:



Người thực hiện: Lưu Đức Phong



28



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



o Là interface để thực hiện cung cấp/cập nhật thông tin từ bên ngoài

đến hệ thống Database

-



Lợi thế trong việc triển khai hệ thống MongoDB theo mơ hình Sharded

Cluster:

o Giúp tối tối ưu hiệu năng trong việc truy vấn CSDL so với CSDL

chạy trên một node

o Có khả năng mở rộng nhanh chóng: chỉ cần thiết lập node và cấu

hình



2.2.2.4. Cơng cụ trình diễn dữ liệu

Luận văn sử dụng cơng cụ TableAU cho mục đích trình diễn các thơng tin phân

tích tuyển dụng.



Người thực hiện: Lưu Đức Phong



29



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Hình 2.13. Kiến trúc cơng cụ phân tích, trình bày dữ liệu TableAU [7]



Hệ thống bao gồm các thành phần như sau:

-



Data Connector: Là thành phần cho phép người dùng định nghĩa các

Datasource



-



Main components: Tạo ra các view nhìn dữ liệu bao gồm các biểu đồ và dữ

liệu chi tiết



2.2.2.5. Mơ đun phân tích, dự đốn xu hướng

Ở đề tài luận văn này, tác giả không đi triển khai lại các thuật toán cũng như

phát triển lại các chức năng dự báo vốn đã có rất nhiều thư viện cung cấp sử dụng trên



Người thực hiện: Lưu Đức Phong



30



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



ngơn ngữ lập trình Python như: Keras, Tensorflow, Sklearn. Tác giả sẽ vận dụng các

thư viện sẵn có nêu trên kết hợp với việc xây dựng một chức năng cấu hình động cho

phép người dùng có thể thiết lập bất cứ một phân tích nào với các tham số mong

muốn.



Bảng 2.13. Module Phân tích dự báo

Mơ-đun sẽ gồm 03 chức năng chính: Cấu hình tham số, thu thập dữ liệu và thực

hiện chạy phân tích dự đốn.

Chức năng cấu hình tham số:

-



Cấu hình miền dữ liệu:

o Đối tượng dữ liệu cần được phân tích. Ví dụ: độ tuổi trung bình, số

lượng lao động cần tuyển dụng,…

o Phạm vi dữ liệu và điều kiện lọc. Ví dụ: lọc theo địa phương tuyển



-



dụng, lọc theo công ty tuyển dụng, lọc theo ngành nghề,…

o Thời gian lấy dữ liệu để huấn luyện

Cấu hình cấu trúc mạng phân tích:

o Số nơ-ron lớp vào

o Số nơ-ron lớp ẩn

o Số nơ-ron lớp ra

o Tỉ lệ % dữ liệu huấn luyện

o Tham số huấn luyện epochs

o Các thiết lập hiển thị (titles, x-label, y-label).



Người thực hiện: Lưu Đức Phong



31



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Bảng 2.14. Mơ hình CSDL lưu trữ cấu hình phân tích



Bảng 2.15. Mơ hình mạng nơ-ron dự đốn

Chức năng thu thập dữ liệu: Chức năng được kích hoạt sau khi người dùng

thiết lập xong cấu hình và chạy phân tích. Tiến trình ngầm sẽ tương tác vào cơ sở dữ

liệu và truy vấn theo các điều kiện như: đối tượng dữ liệu cần phân tích, điều kiện lọc,

… Dữ liệu sau khi được thu thập sẽ chuyển đến chức năng phân tích dữ liệu.

Chức năng phân tích dữ liệu: bao gồm 2 hàm (đã được đóng gói trong các thư

viện của Python):

Mô tả hàm huấn luyện



Người thực hiện: Lưu Đức Phong



32



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



GVHD: Nguyễn Hữu Đức



Hình 2.14. Lưu đồ hoạt động của hàm huấn luyện

Bước 1: Kiểm tra p có nhỏ hơn số lần cần học hay khơng. Nếu đúng thì sang

bước 2, nếu sai thì kết thúc ghi lại các trọng số.

Bước 2: Đọc dữ liệu cần huấn luyên từ các file dữ liệu được trích xuất từ chức

năng trên. Dữ liệu được đưa vào mạng nơ-ron để hoạt động.

Bước 3: So sánh dữ liệu đúng với dữ liệu đầu ra của mạng nơ-ron thu được.

Tính sai số và hiệu chỉnh các trọng số của mạng bằng cách sử dụng thuật toán lan

truyền ngược.

Bước 4: Tăng p và quay về bước 1

Mô tả hàm dự báo

Bước 1: Đọc các trọng số của mạng nơ-ron có được từ q trình huấn luyện.

Bước 2: Đọc dữ liệu (là các nhân tố cần biết để dự đoán từ người dùng), sau đó

cho vào mạng nơ-ron để tính toán.

Bước 3: Cuối cùng là thu dữ liệu đầu ra từ mạng nơ-ron (ví dụ: số lượng nhân

sự ngành IT tuyển dụng tại Hà Nội).

Kết luận chương 2:

Trong chương 2 tác giả đã nghiên cứu bài toán và đưa ra mơ hình triển khai cho

hệ thống, trong đó bao gồm các Mơ-đun chính: Đồng bộ dữ liệu, lưu trữ, phân tích dự

đốn và hiển thị dữ liệu. Tác giả cũng mơ tả chi tiết chức năng chính, đánh giá lợi thế

khi xây dựng các Mơ-đun. Để hiện thực hóa phân tích u cầu trên, trong chương 3 tác

giả sẽ mơ phỏng thực nghiệm chương trình.



Người thực hiện: Lưu Đức Phong



33



Lớp: 2016AKHKTTT.KH



Luận văn Thạc sỹ Khoa học



Người thực hiện: Lưu Đức Phong



GVHD: Nguyễn Hữu Đức



34



Lớp: 2016AKHKTTT.KH



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 2: XÂY DỰNG CHƯƠNG TRÌNH THU THẬP VÀ PHÂN TÍCH XU HƯỚNG NGHỀ NGHIỆP

Tải bản đầy đủ ngay(0 tr)

×