Tải bản đầy đủ - 0 (trang)
III. TIỀN XỬ LÝ DỮ LIỆU

III. TIỀN XỬ LÝ DỮ LIỆU

Tải bản đầy đủ - 0trang

Hà Lan



5.836



206,7



93,8



107,3



Thái Lan



19.594



95,8



87,4



107,2



Nhật



44.681



100,1



100,4



106,9



Thụy Điển



2.545



163,4



101,5



106,6



Canada



7.716



114,5



88,6



106,4



Mỹ



38.881



98,9



105,9



105,9



Pháp



15.872



151



100,3



105,8



Singapo



13.452



80,2



91,4



105,5



Hàn Quốc



56.450



111,5



106



105,2



Malaisia



16.661



48,1



63,8



105



Úc



30.997



151



99,1



104,8



Indonesia



3.766



57,1



64,2



98,6



Phần Lan



929



114,7



85,4



97,6



26.090



218,9



48,2



127



Các thị trường

khác



Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch



2) Tích hợp dữ liệu (data integration)

Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho

dữ liệu có sẵn cho quá trình khai phá dữ liệu.

Vì dữ liệu này được lấy từ Website ITDR (http://www.itdr.org.vn/) viện nghiên cứu

phát triển du lịch. Cho nên thong tin ở đây đã được tích hợp từ nhiều nguồn dữ liệu

khác do đó tại bước này nhóm chúng tơi chỉ kiểm tra, xác thực tính tổng hợp dữ liệu

ở website này.

Sau khi tìm hiểu thì nhóm xác định đây là dữ liệu đã được thống nhất và chính xác.



Chỉ tiêu



tháng

7/2014



Tháng 7/2014 so với

tháng trước (%)



Tháng 7/2014 so với

tháng 7/2013 (%)



7 tháng năm 2014 so với cùng

kỳ năm trước (%)



(người)

Tổng số



564.736



104,6



85,8



115,6



102,7



88,6



115,1



2000



146



10,6



30,6



114.012



112,1



85,7



135



Chia theo phương tiện đến

Đường khơng

Đường biển

Đường bộ



448.724



Chia theo mục đích chuyến đi

Du lịch, nghỉ

ngơi



341.383



105,4



84,6



113,9



Đi cơng việc



94.876



103,4



86,1



116,1



96.852



104,3



88,3



119,5



31.625



101



90,2



121,1



644



127,3



72,6



211,3



7.884



129,1



116,4



199,4



Nga



22.713



121,2



136,5



127



Lào



16.066



120



91,8



126,7



123.442



90,3



71,2



126



3.629



174,5



116,4



123,6



Campuchia



26.537



83,3



86,6



123



Anh



15.020



111



104,2



117,9



Thăm thân

nhân

Các mục đích

khác



Chia theo một số thị trường

Hồng Kông

Đức



Trung Quốc

Tây Ban Nha



5



Italy



1.879



97,9



96,2



115



Niuzilan



3.569



141,3



105,7



114,4



Bỉ



3.097



301,9



106,3



113,3



Philippin



7.463



78,6



98,1



112,1



Na Uy



4.385



295,9



107,8



112,1



Đan Mạch



3.731



296,8



103,6



111,9



Thụy Sỹ



2.779



198,4



104,4



111,6



Đài Loan



38.428



129,1



84,3



108,1



Hà Lan



5.836



206,7



93,8



107,3



Thái Lan



19.594



95,8



87,4



107,2



Nhật



44.681



100,1



100,4



106,9



2.545



163,4



101,5



106,6



Thụy Điển

Canada



7.716



114,5



88,6



106,4



Mỹ



38.881



98,9



105,9



105,9



Pháp



15.872



151



100,3



105,8



Singapo



13.452



80,2



91,4



105,5



Hàn Quốc



56.450



111,5



106



105,2



Malaisia



16.661



48,1



63,8



105



Úc



30.997



151



99,1



104,8



Indonesia



3.766



57,1



64,2



98,6



Phần Lan



929



114,7



85,4



97,6



26.090



218,9



48,2



127



Các thị trường

khác



Hình 3: Bảng thống kê sau khi tích hợp dữ liệu



3) Biến đổi dữ liệu (data transformation)

Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang một tập

các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá trị mới.

Các phương pháp biến đổi dữ liệu :

- Làm trơn (smoothing) : Loại bỏ nhiễu/lỗi khỏi dữ liệu

- Kết hợp (aggregation) : Sự tóm tắt dữ liệu, xây dựng các khối dữ liệu.

- Khái quát hóa (generalization) : Xây dựng các phân cấp khái niệm.

- Chuẩn hóa (normalization) : Đưa các giá trị về một khoảng được chỉ định.

Tại dữ liệu chia theo thị trường vẫn còn rộng và là nơi cần tích hợp thêm một số

thơng tin hữu ích đối với mục đích chính là thống kê du lịch ở các nước lân cận.

Nên nhóm chúng tơi dùng phương pháp Khái qt hóa để phân cấp dữ liệu.



Chỉ tiêu



tháng

7/2014



Tháng 7/2014 so với

tháng trước (%)



Tháng 7/2014 so với

tháng 7/2013 (%)



7 tháng năm 2014 so với

cùng kỳ năm trước (%)



(người)

Tổng số



564.736



104,6



85,8



115,6



448.724



102,7



88,6



115,1



2000



146



10,6



30,6



114.012



112,1



85,7



135



341.383



105,4



84,6



113,9



94.876



103,4



86,1



116,1



Chia theo phương tiện đến

Đường khơng

Đường biển

Đường bộ



Chia theo mục đích chuyến đi

Du lịch, nghỉ ngơi

Đi cơng việc



6



Thăm thân nhân



96.852



104,3



88,3



119,5



Các mục đích khác



31.625



101



90,2



121,1



Hồng Kơng



644



127,3



72,6



211,3



Trung Quốc



Chia theo một số thị trường

Thị trường Châu Á



123.442



90,3



71,2



126



Đài Loan



38.428



129,1



84,3



108,1



Nhật



44.681



100,1



100,4



106,9



Singapo



13.452



80,2



91,4



105,5



56.450



111,5



106



105,2



Hàn Quốc



Thị trường Đông Nam Á

Lào



16.066



120



91,8



126,7



Campuchia



26.537



83,3



86,6



123



Philippin



7.463



78,6



98,1



112,1



Thái Lan



19.594



95,8



87,4



107,2



Malaisia



16.661



48,1



63,8



105



3.766



57,1



64,2



98,6



Indonesia

Tổng số

Đông Nam Á

Tổng số Châu Á



90.087

367.184



Thị trường Châu Âu

Đức



7.884



129,1



116,4



199,4



Nga



22.713



121,2



136,5



127



Tây Ban Nha



3.629



174,5



116,4



123,6



Anh



15.020



111



104,2



117,9



Italy



1.879



97,9



96,2



115



Bỉ



3.097



301,9



106,3



113,3



Na Uy



4.385



295,9



107,8



112,1



Đan Mạch



3.731



296,8



103,6



111,9



Thụy Sỹ



2.779



198,4



104,4



111,6



Hà Lan



5.836



206,7



93,8



107,3



Thụy Điển

Pháp

Phần Lan

Tổng số châu Âu



2.545



163,4



101,5



106,6



15.872



151



100,3



105,8



929



114,7



85,4



97,6



3.569



141,3



105,7



114,4



30.997



151



99,1



104,8



7.716



114,5



88,6



106,4



38.881



98,9



105,9



105,9



218,9



48,2



127,2



90.299



Thị trường Châu Úc

Niuzilan

Úc

Tổng số Châu Úc



34.566



Thị trường Châu Mỹ

Canada

Mỹ

Tổng số Châu Úc

Các thị trường khác



46.597

26.090



Hình 4: Dữ liệu sau khi biến đổi dữ liệu



Thơng qua bảng trên nhóm chúng tơi tổng kết được



7



Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%)

4) Thu giảm dữ liệu (data reduction)

Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho quá

trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.

Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra cùng

(hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.

Chiến lược thu giảm:

- Giảm số chiều (dimensuinality reduction), loại bỏ bớt các thuộc tính khống

(ít) quan trọng.

- Giảm lượng dữ liệu (data/numberosity reduction)

+ Kết hợp khối dữ liệu

+ Nén dữ liệu

+ Hồi quy

+ Rời rạc hóa.

Sau khi xem xét kỹ lưỡng dữ liệu trên thì nhóm cho rằng dữ liệu trên khơng cần

phải thu giảm bởi vì dữ liệu trên nhỏ và các giá trị trên đều cần thiết (không thể

lược bỏ thêm) cho mục đích thống kê tình hình khách quốc tế đến Việt Nam.



8



IV.



TÀI LIỆU THAM KHẢO



Data Mining Concepts and Techniques - Third Edition by Jiawei Han, Micheline

Kamber, Jian Pei

Data Mining with SQL Server 2008

http://www.academia.edu/8033090/Khai_ph%C3%A1_d%E1%BB%AF_li%E1%BB

%87u_-_data_mining



9



MỤC LỤC HÌNH ẢNH



Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng

7năm 2014...............................................................................3

Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi

được làm sạch..........................................................................5

Hình 3: Bảng thống kê sau khi tích hợp dữ liệu........................6

Hình 4: Dữ liệu sau khi biến đổi dữ liệu....................................7



10



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

III. TIỀN XỬ LÝ DỮ LIỆU

Tải bản đầy đủ ngay(0 tr)

×