Tải bản đầy đủ - 0 (trang)
Tóm tắt chương 4

Tóm tắt chương 4

Tải bản đầy đủ - 0trang

liệu thực tế cho thấy tỷ lệ chính xác lên 95%, qua đó có thể thấy độ tin cậy của kết quả

dự đoán trong phần thực nghiệm.



44



KẾT LUẬN

1. Các kết quả đạt được

Để nghiên cứu bài toán ứng dụng khai phá dữ liệu trong y tế dự phòng, học viên

đã tập trung nghiên cứu các khái niệm về y tế dự phòng, thực trạng về nhu cầu trong

việc quản lý, phân tích và dự báo đươc dịch bệnh trên tập số liệu được báo cáo.

Bên cạnh đó, học viên cũng nghiên cứu, tìm hiểu một số phương pháp khai phá

dữ liệu hiện nay. Cùng với đó là đề xuất một số phương pháp khai dữ liệu phù hợp với

tập dữ liệu dịch bệnh cúm do Google công bố.

Dựa trên nghiên cứu đó luận văn đề xuất một mơ hình dự báo dịch bệnh truyền

nhiễm dựa trên tập dữ liệu thời gian. Luận văn cũng tiến hành cài đặt thực nghiệm một

tập dữ liệu được trích xuất trong tập dữ liệu của một quốc gia. Dựa vào kết quả phân

tích, dự báo như đã trình bày trong phần thực nghiệm, lấy đó làm cơ sở cho cho xây

dựng các bài tốn dự báo tình hình dịch bệnh.

2. Hướng nghiên cứu tiếp theo

Trong khuôn khổ luận văn này, tôi mới chỉ dừng lại ở việc phân tích chuỗi dữ

liệu thời gian và đưa ra dự báo dựa vào xu hướng dữ liệu trên thực nghiệm trong mơ

hình đó, đánh giá kết quả dự báo trên tập dữ liệu so với số liệu thực tế.

Trong thời gian tới, tôi sẽ tiếp tục thực nghiệm các tập dữ liệu còn lại trong tập

dữ liệu được công bố, đồng thời xem xét hướng nghiên cứu bổ sung nhằm phân tích,

đánh giá các quy luật diễn biến dịch bệnh cúm trên toàn cầu dự trên các đặc điểm thời

gian, địa lý, điều kiện thời tiết để nâng cao độ chính xác và giảm thiểu việc bỏ sót các

cặp quan hệ trong chuỗi dữ liệu thời gian.



45



TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Nguyễn Minh Sơn - Dịch tễ học, Nhà xuất bản Giáo dục 2012.

Tiếng Anh

[2] Centers for Disease Control and Prevention (CDC USA) - Principles of

epidemiology in public health practice, Third edition 2012. 2

[3] Dorland - Dorland's Illustrated Medical Dictionary 32nd Edition, 2011.

[4] Chi-Chen Wang. “A comparision study between fuzzy time series model and

ARIMA model for forecasting Taiwan export”. Expert Systems with Applications,

vol.38, no.8, pp.9296-9304, 2011.

[5] Hippocrates - On airs, waters, and places written 400 B.C.E (Translated by

Francis Adams).

[6] Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts and

techniques. Elsevier, 2011.

[7] K. Senthamarai Kannan and E. Sakthivel. “Fuzzy Time Series Model and

ARIMA Model – A Comparative Study”. Indian Journal of Applied Research, vol.4,

no.8, pp.624-636, 2014.

[8] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." Nature

521.7553 (2015): 436-444.

[9] R. Bonita, R. Beaglehole, Tord Kjellström - Basic epidemiology 2nd edition,

World Health Organization.

[10] Shasha, D., High Performance Discovery in Time Series, Berlin:

Springer, ISBN 0387008578, 2004.

[11] Verikas, Antanas, Adas Gelzinis, and Marija Bacauskiene. "Mining data

with random forests: A survey and results of new tests." Pattern Recognition 44.2

(2011): 330-349.

[12] https://www.cs.waikato.ac.nz

[13] https://www.spss-tutorials.com/spss-what-is-it

[14] https://www.r-project.org

[15] https://www.britannica.com/science/preventive-medicine.



46



PHỤ LỤC

1. Gọi thư viện: ggplot2, forecast, tseries, lubridate.

> library('ggplot2')

> library('forecast')

> library('tseries')

> library(lubridate)

2. Cài đặt thư viện:

> install.packages("lubridate")

3. Nạp tập dữ liệu:

> d<-read.csv("dataArgentina.csv", head=T)

>d

4. Trích xuất dữ liệu của một năm bất kỳ trong tập d với dữ liệu của năm

2004 của Argentina.

> Nam2004 <- d[format(as.Date(d$Date, format = '%m/%d/%Y'), '%Y')==2004,]

> Nam2004

5. Xây dựng sơ đồ diễn biến số liệu năm 2004 của Argentina.

> Nam2004$Date = as.Date(Nam2004$Date)

> ggplot(Nam2004, aes(Date, Argentina))+ geom_line()+ scale_x_date('month')+

ylab("Số ca mắc cúm")+xlab("thời gian")

6. Làm mịn tập dữ liệu:

> count_sc = ts(Nam2004[, c('Argentina')])

> Nam2004$clean_scm = tsclean(count_sc)

> Nam2004

7. Vẽ biểu đồ với tập dữ liệu Nam2004 sau khi được xử lý qua hàm tsclean():

> ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm))

+ylab('Số ca mắc cúm (Cleaned)')

8. Lấy mức trung bình theo những khoảng thời gian, làm mịn để chuỗi trở

nên ổn định hơn và có thể dự đoán được:

> Nam2004$cnt_ma = ma(Nam2004$clean_scm, order=7) #sử dụng số tại cột

clean_scm đã được loại bỏ ngoại lệ

> Nam2004$cnt_ma30 = ma(Nam2004$clean_scm, order=30)

> ggplot() + geom_line(data = Nam2004, aes(x = Date, y = clean_scm, colour

47



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tóm tắt chương 4

Tải bản đầy đủ ngay(0 tr)

×