Tải bản đầy đủ - 0 (trang)
VỚI CHUỖI DỮ LIỆU THỜI GIAN

VỚI CHUỖI DỮ LIỆU THỜI GIAN

Tải bản đầy đủ - 0trang

Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian

- Thành phần mùa (thời vụ): để chỉ chiều hướng tăng hay giảm của giá trị y được

tính theo giai đoạn thời gian (khoảng thời gian ngắn). Ví dụ: số lượng trẻ em mắc các

bệnh về hơ hấp tăng lên vào dịp cao điểm rét đậm, rét hại ở nước ta.



Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian

- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi thời

gian xoay quanh xu hướng. Thường trong chuỗi dữ liệu dài hạn thì khó đốn chu kì.

- Thành phần ngẫu nhiên: Đây là thành phần ngược với chu kỳ, thành phần ngẫu

nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường khơng dự

đốn được sự thay đổi của dữ liệu. Những tác động gây ra sự thay đổi dữ liệu thường

do các yếu tố bên ngoài tác động.



Hình 3.5. Sơ đồ chuỗi thời gian với định lượng 𝐘(𝐭) theo diễn biến thời gian t

20



Với sơ đồ Hình 3.5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại

thời điểm t, qua đó ta có thể xác định được các mơ hình sau:

- Mơ hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝐼𝑡 .



(3.1)



- Mơ hình nhân: 𝑌𝑡 = 𝑇𝑡 𝑆𝑡 𝐶𝑡 𝐼𝑡 .



(3.2)



Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C

là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular).

Mơ hình nhân được sử dụng nhiều hơn. Nếu thành phần chu kỳ và mùa không ảnh

hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mơ hình cộng, ngược lại mơ

hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ.

3.2. Tính dừng của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian có thể được tạo ra từ một q trình và kết quả của nó là tập

dữ liệu theo thời gian. Q trình đó, sinh ra một tập dữ liệu tổng thể và một tập hợp dữ

liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu mẫu. Một tính

chất quan trọng của dữ liệu chuỗi thời gian là tính dừng [4]. Một chuỗi giá trị trên thời

gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp phương sai ở các độ trễ

khác nhau giữ nguyên theo diễn biến thời gian [4]. Chuỗi Yt được coi là dừng khi thỏa

mãn:

- 𝐸(𝑌𝑡 ) = 𝜇(∀𝑡).



(3.3)



- 𝑉𝑎𝑟(𝑌𝑡 ) = 𝐸 (𝑌𝑡 − 𝜇)2 = 𝜎 2 (∀𝑡).



(3.4)



- 𝐶𝑜𝑣 (𝑌𝑡 , 𝑌𝑡+𝑘 ) = 𝐸 [(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡 − 𝜇)] = 𝑌𝑘 (∀𝑡 ).



(3.5)



hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ

thời gian k giữa hai thời đoạn.

3.2.1. Kiểm tra tính dừng chuỗi thời gian

3.2.1.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian

Chuỗi yt, nếu đồ thị 𝑌 = 𝑓(𝑡) cho trung bình và phương sai của Yt khơng đổi theo

thời gian thì chuỗi có tính dừng. Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung

bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đốn rằng

chuỗi là không dừng. Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính

dừng của chuỗi thời gian. Tuy nhiên, với những chuỗi thời gian có xu hướng khơng rõ

ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng.

3.2.1.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần

3.2.1.2.1. Sơ đồ tự tương quan ACF (Autocorelation Function)

Sử dụng dùng hàm tự tương quan ACF, trong đó: độ trễ k ký hiệu bằng ρk, xác định

bằng công thức như sau:

21



𝐴𝐶𝐹 (𝑘 ) = 𝑝𝑘



𝑐𝑜𝑣(𝑌𝑡, 𝑌𝑡−𝑘)

𝑉𝑎𝑟(𝑌𝑡)



(3.6)



Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k. Hàm tự tương

quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k . Ví dụ: ρ1 là hệ

số tương quan giữa Yt và Yt-1, ρi là hệ số tương quan giữa Yt và Yt-i... Nếu vẽ đồ thị ρk

với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF.

3.2.1.2.2. Sơ đồ tự tương quan riêng phần PACF (Partial Autocorrelation

Function)

Ta có hệ số tự tương quan ρk với 𝑘 ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và

Yt+k. Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số

biến khác. Trong trường hợp này là do ảnh hưởng từ các biến Yt-1, …, Yt-k+1. Do vậy,

ta sử dụng hàm tương quan PACF để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương

quan riêng ρkk ước lượng theo công thức Durbin:

𝑃𝐴𝐶𝐹 (𝑘 ) = 𝑝𝑘𝑘 =



𝑝𝑘 − ∑𝑘−1

𝑗=1 𝑝𝑘−1 𝑗 𝑝



𝑘−𝑗

𝑘−1

1 − ∑𝑗=1 𝑝𝑘−1 𝑗 𝑝

𝑗



(3.7)



Hệ số tương quan riêng phần thể hiện mối quan hệ giữa hai biến khi tất cả những

biến khác giữ nguyên giá trị. Nếu chuỗi dừng thì các kk cũng có phân phối chuẩn

𝑁(0, 1⁄𝑛), do đó kiểm định giả thiết đối với ρkk tương tự như đối với ρk.

3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng

Với chuỗi thời gian ban đầu khơng có tính dừng, trước khi xây dựng mơ hình

ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với

d = 1 hoặc d = 2,...

Ta có cơng thức: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 , giá trị ut là nhiễu trắng.

Ta có cơng thức sai phân cấp 1 của yt như sau: 𝐷 (𝑌𝑡 ) = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡 , trong đó

với ut là nhiễu trắng nên 𝐷(𝑌𝑡 ) là chuỗi dừng.

Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì

tiếp tục lấy sai phân cấp 2, 3… Có thể nói, ln có một giá trị d để sai phân cấp d của

Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d). Sai phân của cấp d được

tính như sau:

+ Cấp 1: 𝐷 (𝑌𝑡 ) = 𝑌𝑡 − 𝑌𝑡−1



(3.8)



+ Cấp 2: 𝐷(𝐷 (𝑌𝑡 )) = 𝐷 2 (𝑌𝑡 ) = (𝑌𝑡 − 𝑌𝑡−1 ) − (𝑌𝑡−1 −𝑌𝑡−2 )



(3.9)



+ Tương tự như vậy với sai phân cấp d: 𝐷(𝐷 𝑑−1 (𝑌𝑡 ))



(3.10)



Nếu yt ở dạng logarit thì giá trị 𝐷(𝑌𝑡 ) là phần trăm thay đổi của yt so với trước đó.

3.3. Mơ hình ARIMA

22



3.3.1. Mơ hình tự hồi quy AR (Autoregressive process)

Ý tưởng mơ hình AR(p) là hồi quy số liệu của nó trong quá khứ ở những chu kì

trước.

𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 ;



(3.11)



trong đó:

Yt : quan sát dừng hiện tại;

Yt-1, Yt-2,...: là quan sát dừng ở thời điểm trong quá khứ;

a0, a1, a2, …: các tham số phân tích hồi quy;

ut : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với ut giá trị trung bình được

mong đợi bằng 0.

Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá khứ: Yt-1,

Yt-2…

Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ

trễ, chúng ta sẽ được mơ hình AR. Số quan sát dừng ở các thời điểm quá khứ được sử

dụng trong mơ hình tự hồi quy là bậc p của mơ hình AR. Nếu sử dụng 2 quan sát dừng

ở quá khứ, ta có mơ hình tương quan bậc hai AR(2).

- Mơ hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡



(3.12)



- Mơ hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + 𝑢𝑡



(3.13)



3.3.2. Mơ hình trung bình trượt MA (Moving Average)

Hàm tuyến tính yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại. Mơ

hình trung bình trượt là một trung bình trọng số của những sai số mới nhất.

𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2 + ⋯ + 𝑏𝑞 𝑢𝑡−𝑞



(3.14)



trong đó:

Yt : quan sát dừng hiện tại;

ut : sai số dự báo;

ut-1, ut-2,... : sai số dự báo quá khứ;

b0, b1, b2,... : giá trị trung bình của yt và các hệ số bình quân di động;

q : là bậc của MA.

- Mơ hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1



(3.15)



- Mơ hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2



(3.16)



3.3.3. Mơ hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving

Average)

23



Để biểu diễn sơ đồ Y không chỉ riêng AR hoặc MA mà có thể kết hợp cả hai, sự

kết hợp ta được mơ hình ARMA, còn gọi là mơ hình trung bình trượt tự hồi quy.

Yt là q trình ARMA(1, 1) nếu Y có thể biểu diễn dưới dạng:

Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 (u là nhiễu trắng)



(3.17)



Tóm lại, Yt là q trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng:

Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 +



(3.18)



𝑏2 𝑢𝑡−2 + . . . + 𝑏𝑞 𝑢𝑡−𝑞

3.3.4. Mơ hình trung bình trượt tự hồi quy ARIMA (Autoregressive

Intergrated Moving Average)

Một chuỗi thời gian có thể tn theo nhiều mơ hình khác nhau. Tuy nhiên, cả ba

mơ hình AR, MA, ARMA đều u cầu chuỗi phải có tính dừng [4]. Nhưng thực tế có

nhiều chuỗi thời gian khơng có tính dừng. Vậy làm thế nào để áp dụng được các mơ

hình trong thực tế ? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi

một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mơ hình ARMA.

Nếu chuỗi Yt có đồng liên kết bậc d trên mơ hình ARMA (p, q) cho chuỗi sai phân

bậc d, thì chúng ta có mơ hình ARIMA (p, d, q). Với bậc tự hồi quy p, số lần lấy sai

phân d để chuỗi Yt được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc

tương ứng của chuỗi dừng).

- Trong mơ hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p).

- Trong mơ hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).

- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng. Chuỗi sai

phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).

∆𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎0 𝑢𝑡 + 𝑎1 𝑢𝑡−1 (u là nhiễu trắng)



(3.19)



Như vậy, xác định được các giá trị p, d, q ta sẽ mơ hình hóa được chuỗi ARIMA.

Ta thấy, mơ hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không

dùng thêm biến độc lập khác.

3.3.5. Dự báo dữ liệu chuỗi thời gian

Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các

nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự

báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện [4]. Gồm có loại dự báo

chính là dự báo định tính và dự báo định lượng. Chuỗi thời gian thuộc lớp dự báo định

lượng vì kết quả của mơ hình là một giá trị định lượng, nên được sử dụng khá phổ biến

trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả

thị trường. Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là

AR, MA,…

24



Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao

trong việc đưa ra các dự báo chính xác và có độ tin cậy cao. Sức mạnh của nó là ở chỗ

nó đưa ra những thơng tin giúp nhà phân tích chuỗi thời gian lựa chọn mơ hình phù

hợp với dữ liệu quan sát được. Đối với các phương pháp khác, nhà phân tích giả thiết

một mơ hình nào đó rồi tiến hành ước lượng các tham số của mơ hình. Trong giai đoạn

đầu tiên, ta nhận dạng một mơ hình thử nghiệm bằng cách so sánh các hàm tự tương

quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự

tương quan và tự tương quan riêng lí thuyết của các mơ hình ARMA.

ARIMA là một mơ hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá

khứ để đưa ra các dự báo [7]. Loại mơ hình này là một kỹ thuật dự báo cơ bản có thể

được sử dụng làm nền tảng cho các mơ hình phức tạp hơn. Dựa vào những đặc điểm

đó, trong phần thực nghiệm học viên quyết định sử dụng mơ hình ARIMA để thực

nghiệm trên tập dữ liệu chuỗi thời gian.

Các bước chính trong phương pháp Box‐Jenkins:

Bước 1: Nhận dạng mơ hình

Dữ liệu q khứ được sử dụng để nhận dạng thử một mơ hình ARIMA thích hợp.

Bước 2: Ước lượng mơ hình

Dữ liệu q khứ được sử dụng để ước lượng các tham số của mô hình thử nghiệm.

Bước 3: Kiểm tra dự đốn xem mơ hình có phù hợp

Các đánh giá khác nhau được dùng để kiểm tra sự thích hợp của mơ hình thử

nghiệm, và nếu cần thiết, gợi ý một mơ hình tốt hơn rồi sau đó mơ hình này lại được

xem như một mơ hình thử nghiệm mới.

Bước 4: Dự báo

Khi đã chọn được mơ hình cuối cùng, nó được sử dụng để dự báo các giá trị tương

lai của chuỗi thời gian.



25



Vẽ biểu đồ

chuỗi giá trị







Nhận dang mơ

hình



Là chuỗi dừng?

Khơng



Lấy sai phân của

chuỗi



Ước lượng mơ

hình



Mơ hình

có phù hợp?



Khơng



Điều chỉnh mơ

hình







Dự báo



Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins

Trên thực tế, nhiều chuỗi thời gian có thể được biểu diễn bằng những mơ hình đơn

giản. Mơ hình với số tham số thường được ưa chuộng hơn. Thông thường đối với các

mô hình ARMA(p, q) ta chỉ cần xét p ≤ 2 và/hoặc q ≤ 2. Có thể cải thiện việc biểu

diễn mơ hình bằng cách sử dụng một phép biến đổi dữ liệu gốc phù hợp. Dữ liệu đã

được biến đổi, nếu chưa có tính dừng, sẽ được sai phân hóa cho đến khi đạt được tính

dừng bởi vì ta bắt buộc phải làm việc với chuỗi thời gian dừng.



Tóm tắt chương 3

Chương 3 đã đi sâu chi tiết phân tích các đặc điểm chuỗi dữ liệu chuỗi thời gian, và

dựa vào đặc điểm của dữ liệu chuỗi thời gian đã đưa ra lựa chọn mơ hình phân tích

phù hợp ARIMA.

Chương 4 học viên tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm do Google

Flu Trends công bố sử dụng R và dựa trên mơ hình ARIMA.



26



CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Hiện nay, có nhiều phương pháp ứng dụng trong việc khai phá, phân tích và dự

đốn xu hướng dữ liệu. Kéo theo đó là rất nhiều phần mềm hỗ trợ cho việc phân tích

và dự đốn dữ liệu. Luận văn này sử dụng phần mềm R để làm thực nghiệm trên tập

dữ liệu dịch cúm Google Flu Trends cơng bố.

4.1. Mơ hình thực nghiệm

Trong phần thực nghiệm này, với bộ dữ liệu liên quan đến dịch bệnh cúm như đã

đề cập ở trên, luận văn sẽ giới thiệu từng bước thực nghiệm sử dụng mơ hình ARIMA

và sử dụng R.

Mơ hình ARIMA phổ biến và linh hoạt trong lĩnh vực dự đốn bằng việc sử dụng

những thơng tin trong q khứ để đưa ra dự đốn. Loại mơ hình này là kỹ thuật dự

đốn cơ bản mà có thể được sử dụng giống như một nền tảng cho những mơ hình hồn

thiện hơn.

ARIMA cho hồi quy tự động được tích hợp trung bình trượt và được chỉ định bởi

thứ tự 3 tham số (p, d, q), tiến trình phù hợp mơ hình ARIMA là thỉnh thoảng được đề

cập tới giống như phương thức Box-Jenkins.

Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những giá trị quá

khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p chỉ định số lượng của

độ trễ được dùng trong mơ hình.

𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡



(4.2)



Một cơng cụ trung bình trượt (moving average - MA) nêu ra lỗi của mơ hình giống

như sự kết hợp thành phần lỗi trước đây et. Theo đó q xác định số lượng giới hạn gồm

có trong mơ hình.

𝑌𝑡 = 𝑏0 + 𝑒𝑡 + 𝑏1 𝑒𝑡−1 + 𝑏2 𝑒𝑡−2 + ⋯ + 𝑏𝑞 𝑒𝑡−𝑞



(4.3)



Mặt khác, tự hồi quy và cơng cụ trung bình trượt thể hiện một mơ hình ARIMA

theo mùa có thể được viết bằng sơ đồ tuyến tính:

𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1



(4.4)



+ 𝑏2 𝑢𝑡−2 + . . . + 𝑏𝑞 𝑢𝑡−𝑞

Lưu ý rằng mơ hình ở trên giả định chuỗi khơng theo mùa, có nghĩa là ta có thể cần

phải khơng hợp lý hóa chuỗi trước khi mơ hình hóa.

Mơ hình ARIMA có thể được chỉ định thơng qua cấu trúc mùa. Trong trường hợp

này, mơ hình được chỉ định với hai tập của tham số (p, d, q) giống như mô tả ở trên và

những tham số mô tả thành phần mùa m.

Phương pháp ARIMA có những hạn chế của nó. Những mơ hình này dựa trực

tiếp vào các giá trị trong quá khứ và hoạt động tốt nhất trên chuỗi dữ liệu dài và

27



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

VỚI CHUỖI DỮ LIỆU THỜI GIAN

Tải bản đầy đủ ngay(0 tr)

×