Trong phân tích dữ liệu, chuỗi dữ liệu thời gian (Time series) là một dạng dữ liệu rất phổ biến và thường chịu ảnh hưởng bởi 4 yếu tố xu hướng, chu kỳ, mùa vụ, yếu tố bất thường. Chẳng hạn, tại Mỹ, tỷ lệ thất nghiệp các tháng trong năm chính là một chuỗi dữ liệu có tính mùa vụ. Số liệu thực tế cho thấy, trong 3 tháng đầu năm (các tháng Giêng, Hai, Ba) và hai tháng giữa năm (tháng Sáu, Bảy) tỷ lệ thất nghiệp tại Mỹ thường cao hơn các tháng còn lại. Ngược lại, đối với dữ liệu doanh số bán lẻ, thông thường, giá trị bán lẻ có xu hướng tăng cao nhất vào mùa Giáng sinh và thấp hơn đối với những mùa còn lại. Đối với Việt Nam, chuỗi dữ liệu thời gian có biến động theo mùa vụ dễ dàng quan sát nhất chính là chuỗi dữ liệu khách du lịch. Đặc biệt với loại hình du lịch biển, số lượng khách thường tăng cao vào các tháng mùa nóng (từ tháng 4 đến tháng 9 hàng năm) do nhu cầu nghỉ mát tăng cao và giảm sút ở các tháng còn lại.
Để mô hình hóa cấu trúc cơ bản của các chuỗi dữ liệu này, phương pháp điều chỉnh mùa vụ thường được các nhà thống kê sử dụng nhằm phân tách các chuỗi thời gian thành xu hướng, và giảm bớt tác động của yếu tố mùa vụ.
Trong công tác thống kê nhà nước, điều chỉnh theo mùa có một truyền thống lâu đời và việc xây dựng các phần mềm điều chỉnh mùa vụ là một nhu cầu tất yếu. Phần mềm điều chỉnh mùa vụ X-11 lần đầu tiên được phát triển bởi Cục Điều tra Dân số Hoa Kỳ vào những năm 1960, và sau đó được Cơ quan Thống kê Canada cải tiến (Dagum 1980). Các gói phần mềm tiếp theo của Cục điều tra dân số Hoa Kỳ phát triển lần lượt là X-12-ARIMA (Findley, Monsell, Bell, Otto và Chen 1998) và X-13ARIMA-SEATS (hay gọi tắt là X-13) (Monsell 2007). Trong phiên bản gần đây nhất, X-13 cung cấp hai phương pháp điều chỉnh mùa vụ bằng một công cụ dòng lệnh duy nhất.
X-13ARIMA-SEATS hiện nay là một công cụ rất mạnh để điều chỉnh tính mùa vụ của dữ liệu. Chính vì vậy, nó được sử dụng bởi rất nhiều cơ quan thống kê lớn trên thế giới như cơ quan Thống kê Mỹ, Úc, Canada, Hàn Quốc…đặc biệt trong các cuộc tổng điều tra.
Về bản chất, X-13ARIMA-SEATS được xây dựng dựa trên ngôn ngữ R. Điều này giúp giảm thiểu rào cản đối với việc tăng cường sử dụng các phương pháp điều chỉnh theo mùa vụ một cách đáng kể nhờ sự phổ biến ngày càng rộng rãi của R và việc dễ dàng cài đặt các gói lệnh mùa vụ (package “seasonal”) trong R. Cấu trúc dữ liệu trong gói theo mùa tương tác liền mạch với các đối tượng chuỗi thời gian được tích hợp sẵn cho R, giúp dễ dàng tạo các biến hồi quy tùy chỉnh.
Biểu đồ: Kết quả điều chỉnh thất nghiệp theo mùa vụ của Mỹ, sử dụng các giá trị mặc định là theo mùa.
Chi tiết tham khảo tại: http://www.seasonal.website/
Minh Ánh (tổng hợp)
Nguồn: https://cran.r-project.org/web/packages/seasonal/vignettes/seas.pdf
https://en.wikipedia.org/wiki/X-13ARIMA-SEATS