Vai trò của tích hợp dữ liệu trong Thống kê chính thức
Theo sổ tay “Hướng dẫn tích hợp cho Thống kê chính thức” của UNECE, tích hợp dữ liệu là hoạt động xảy ra khi có ít nhất hai nguồn dữ liệu khác nhau được kết hợp thành một tập dữ liệu. Tập dữ liệu này có thể là tập dữ liệu đã tồn tại trong hệ thống thống kê hoặc tập dữ liệu là nguồn bên ngoài (ví dụ: tập dữ liệu hành chính được lấy từ các cơ sở dữ liệu hành chính hoặc thông tin được quét trên web từ một trang web có sẵn công khai).[1]
Trên thực tế, tích hợp dữ liệu trong Thống kê chính thức đã nhận được rất nhiều sự quan tâm từ các cơ quan thống kê và tổ chức thống kê trên thế giới. Các tổ chức thống kê đã và đang thực hiện các nghiên cứu và áp dụng các kết quả nghiên cứu về tích hợp dữ liệu trong hoạt động sản xuất thông tin thông kê. Cụ thể:
Năm 2018, tại phiên họp thứ sáu của Ủy ban Kinh tế – Xã hội châu Á và Thái Bình Dương (ESCAP) được tổ chức tại Bangkok diễn ra từ ngày 16 đến ngày 19 tháng 10 năm 2018, ESCAP đã ghi nhận tầm quan trọng của tích hợp dữ liệu trong thống kê và ủng hộ đề xuất của ban thư ký nhằm xây dựng các cộng đồng thực hành thống kê theo hình thức trực tuyến để tiếp tục thực hiện công việc liên quan đến tích hợp dữ liệu trong thống kê[2]. Sau đó, tại cuộc họp vào tháng 12 năm 2018, Cục của Ủy ban Thống kê đã đồng ý xây dựng một cộng đồng thực hành tích hợp dữ liệu thống kê, Và đến cuối tháng 4 năm 2020 Cộng đồng Thực thành tích hợp Dữ liệu (DI-CoP) chính thức được thành lập.[3]
Vào năm 2015, Nhóm Cấp cao của UNECE về Hiện đại hóa số liệu thống kê chính thức (HLG-MOS) đã nhận ra rằng các tổ chức thống kê chính thức đang gặp thách thức về năng lực cần thiết để kết hợp các nguồn dữ liệu mới trong quy trình sản xuất thống kê của họ. Dự án Tích hợp dữ liệu năm 2016 do Ủy ban hiện đại hóa của HLG- MOS đã được giao nhiệm vụ để thực hiện: i) Tập hợp các kinh nghiệm thực tế về tích hợp dữ liệu thống kê; ii) Đưa kinh nghiệm thành thành các đề xuất chung về tích hợp dữ liệu và xây dựng hướng dẫn ban đầu cho khung chất lượng. Và đến năm 2017, phiên bản đầu tiên của “Hướng dẫn tích hợp dữ liệu cho thống kê chính thức” do HLG- MOS của UNECE đã được xuất bản có đưa ra kinh nghiệm của rất nghiều tổ chức thống kê như: Viện Địa lý và Thống kê Brazil (IBGE); Cục Thống kê Trung ương (CSO) của Ba Lan; Cơ quan Thống kê châu Âu (Eurostat); Cơ quan Thống kê Trung ương Hungary (HCSO); Viện Thống kê Quốc gia Ý (Istat); Cục Thống kê Hành chính Quốc gia (DANE) của Colombia; Cơ quan thống kê Hà Lan; Cơ quan thống kê Newzeland; Ủy ban Kinh tế Liên hợp quốc về Châu Âu (UNECE).[4]
Vậy tích hợp dữ liệu thống kê có vai trò gì trong Thống kê chính thức mà lại nhận được sự quan tâm lớn từ rất nhiều các tổ chức và cơ quan thống kê trên toàn thế giới? Tại bài viết này sẽ đưa ra một số vai trò chính của tích hợp dữ liệu trong Thống kê chính thức như sau:
Giúp cung cấp số liệu thống kê đầy đủ hơn, kịp thời hơn và chi tiết hơn
Tại cuốn sổ tay về “Hướng dẫn tích hợp dữ liệu cho thống kê chính thức” do UNECE xuât bản vào năm 2017 đã chỉ ra rằng “Tích hợp dữ liệu sẽ cung cấp khả năng tạo ra các số liệu thống kê được phân tách kịp thời hơn với tần suất cao hơn so với các phương pháp truyền thống đơn thuần.”[5]
Đồng thời tại ấn phẩm mới nhất của ESCAP “Báo cáo Tiến độ SDG Châu Á và Thái Bình Dương năm 2021 đã chỉ ra rằng 80 chỉ tiêu của Mục tiêu phát triển bền vững (SDG) ở khu vực Châu Á – Thái Bình Dương không có đủ dữ liệu để đo lường và đánh giá tiến độ, trong đó có 39 chỉ tiêu không có dữ liệu để tính toán. Hơn nữa báo cáo cũng cho thấy dữ liệu phân tách chỉ có sẵn cho 27 chỉ tiêu trong khu vực. Đây có thể coi là một khoảng trống dữ liệu mà Cộng đồng thống kê ở Châu Á và Thái Bình Dương nói chung và các cơ quan thống kê trên toàn thế giới nói riêng cần thực hiện các bước tiếp theo để lấp đầy chúng; và tích hợp dữ liệu là một trong các bước đó.[6]
Như vậy việc liên kết và kết hợp dữ liệu từ nhiều nguồn dữ liệu sẵn có để tạo ra các bộ dữ liệu mới, bộ dự liệu này sẽ cung cấp nhiều thông tin hơn về một cá nhân/tổ chức ngoài những gì họ đã cung cấp. Do vậy, thông tin sẽ cung cấp kịp thời và có ý nghĩa hơn so với các nguồn dữ liệu đơn lẻ mà không phải thực hiện theo phương pháp điều tra truyền thống.
Do đó, thông tin thu được từ việc sử dụng tích hợp dữ liệu thống kê sẽ nhanh hơn, kịp thời hơn.
Giảm thiểu chi phí, nhân lực
Hiện nay, nhu cầu cung cấp thông tin của người dùng tin với thống kê chính thức ngày càng tăng lên trong khi nguồn ngân sách càng ngày càng hạn chế. Do vậy việc tối ưu hóa chi phí sản xuất là vấn đề luôn hiện hữu ở tất cả các tổ chức sản xuất thông tin thống kê chứ không riêng mỗi Cơ quan thống kê quốc gia. Thay vì thực hiện một cuộc điều tra mới để đáp ứng nhu cầu thông tin của người dùng tin, các đơn vị cung cấp số liệu có thể kết hợp dữ liệu điều tra với dữ liệu hành chính, hoặc nhiều bộ dữ liệu sẵn có để tạo ra một bộ dữ liệu mới đầy đủ hơn với thông tin mới hơn mà không cần phải thực hiện điều tra. Ưu điểm chính của tích hợp dữ liệu là nó cho phép sử dụng tốt hơn dữ liệu đã có sẵn từ đó có thể thấy đây là phương pháp mang lại hiệu quả về chi phí và nhân lực để thu thập thêm thông tin trong quá trình sản xuất thông tin thống kê
Giảm gánh nặng trả lời và giảm tỷ lệ không phản hồi
Tích hợp dữ liệu là sự kết hợp giữa hai hoặc nhiều bộ giữ liệu khác nhau để tạo ra một bộ dữ liệu mới đầy đủ hơn và cung cấp số liệu ở nhiều góc độ khác nhau. Khi dữ liệu được tích hợp và được phân tích có thể thu được nhiều thông tin về một cá nhân/tổ chức hơn những gì họ đã cung cấp. Cơ quan thống kê quốc gia có thể sử dụng số liệu đó để sử dụng cho các mục đích hợp pháp khác với mục đích ban đầu mà không phải thực hiện thêm một cuộc điều tra khác, giúp tối đa hóa việc sử dụng dữ liệu hiện có giúp giảm nhu cầu về dữ liệu khảo. Do vậy sẽ giảm bớt được gánh nặng trả lời đồng thời giảm tỷ lệ không phản hồi từ người cung cấp thông tin.
Giải quyết các vấn đề về chất lượng và sai số trong các cuộc điều tra
Sai số trong điều tra thống kê là chênh lệch giữa trị số thực của hiện tượng nghiên cứu so với trị số của nó mà điều tra thống kê thu được. Sai số này làm giảm chất lượng của các cuộc điều tra, ảnh hưởng đến kết quả của tổng hợp và phân tích. Do đó, ảnh hưởng đến chất lượng của toàn bộ quá trình nghiên cứu thống kê. Tuy nhiên, vấn đề này sẽ được khắc phục khi thực hiện thành công tích hợp dữ liệu. Tích hợp dữ liệu từ hai hay nhiều bộ dữ liệu sẵn có sẽ tạo ra số liệu thống kê mà không cần phải thực hiện điều tra truyền thống, do vậy đã giải quyết được vấn đề chất lượng và sai số trong điều tra.
Tóm tại, tích hợp dữ liệu thống kê có vai trò lớn đối với các cơ quan thống kê nói chung và các đơn vị sản xất số liệu thống kê nói chung. Tích hợp dữ liệu thống kê tốt và hiệu quả sẽ giúp cung cấp số liệu thống kê một cách đầy đủ hơn, kịp thời hơn mà vẫn đảm bảo về yếu tố chi phí và nguồn nhân lực.
Ngọc Mai (tổng hợp)
Nguồn: https://unece.org/DAM/stats/publications/2018/ECECESSTAT20186.pdf
ESCAP/CST/2018/6.
https://www.unescap.org/kp/2021/asia-pacific-guidelines-data-integration-official-statistics
UNECE, HLG- MOS (2017), A Guide to Data Integration for Official Statistics, Version 1.0
https://www-unescap-org.translate.goog/blog/celebrating-1st-anniversary-data-integration-community-practice?_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto=sc
[1] https://unece.org/DAM/stats/publications/2018/ECECESSTAT20186.pdf
[2] ESCAP/CST/2018/6.
[3] https://www.unescap.org/kp/2021/asia-pacific-guidelines-data-integration-official-statistics
[4] UNECE, HLG- MOS (2017), A Guide to Data Integration for Official Statistics, Version 1.0
[5] UNECE, HLG- MOS (2017), A Guide to Data Integration for Official Statistics, Version 1.0
[6] https://www-unescap-org.translate.goog/blog/celebrating-1st-anniversary-data-integration-community-practice?_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto=sc