Giới thiệu về tích hợp dữ liệu thống kê trong thống kê chính thức
Tích hợp dữ liệu trong thống kê không phải là một chủ đề mới đối với thống kê chính thức nhưng làm thế nào để tích hợp dữ liệu thống kê một cách hiệu quả nhất thì đây vẫn là chủ đề được quan tâm ở rất nhiều Cơ quan thống kê quốc gia và các tổ chức thống kê trên thế giới. Tại báo cáo của ESCAP vào năm 2021, “Báo cáo Tiến độ SDG Châu Á và Thái Bình Dương năm 2021” đã chỉ ra có đến 80 chỉ tiêu của Mục tiêu phát triển bền vững (SDG) ở khu vực Châu Á – Thái Bình Dương không đủ số liệu để đo lường, trong đó có 39 chỉ tiêu vẫn chưa có số liệu. Hơn nữa báo cáo cũng chỉ ra rằng dữ liệu phân tách sẵn có chỉ tồn tại ở 27 chỉ tiêu[1]. Những khoảng trống dữ liệu này tạo động lực cho Cộng đồng thống kê Châu Á và Thái Bình Dương nói riêng và cộng đồng thống kê trên toàn thế giới nói chung thực hiện các bước để lấp đầy khoảng trống dữ liệu. Và tích hợp dữ liệu là một trong các bước đó.
Trong cuốn sổ tay của UNECE về “Hướng dẫn tích hợp dữ liệu để đo lường thống kê di cư” có chỉ ra rằng “chưa có thỏa thuận quốc tế nào về định nghĩa tích hợp dữ liệu trong cộng đồng thống kê. Có nhiều tính năng khác nhau có thể giúp mô tả đặc điểm về tích hợp dữ liệu, chẳng hạn như số lượng và loại hình của nguồn dữ liệu, phương pháp, tính kịp thời, gánh nặng phản hồi và mục đích của nó.”[2]
Vậy tích hợp dữ liệu thống kê là gì? Tại bài viết này sẽ tìm hiểu về “khái niệm tích hợp dữ liệu”?
Theo sổ tay “Hướng dẫn tích hợp cho Thống kê chính thức” của UNECE, tích hợp dữ liệu là hoạt động xảy ra khi có ít nhất hai nguồn dữ liệu khác nhau được kết hợp thành một tập dữ liệu. Tập dữ liệu này có thể là tập dữ liệu đã tồn tại trong hệ thống thống kê hoặc tập dữ liệu là nguồn bên ngoài (ví dụ: tập dữ liệu hành chính được lấy từ các cơ sở dữ liệu hành chính hoặc thông tin được quét trên web từ một trang web có sẵn công khai).[3]
Theo sổ tay Hướng dẫn châu Á-Thái Bình Dương về tích hợp dữ liệu cho thống kê chính thức của Escap[4] đã chỉ ra tích hợp dữ liệu là một bước con trong bước “Xử lý” của Quy trình sản xuất thông tin thống kê chung GSBPM. Tích hợp dữ liệu nằm ở giai đoạn xử lý dữ liệu đầu vào và chuẩn bị cho bước phân tích dữ liệu. Giai đoạn này bao gồm các quy trình con như tích hợp, phân loại, kiểm tra, làm sạch và biến đổi dữ liệu đầu vào để chúng có thể được phân tích và phổ biến dưới dạng đầu ra thống kê. Tích hợp dữ liệu có thể xảy ra tại bất kỳ thời điểm nào trong giai đoạn này, trước hoặc sau bất kỳ quy trình con khác. Một số trường hợp tích hợp dữ liệu cũng có thể xảy ra trong bất kỳ bước nào của quy trình nghiệp vụ thống kê. Sau khi tích hợp, tùy thuộc vào các yêu cầu bảo vệ dữ liệu, dữ liệu có thể được hủy nhận dạng, cụ thể là loại bỏ các số nhận dạng, chẳng hạn như tên và địa chỉ, để đảm bảo bảo mật của dữ liệu.
Theo Cơ quan Thống kê New Zeland, tích hợp dữ liệu là việc liên kết các bản ghi dữ liệu từ các nguồn khác nhau. Các bộ dữ liệu có thể lấy từ điều tra, dữ liệu hành chính sau đó liên kết với cơ sở dữ liệu hành chính hoặc có thể là sự kết hợp giữa các bộ dữ liệu với nhau. Liên kết có thể thực hiện theo theo thời kỳ (cross-sectional) (trong một khoảng thời gian nhất định) hoặc theo thời gian. Tích hợp dữ liệu đôi khi còn được coi là bản liên kết các bản ghi hoặc ghép dữ liệu.[5]
Theo Cơ quan Thống kê Úc (ABS) Tích hợp dữ liệu là việc kết hợp dữ liệu từ các nguồn khác nhau để tạo ra những số liệu mới như số liệu về giáo dục, sức khỏe hoặc dùng để phân tích trong thời gian dài.[6]
Như vậy, tính đến thời điểm hiện tại vẫn chưa có một khái niệm chung thống nhất nào về tích hợp dữ liệu. Nhưng từ những khái niệm đã nêu ra ở trên, có thể hiểu “tích hợp dữ liệu là sự kết hợp giữa hai hoặc nhiều bộ dữ liệu khác nhau, thông qua các phương pháp thống kê nhất định để tạo ra một bộ dữ liệu mới cung cấp được nhiều thông tin hơn.” Tích hợp dữ liệu sẽ giúp cung cấp số liệu thống kê một cách nhanh hơn, kịp thời hơn và tiết kiệm chi phí hơn so với phương pháp truyền thống.
Ngọc Mai (tổng hợp)
Nguồn:
https://www-unescap-org.translate.goog/blog/celebrating-1st-anniversary-data-integration-community-practice?_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto=sc
https://unece.org/DAM/stats/publications/2018/ECECESSTAT20186.pdf
https://statswiki.unece.org/pages/viewpage.action?pageId=169018059
https://www.unescap.org/kp/2021/asia-pacific-guidelines-data-integration-official-statistics#
https://statsnz.contentdm.oclc.org/digital/api/collection/p20045coll4/id/146/download
https://www.abs.gov.au/ausstats/abs@.nsf/Lookup/by%20Subject/1006.0~2014-15%20to%202017-18~Main%20Features~Statistical%20Data%20Integration%20Leadership~18
[1] https://www-unescap-org.translate.goog/blog/celebrating-1st-anniversary-data-integration-community-practice?_x_tr_sl=en&_x_tr_tl=vi&_x_tr_hl=vi&_x_tr_pto=sc
[2] https://unece.org/DAM/stats/publications/2018/ECECESSTAT20186.pdf
[3] https://statswiki.unece.org/pages/viewpage.action?pageId=169018059
[4] https://www.unescap.org/kp/2021/asia-pacific-guidelines-data-integration-official-statistics#
[5] file:///C:/Users/Admin/Downloads/p20045coll4_146%20(2).pdf
[6] https://www.abs.gov.au/ausstats/abs@.nsf/Lookup/by%20Subject/1006.0~2014-15%20to%202017-18~Main%20Features~Statistical%20Data%20Integration%20Leadership~18