Khi nào có đủ dữ liệu để tạo ra thống kê toàn cầu?

Trái đất vào ban đêm. Hình ảnh: Dima Zel / Shutterstock.com

Khi mở một tờ báo và rất có thể bạn sẽ tìm thấy một số thống kê đề cập đến cách thế giới đang vận động: “Tăng trưởng toàn cầu được dự báo sẽ phục hồi”, “số lượng người tị nạn trên toàn thế giới dự kiến ​​sẽ tăng trong năm thứ ba liên tiếp”, “lượng khí thải CO2 toàn cầu đang đạt mức cao nhất mọi thời đại. “Nhu cầu về số liệu thống kê toàn cầu có lẽ được thể hiện tốt nhất trong các Mục tiêu Phát triển Bền vững, mà 231 chỉ tiêu phần lớn có thể và được tổng hợp ở cấp độ toàn cầu.

Có rất ít dữ liệu toàn cầu đầy đủ đằng sau số liệu thống kê như vậy. Một số quốc gia đã không cung cấp thông tin về các chỉ số quan tâm do thiếu nguồn lực. Khi tạo thống kê toàn cầu, các ước tính cho các quốc gia này hoặc được áp dụng hoặc bị bỏ qua.

Điều này chắc chắn tạo ra sự đánh đổi giữa tính sẵn có của các số liệu thống kê toàn cầu và độ chính xác của các số liệu thống kê này. Nếu số liệu thống kê toàn cầu chỉ được công bố khi dữ liệu có sẵn hoặc gần như có sẵn trên toàn cầu, thì sẽ có nhiều chủ đề quan trọng vẫn chưa được đề cập. Nếu số liệu thống kê toàn cầu được công bố ngay cả khi mức độ bao phủ của dữ liệu yếu, thì tính chính xác của số liệu thống kê có thể bị nghi ngờ  vì chúng có thể sai lệch nếu tất cả dữ liệu đều có sẵn.

Trong một Tài liệu Nghiên cứu Chính sách mới, chúng tôi sử dụng các chỉ tiêu phát triển thế giới để định lượng sự đánh đổi này. Chúng tôi chọn 165 chỉ tiêu bao gồm  nhiều chủ đề mà dữ liệu có sẵn cho ít nhất 99% dân số thế giới. Đối với 165 chỉ tiêu này, chúng tôi bỏ ngẫu nhiên một tập hợp con của dữ liệu, tính toán giá trị trung bình toàn cầu mới và so sánh với giá trị trung bình khi tất cả dữ liệu được sử dụng. Điều này cung cấp cho chúng tôi một ước tính về sai số khi chỉ một phần nhỏ dân số toàn cầu có dữ liệu. Bằng cách lặp lại bài tập này hơn 10 triệu lần với các chỉ tiêu khác nhau và xác suất thiếu khác nhau, chúng ta có thể tính toán sai số dự kiến ​​dưới dạng một hàm của mức độ bao phủ dân số.

Để so sánh các chỉ số theo các đơn vị khác nhau, chúng tôi chuẩn hóa tất cả các biến để có giá trị trung bình là 0 và phương sai 1. Điều này cho phép chúng tôi biểu thị sai số dưới dạng độ lệch chuẩn so với giá trị trung bình. Vì hầu hết các nhà sản xuất dữ liệu có thể không quen nghĩ chỉ tiêu của họ theo độ lệch chuẩn so với giá trị trung bình, bảng dưới đây cho thấy một là độ lệch chuẩn ngụ ý cho năm chỉ tiêu. Nếu một là độ lệch chuẩn so với giá trị trung bình thực khi tạo một thống kê toàn cầu, thì có thể làm giảm tuổi thọ 7 năm, tăng trưởng toàn cầu giảm 3 điểm phần trăm và tỷ lệ sử dụng ít nhất các dịch vụ vệ sinh cơ bản giảm 24 điểm phần trăm. Ngay cả khi những chỉ tiêu này bị cắt đi còn 1/4, và một sai số lệch chuẩn là 0,25 so với sự thật, chúng vẫn đại diện cho sai số lớn.

Ví dụ về một độ lệch chuẩn cho các chỉ tiêu đã chọn cho những năm cụ thể

Hình dưới đây cho thấy kết quả mô phỏng. Sai số dự kiến ​​sẽ tăng tuyến tính với tỷ lệ dân số không có dữ liệu. Sự phù hợp tuyến tính gợi ý rằng nếu tỷ lệ dân số trên thế giới thiếu dữ liệu là x, thì người ta sẽ mong đợi độ lệch chuẩn 0,37 * x so với giá trị trung bình thực, với giới hạn trên của ước tính này là khoảng x độ lệch chuẩn so với giá trị trung bình thực. Ngược lại, nếu một người sẵn sàng chấp nhận độ lệch chuẩn của y so với giá trị trung bình thực, thì người đó có thể chấp nhận sự thiếu sót đối với y * 2,7 (= y * 1 / 0,37) của dân số toàn cầu. Khoảng tin cậy rộng phản ánh rằng khi người ta chỉ có dữ liệu cho một số dân số, người ta có thể may mắn nhận được ý đúng, hoặc ngược lại.

Mối quan hệ giữa mức độ bao phủ và độ chính xác của dữ liệu toàn cầu

Tỷ lệ dân số toàn cầu với dữ liệu

Trong các kết quả khác, cho thấy những sai sót này thay đổi như thế nào (i) nếu một người quan tâm đến thống kê khu vực, (ii) nếu dữ liệu được đưa ra, (iii) nếu xác suất thiếu dữ liệu có tương quan với chỉ số quan tâm, (iv) nếu một bên sử dụng tỷ lệ các quốc gia thay vì tỷ lệ dân số làm ngưỡng bao phủ và (v) nếu một bên có các yêu cầu cụ thể về tỷ lệ bao phủ đối với các quốc gia đông dân, chẳng hạn như Ấn Độ.


Tôi sẵn sàng chịu những lỗi lớn như thế nào?
Kết luận, chúng tôi đưa ra một số lời khuyên về cách quyết định khi có đủ dữ liệu để tạo thống kê toàn cầu. Điều quan trọng nhất cần lưu ý là không có một ngưỡng duy nhất nào có thể hướng dẫn thời điểm công bố số liệu thống kê toàn cầu hay không. Quyết định sẽ phụ thuộc vào bối cảnh. Đặc biệt, chúng tôi nghĩ rằng nhà sản xuất dữ liệu nên tự hỏi họ những câu hỏi sau:

  • Dữ liệu bị thiếu trong các chỉ số quan tâm của tôi có mức độ lan tỏa như thế nào?
  • Xác suất một quốc gia không có dữ liệu có tương quan với chỉ số quan tâm không?
  • (Nếu sản xuất chuỗi thời gian) Số liệu thống kê toàn cầu thay đổi bao nhiêu từ năm này sang năm khác và các quốc gia giống nhau có nhất quán bị thiếu giá trị không?
  • (Nếu dữ liệu bị thiếu được xác nhận) Tôi tự tin đến mức nào về độ chính xác của các hàm ý?
  • (Nếu tạo ra số liệu thống kê dưới toàn cục) Các nhóm lớn như thế nào và mức độ biến động xảy ra giữa các nhóm con hơn là trong các nhóm con?

Đánh giá từ bảng so sánh độ lệch chuẩn với các đơn vị ban đầu, chúng tôi nhận định (chủ quan) sai số không bao giờ được kỳ vọng vượt quá 0,25 độ lệch chuẩn. Ngay cả trong những trường hợp không khả quan được trình bày trong bài viết, điều này gần tương ứng với việc không công bố số liệu thống kê khi có sẵn dữ liệu cho ít hơn một nửa dân số liên quan.

Bàn Hường (lược dịch)
Nguồn: https://rb.gy/elo2je