Ngày nay, có rất nhiều câu trả lời có thể được tìm thấy trên web để đáp ứng mọi nhu cầu về dữ liệu. Trong khi lượng dữ liệu có sẵn đã thực sự bùng nổ, việc phổ biến thông tin không chính xác có chủ ý cũng đã tăng lên rất nhiều. Vậy làm cách nào để biết được dữ liệu nào có thể Tin cậy được?
Kỹ năng đọc phản biện dữ liệu và sử dụng nguồn phê bình được đưa ra để giúp xác định dữ liệu đáng tin cậy. Nhưng chúng có ý nghĩa gì trong thực tế và cần lưu ý điều gì khi đánh giá độ tin cậy của dữ liệu? Và làm thế nào để đánh giá trách nhiệm và tính mở của người sản xuất nguồn dữ liệu?
Câu trả lời cho điều này có thể được tìm thấy trong dịp kỷ niệm 30 năm thành lập Nguyên tắc cơ bản về thống kê chính thức của Liên hợp quốc vào năm nay. Có tổng cộng mười nguyên tắc hướng dẫn các cơ quan thống kê. Nó được hướng dẫn trong các nguyên tắc “để tạo điều kiện thuận lợi cho việc giải thích dữ liệu một cách chính xác, các cơ quan thống kê phải trình bày thông tin theo các tiêu chuẩn khoa học về nguồn, phương pháp và quy trình thống kê.”
Trong thực tế, điều này có nghĩa là thông tin chi tiết cần được cung cấp trên các số liệu thống kê về cách chúng được tổng hợp. Theo nguyên tắc này, trong nhiều thập kỷ các cơ quan thống kê đã đưa ra dữ liệu đáng tin cậy mô tả các phương pháp và nguồn dữ liệu được sử dụng. Nguyên tắc này cũng có thể được sử dụng để đánh giá độ tin cậy của các dữ liệu khác được tạo ra trong xã hội.
Mô tả tốt giúp việc sử dụng dữ liệu dễ dàng hơn
Người sản xuất dữ liệu có trách nhiệm có thể được xác định từ việc người sản xuất đính kèm mô tả phương pháp vào dữ liệu được phổ biến. Bằng cách mô tả rõ ràng, người dùng có thể đánh giá chất lượng của dữ liệu.
Chất lượng và độ tin cậy của dữ liệu bao gồm nhiều phần. Đầu tiên, phải biết dữ liệu đã được thu thập như thế nào.
Nguồn dữ liệu được lấy từ đâu và chúng được chọn như thế nào? Dữ liệu đã được tạo ra bằng cách lấy mẫu ngẫu nhiên hay là nguồn dữ liệu, ví dụ, thanh ghi dữ liệu đầy đủ không? Cũng nên biết ai là người duy trì sổ đăng ký, dữ liệu được lấy từ đó như thế nào và khi nào hoặc mẫu được thiết kế như thế nào.
Khi chúng ta biết dữ liệu đến từ đâu, chúng ta cần biết dữ liệu được biên soạn như thế nào. Dữ liệu được xử lý như thế nào và những phương pháp nào được sử dụng để thu được kết quả? Điều quan trọng là phải biết cơ sở cho các phương pháp và biện pháp đã chọn.
Nhà sản xuất dữ liệu cũng chịu trách nhiệm cung cấp thông tin về các hạn chế liên quan đến việc sử dụng dữ liệu và các sai số có thể có trong dữ liệu. Ví dụ: dữ liệu được tạo ra với một cuộc khảo sát mẫu luôn bao gồm sai số chọn mẫu và nhà sản xuất dữ liệu có trách nhiệm cung cấp cho người dùng ước tính về điều này, chẳng hạn như ở dạng biên độ sai số.
Một phần quan trọng khác của chất lượng dữ liệu là cách dữ liệu đáp ứng nhu cầu của người dùng. Người dùng nên biết cách thức và thời điểm dữ liệu được phát hành và nơi có sẵn các mô tả về việc biên soạn dữ liệu.
Kiểm tra với sự trợ giúp của danh sách xem dữ liệu có đáng tin cậy hay không
Các yêu cầu được mô tả ở trên có thể được tóm tắt như một danh sách kiểm tra. Khi lựa chọn / tìm kiếm dữ liệu trên web cho một cuộc khảo sát, luận án hoặc báo cáo, vui lòng lưu ý những điều sau:
– Ai là người sản xuất dữ liệu?
– Dữ liệu có kèm theo mô tả về các nguồn dữ liệu được sử dụng, chẳng hạn như bộ thu thập dữ liệu hoặc đăng ký không?
– Dữ liệu mô tả toàn bộ hiện tượng hay dữ liệu được thu thập từ một người trả lời ngẫu nhiên dưới dạng lấy mẫu?
– Quá trình xử lý dữ liệu có được mô tả chi tiết hơn không? Ví dụ: dữ liệu bị thiếu đã được xóa hoặc dữ liệu trùng lặp đã bị xóa chưa?
– Các mô hình Toán học hoặc các phương pháp khoa học khác đã được sử dụng trong quá trình xử lý và phân tích dữ liệu chưa?
– Dữ liệu được phân phối đến người dùng như thế nào? Các bảng, báo cáo và chỉ số đã chuẩn bị có rõ ràng và dễ sử dụng không?
Nếu bạn nhận được câu trả lời rõ ràng cho các câu hỏi trên, thì việc sử dụng dữ liệu là đáng tin cậy.
Thu Huyền (dịch)
Nguồn: https://www.stat.fi/tietotrendit/blogit/2022/how-on-earth-to-identify-reliable-data/