Các nhà nghiên cứu đề xuất các tiêu chuẩn mới để khắc phục những sai sót thống kê

Một bài báo mới trên Tạp chí điều tra thống kê và phương pháp chỉ ra các phương pháp mà các nhà nghiên cứu sử dụng để báo cáo về phân tích dữ liệu điều tra có sự khác nhau và thường có sai sót. Các ấn phẩm chứa những phân tích không chính xác có thể cung cấp thông tin sai lệch cho các nhà hoạch định chính sách, nhà nghiên cứu. Các nhà nghiên cứu đã đề xuất các tiêu chuẩn mới để cải thiện việc báo cáo các phân tích sử dụng dữ liệu điều tra chọn mẫu phức tạp.

Trong nhiều thập kỷ, các nhà nghiên cứu đã ghi nhận các vấn đề về phương pháp luận và lỗi phân tích phổ biến trong các bài báo sử dụng dữ liệu điều tra chọn mẫu phức tạp về dân số. Các cuộc điều tra này sử dụng các tính năng thiết kế chọn mẫu, khi được sử dụng phù hợp có thể tạo ra các ước tính khách quan về tổng thể. Ví dụ: việc chọn mẫu sử dụng tính năng thiết kế sẽ cải thiện hiệu quả thống kê, giảm chi phí và tăng kích thước mẫu của các tổng thể không được đại diện. Tuy nhiên, các mẫu phức tạp khác với các mẫu ngẫu nhiên đơn giản. Điều này có ý nghĩa quan trọng đối với việc phân tích và báo cáo kết quả.

Thông thường, hầu hết các phần mềm thống kê đều cho rằng dữ liệu đến từ các mẫu ngẫu nhiên đơn giản. Nhưng không phải tất cả dữ liệu khảo sát đều được thu thập bằng một mẫu ngẫu nhiên đơn giản. Do đó, các nhà điều tra cần sử dụng các quy trình trong phần mềm chính xác để tính đến các đặc điểm thiết kế mẫu phức tạp khi phân tích dữ liệu đó. Việc không tính đến các tính năng thiết kế phức tạp có thể dẫn đến các ước tính sai lệch và diễn giải không chính xác.

Một bài báo năm 2016 đã phân tích dữ liệu từ Hệ thống dữ liệu thống kê của các nhà khoa học và kỹ sư và nhận thấy rằng chỉ có 7,6% tính toán chính xác việc chọn mẫu trong ước tính phương sai. Cũng bài báo đó cho thấy hơn một nửa (54,5%) bài báo chiếm đúng quyền số chọn mẫu trong các phân tích và chỉ 10,7% bài báo sử dụng ước tính nhóm dân số thích hợp. Một đánh giá riêng về các ấn phẩm phân tích dữ liệu từ mẫu bệnh nhân nội trú quốc gia cho thấy khoảng 80% bài báo không tính đến sự phân cụm và phân tầng của mẫu. Một phân tích khác cho thấy rằng chưa đến một nửa số bài báo phân tích dữ liệu từ điều tra người thụ hưởng hiện tại của Medicare đã đưa ra ước tính quyền số hoặc phương sai phù hợp.

Các nhà nghiên cứu đề xuất một danh sách kiểm tra được chia thành từng mục để hướng dẫn các nhà nghiên cứu xuất bản các phân tích sử dụng dữ liệu điều tra chọn mẫu phức tạp. Danh sách kiểm tra, được gọi là Mục báo cáo ưu tiên cho phân tích khảo sát mẫu phức tạp (PRICSSA), bao gồm 17 mục quan trọng cần báo cáo cho bất kỳ phân tích nào được thực hiện trên dữ liệu khảo sát phức tạp, bao gồm kích thước mẫu cho tất cả các ước tính, tỷ lệ dữ liệu bị thiếu và phương pháp quy nạp, thông tin về bất kỳ dữ liệu nào bị xóa và giải thích về trọng số khảo sát và ước tính phương sai. Ngoài danh sách kiểm tra, các nhà điều tra đề xuất các nhà nghiên cứu sử dụng dữ liệu điều tra phức tạp cung cấp tất cả các mã phần mềm tương ứng.

Các tác giả tin rằng những cải cách như vậy có thể làm tăng đáng kể tính minh bạch và giúp dễ dàng phát hiện ra những sai lầm trong phân tích. Ngược lại, điều này sẽ khiến các học giả hoặc các nhà nghiên cứu khác ít có khả năng thực hiện chúng hơn. Các nhà nghiên cứu nhấn mạnh rằng họ đã lập mô hình danh sách kiểm tra của mình sau các danh sách kiểm tra khác, ví dụ như danh sách kiểm tra PRISMA, được sử dụng rộng rãi để đánh giá hệ thống và phân tích tổng hợp, cũng như hướng dẫn CONSORT, là tiêu chuẩn trong các thử nghiệm ngẫu nhiên.

Các học giả và tổ chức đã đầu tư nguồn lực to lớn vào thiết kế khảo sát và thu thập dữ liệu để cố gắng đưa ra ước tính dân số chính xác. Việc phân tích dữ liệu đó một cách chính xác đòi hỏi các nhà nghiên cứu phải kết hợp một số tính năng thiết kế khảo sát phức tạp nhất định vào công việc của họ. Các tác giả của bài báo này muốn đảm bảo rằng các kết quả được báo cáo trong các ấn phẩm được bình duyệt không gây hiểu lầm cho các nhà hoạch định chính sách, các học viên và nhà nghiên cứu. Họ lập luận rằng danh sách kiểm tra được đề xuất của họ có khả năng tăng tính chính xác và khả năng tái tạo bằng cách cải thiện chất lượng phân tích và tăng tính minh bạch.

Andrew Seidenberg, tác giả chính của bài báo cho biết: “Đó là một vấn đề khi các bài báo được xuất bản và các phân tích được thực hiện không chính xác hoặc không thể sao chép được. “Chúng tôi đã tạo danh sách kiểm tra này để giúp ngăn chặn điều đó xảy ra.”

Phạm Hạnh (dịch)

Nguồn: https://phys.org/news/2023-04-standards-wrong-statistics.html