Sai! Báo cáo sai số thống kê

Trên website (significancemagazine.org) có đăng bài của tác giả Mark Fransham bình luận về Báo cáo của BBC về tình trạng thất nghiệp của Anh liên quan đến sai số thống kê. Và cũng có những ý kiến bình luận về bài viết của Mark Fransham. Có ý kiến cho rằng Cơ quan Thống kê Quốc gia (ONS) cần phổ biến hiệu quả những khái niệm thống kê cơ bản và thông tin về chúng, có ý kiến về việc tăng quy mô mẫu của điều tra lực lượng lao động (LFS) để giảm sai số mẫu, tuy nhiên vấn đề này lại liên quan đến kinh phí điều tra mà ONS không có, và những ý kiến bình luận khác. Dưới đây là nội dung bài viết của Mark Fransham.

BBC báo cáo rằng “số lượng người mất việc giảm 50.000, lên đến 2,53 triệu người trong ba tháng đến tháng 8”. Điều đó có thể như một sự thay đổi nhỏ số liệu ước tính từ một cuộc điều tra mẫu, do đó, phân vân về ý nghĩa thống kê của phát hiện này tôi đã tìm trên website của ONS. Thật vậy, nói rằng “đã có 2,53 triệu người thất nghiệp, giảm 50.000 người từ tháng 3 đến tháng 5 năm 2012 và một năm trước đó.”

Tiêu đề báo cáo không chứa thông tin bất kỳ về sai số mẫu liên quan đến nguồn gốc số liệu ước tính này từ điều tra lực lượng lao động , nhưng một trong số các bảng biểu, tôi thấy rằng sự thay đổi hàng quý là -50.000 ± 89.000. Đối với tôi điều này giống như một sự thay đổi không có ý nghĩa thống kê, từ đó tôi sẽ suy ra rằng chúng ta không thể chắc chắn liệu thất nghiệp đã tăng lên, giảm đi, hay giữ ổn định. Đây không phải là câu chuyện của ONS đã báo cáo, tuy nhiên, không có sắc thái liên quan cuộc tranh luận các vấn đề của Thủ tướng Chính phủ, nơi chính phủ cũng như phe đối lập đã trích dẫn giảm 50.000 lao động với sự chắc chắn tuyệt đối.

Hóa ra là các dãy số thất nghiệp theo thời gian rất nhiễu, do sự thay đổi hàng quý hiếm khi lớn hơn sai số mẫu. Thực tế quan trọng này không rõ ràng với tôi cho đến khi tôi tham gia vào một cuộc trò chuyện email với nhóm thị trường lao động ONS, do đó, tôi chắc chắn rằng nó cũng không rõ ràng đối với các chính trị gia của chúng ta. Điều hữu ích để một xem xét thực tế quan trọng như vậy phải được truyền đạt trong các tiêu đề của báo cáo đó. Nó có thể làm cho tiêu đề khó truyền đạt hơn, nhưng sẽ cảnh cáo người sử dụng không nên quá lo lắng bởi những thay đổi nhỏ. Nó cũng sẽ góp phần quan trọng để nâng cao  mức độ hiểu biết về kiến thức thống kê trong cuộc tranh luận công.

Đây là một thú giải trí của các nhà thống kê và “cộng đồng số” rộng hơn đối với sự phàn nàn về những sai lầm thống kê của các chính trị gia và phương tiện truyền thông. Chương trình phát thanh BBC “ít nhiều” đã có đủ các ví dụ giải trí. Tuy nhiên, nhà sản xuất số liệu thống kê có vai trò quan trọng trong việc nâng cao hiểu biết về thống kê, một vai trò mà đôi khi bị lãng quên. Với các lý do khác nhau – muốn được cung cấp những câu trả lời rõ ràng, hoặc tin rằng các ý tưởng thống kê quá phức tạp để truyền tải – các khái niệm cơ bản như nguồn gốc, sự hiện hữu, nguồn và quy mô của sai số mẫu đôi khi được che đậy. Các nhà thống kê nên tự tin vào kiến thức của họ và sẵn sàng để truyền đạt những ý tưởng này.

Vậy tại sao là ONS lại báo cáo việc giảm về tỷ lệ thất nghiệp là không ý nghĩa thống kê? Vâng, hóa ra suy luận ban đầu của tôi – chúng ta không biết những gì đã xảy ra với tỷ lệ thất nghiệp – là sai. Có thể. Đây là sự cố gắng của tôi giải thích cách tiếp cận ONS. Ước lượng điểm cho sự thay đổi về thất nghiệp là -50.000 người, với khoảng tin cậy 95% từ (-139.000) đến (+39.000) người. Do phần lớn hơn của khoảng tin cậy nằm dưới 0, hơn là trên 0, nên chúng ta có thể suy ra rằng thất nghiệp có nhiều khả năng giảm hơn là tăng (bạn có thể kiểm tra phiên bản chính thức của giải thích này theo đường dẫn: http://www.statistics.gov.uk/hub/labour-market/people-in-work/employment/index.html – chọn ‘Technical Data’).

Điều này không hoàn toàn thuyết phục tôi, rõ ràng đã phản ánh sự thiếu hụt trong hiểu biết của tôi. Trong bất kỳ trường hợp nào, cách mà ONS giải thích những thay đổi không có ý nghĩa thống kê trong dãy số thời gian quan trọng là không rõ ràng với tôi từ báo cáo của họ. Tôi nghĩ có hàng trăm người sử dụng số liệu LFS và các số liệu thống kê khác sẽ tự hỏi phải làm gì với những thay đổi không có ý nghĩa thống kê trong dãy số thời gian của họ. Tôi luôn bỏ qua những thay đổi đó, và có lẽ làm như vậy tôi đã sai. Bất cứ  cách tuyên truyền phổ biến các phương pháp nào của họ, ONS có cơ hội nâng cao kiến thức thống kê và giải thích số liệu thống kê chính thức. Cơ hội mà tôi hy vọng họ sẽ nắm lấy.

NTH
Nguồn: http://www.significancemagazine.org