Bảy sai lầm chết người khi hiểu sai về thống kê và cách tránh chúng

Đâu là các biểu đồ sai?

Thống kê là một công cụ hữu ích để tìm hiểu về các mô hình trong thế giới xung quanh chúng ta. Nhưng sự hiểu biết bằng trực giác thường khiến chúng ta dễ dãi hơn khi giải thích những mô hình đó. Trong bài viết này, chúng tôi sẽ chỉ ra một số sai lầm phổ biến thường mắc phải và cách tránh chúng khi đề cập đến số liệu thống kê, xác suất và rủi ro.

1. Giả sử những khác biệt nhỏ là có ý nghĩa

Các biến động hàng ngày trên thị trường chứng khoán biểu thị cho cơ hội, may rủi hơn là một điều gì đó có ý nghĩa. Sự khác biệt trong các cuộc thăm dò ý kiến khi một bên (mã cổ phiếu) vượt lên một hoặc hai điểm thường chỉ là thông tin nhiễu trong thống kê.

Bạn có thể tránh đưa ra các kết luận sai lầm về nguyên nhân của các biến động, bằng cách yêu cầu được xem “phạm vi sai số” liên quan đến các số liệu.

Nếu những khác biệt nhỏ hơn phạm vi sai số, đó là sự khác biệt không có ý nghĩa, và sự biến thiên có thể chỉ là các biến động ngẫu nhiên.

2. Ý nghĩa thống kê tương đương với ý nghĩa thực tế

Chúng ta thường khái quát hóa về sự khác biệt giữa hai nhóm như thế nào, chẳng hạn như thể lực phụ nữ thường yếu hơn so với nam giới.

Những khác biệt này thường dựa trên những định kiến và kinh nghiệm dân gian, nhưng lại bỏ qua sự tương đồng của những người giữa hai nhóm, và những khác biệt của những người trong cùng một nhóm.

Nếu bạn chọn ngẫu nhiên hai người đàn ông, có thể có khá nhiều khác sự biệt giữa họ về mặt thể lực. Nếu bạn chọn một người đàn ông và một phụ nữ, có thể hai người được nuôi dưỡng tương tự nhau, hoặc có thể người đàn ông được nuôi dưỡng tốt hơn người phụ nữ.

Hình 1: Các biểu đồ sai số minh họa mức độ không chắc chắn trong một điểm. Khi phạm vi sai số trùng nhau, sự khác biệt có thể là do thông tin nhiễu trong thống kê.

Bạn có thể tránh được lỗi này bằng cách hỏi về “hệ số ảnh hưởng” của những sự khác biệt giữa các nhóm. Đây là công cụ đo lường sự khác nhau về mức độ trung bình giữa hai nhóm.

Nếu hệ số ảnh hưởng nhỏ, thì có thể đưa ra kết luận là hai nhóm khá tương đồng. Ngay cả khi hệ số ảnh hưởng lớn, vẫn có nhiều cá thể tương đồng giữa hai nhóm, không phải tất cả thành viên của nhóm này đều sẽ khác biệt với tất cả thành viên của nhóm khác.

3. Không chú ý đến các điểm cực trị

Mặt khác, hệ số ảnh hưởng có liên quan khi bạn tập trung vào “phân phối chuẩn” (còn được gọi là “đường cong hình chuông”). Đây là vùng mà hầu hết mọi giá trị đều ở gần điểm trung bình và chỉ có một nhóm nhỏ nằm ở trên hoặc dưới mức trung bình.

Khi điều này xảy ra, một thay đổi nhỏ trong hoạt động của nhóm tạo ra sự bất thường, không có ảnh hưởng đến nhóm người ở mức trung bình (xem hình 2) nhưng lại tác động đến các giá trị ở những điểm cực trị rất lớn.

Chúng ta có thể tránh lỗi này bằng cách nhìn lại việc chúng ta có xem xét các điểm cực trị hay không. Khi bạn chỉ quan tâm đến nhóm người ở mức trung bình, sự khác biệt nhóm nhỏ thường không thành vấn đề. Khi bạn quan tâm đến các điểm cực trị, sự khác biệt nhóm nhỏ có thể trở nên rất quan trọng.

Hình 2: Trong hai tổng thể phân phối chuẩn, sự khác biệt giữa chúng sẽ rõ ràng hơn ở những điểm cực trị so với điểm trung bình.

4. Tin vào sự trùng hợp ngẫu nhiên

Bạn có biết rằng có sự tương quan giữa số người bị chết đuối mỗi năm tại Hoa Kỳ do ngã vào bể bơi và số lượng phim mà Nicholas Cage xuất hiện?

Nếu bạn đủ kiến thức bạn có thể tìm ra sự thú vị của mô hình về mối tương quan này, thực ra chỉ đơn thuần là do sự trùng hợp ngẫu nhiên.

Điều này xảy ra khi hai hiện tượng diễn ra cùng thời điểm, hoặc trong cùng một mô hình tương đồng nhau, không có nghĩa là chúng có liên quan đến nhau.

Tránh lỗi này bằng cách tìm hiểu mức độ liên kết quan sát được giữa các vấn đề có đáng tin cậy hay không. Nó chỉ xảy ra một lần hay diễn ra nhiều lần? Các mối liên hệ có thể dự đoán được trong tương lai không? Nếu bạn nhận thấy nó chỉ xảy ra một lần duy nhất, thì đó là sự tình cờ ngẫu nhiên.

Hình 3: Có tồn tại mối liên hệ nhân quả?

5. Xem xét ngược lại các nguyên nhân

Khi hai sự việc tương quan với nhau – ví dụ, các vấn đề về tình trạng thất nghiệp và bệnh tâm thần – có thể khiến chúng ta liên tưởng đến lối suy nghĩ nhân quả “hiển nhiên” là – hậu quả của bệnh tâm thần chính là tình trạng thất nghiệp.

Nhưng đôi khi mối quan hệ nhân quả xảy ra theo một cách khác, chẳng hạn như tình trạng thất nghiệp mới dẫn đến các vấn đề về sức khoẻ tâm thần.

Bạn có thể tránh được lỗi này bằng cách nhớ suy nghĩ về hướng ngược lại trong mối quan hệ nhân quả, khi bạn thấy một mối liên hệ xảy ra. Liệu ảnh hưởng có đi theo hướng khác không? Hoặc chúng có tác động lẫn nhau, tạo ra một vòng lặp thông tin phản hồi?

6. Bỏ quên việc đánh giá các nguyên nhân bên ngoài

Mọi người thường bỏ qua không đánh giá “các yếu tố thứ ba” hoặc các nguyên nhân bên ngoài có thể xảy ra tạo ra mối liên hệ giữa hai vấn đề mặc dù thực chất cả hai đều là kết quả của yếu tố thứ ba.

Ví dụ, có thể tồn tại mối liên hệ giữa việc ăn ở nhà hàng và sức khỏe tim mạch tốt hơn. Điều đó sẽ khiến bạn tin rằng có một sự liên hệ giữa hai sự việc này.

Tuy nhiên, có thể nghĩ ngay rằng những người có khả năng ăn ở nhà hàng đều đặn là những người nằm trong nhóm có điều kiện kinh tế cao, và họ cũng có điều kiện để chăm sóc sức khoẻ tốt hơn, trong đó bao gồm cả việc chú ý đến sức khỏe tim mạch nhiều hơn.

Bạn có thể tránh được lỗi này bằng cách nhớ hãy suy nghĩ về tác động của các yếu tố thứ ba khi nhìn nhận về một mối tương quan nào đấy. Nếu bạn quan tâm đến một vấn đề như là một nguyên nhân có thể xảy ra, hãy tự hỏi mình “cái gì, trong hoàn cảnh nào, gây ra điều đó? Có phải yếu tố thứ ba có thể cùng gây ra cả hai kết quả quan sát được không?”.

7. Biểu đồ dễ gây ra sự nhầm lẫn

Rất nhiều mối nguy hại xảy ra trong việc chia giá trị/tỷ lệ và ghi nhãn ở trục tung đồ thị. Việc ghi nhãn chỉ ra phạm vi đầy đủ ý nghĩa của bất cứ điều gì bạn đang nghiên cứu.

Nhưng đôi khi người tạo ra đồ thị lựa chọn một phạm vi hẹp hơn, nhằm tạo sự khác biệt nhỏ hoặc làm rõ sự liên hệ hiệu quả hơn. Trên thang đo từ 0 đến 100, hai cột có thể có cùng chiều cao. Nhưng nếu bạn sử dụng đồ thị có nguồn dữ liệu tương tự nhưng vùng chỉ hiển thị từ 52.5 đến 56.5, chúng có thể trông hoàn toàn khác biệt.

Hình 4: Các đồ thị cho thấy sự khác nhau nhiều hay ít phụ thuộc vào việc chia tỷ lệ

Bạn có thể tránh được lỗi này bằng cách chú ý phần nhãn ghi dọc theo các trục của biểu đồ. Hãy hoài nghi về bất cứ đồ thị nào không ghi nhãn.

Nhung Phạm (dịch)

Nguồn: https://phys.org/news/2017-03-deadly-statistical-misinterpretation.html

Phân tích thống kê
Comments (0)
Add Comment