Trong năm 2020, số liệu thống kê đã trở nên quan trọng bất thường trong các tin tức. Độ chính xác của thử nghiệm vacxin COVID-19 mà bạn hoặc những người khác đang sử dụng? Làm thế nào để các nhà nghiên cứu biết được hiệu quả của phương pháp điều trị mới cho bệnh nhân COVID-19? Làm thế nào các cơ quan truyền thông có thể dự đoán kết quả bầu cử trước khi tất cả các lá phiếu được đếm?
Mỗi câu hỏi này đều liên quan đến một số không chắc chắn, nhưng vẫn có thể đưa ra dự báo chính xác miễn là hiểu được sự không chắc chắn đó. Một công cụ mà các nhà thống kê sử dụng để định lượng sự không chắc chắn đó được gọi là “phạm vi sai số”.
Dữ liệu hạn chế
Tôi là một nhà thống kê, và một phần công việc của tôi là đưa ra các suy luận và dự báo. Nếu thời gian và kinh phí không bị giới hạn, chúng có thể chỉ cần kiểm tra hoặc khảo sát toàn bộ nhóm người mà chúng ta quan tâm để đánh giá câu hỏi và tìm ra câu trả lời chính xác. Ví dụ: để tìm ra tỷ lệ nhiễm COVID-19 ở Hoa Kỳ, tôi chỉ cần kiểm tra toàn bộ dân số Hoa Kỳ. Tuy nhiên, trong thực tế, chúng ta không bao giờ có thể tiếp cận được 100% dân số.
Thay vào đó, các nhà thống kê lấy mẫu một phần nhỏ dân số và xây dựng một mô hình để đưa ra dự báo. Sử dụng lý thuyết thống kê, kết quả từ mẫu được ngoại suy để đại diện cho toàn bộ dân số (tổng thể).
Tốt nhất, một mẫu khảo sát tốt phải đại diện cho tổng thể, bao gồm đủ giới tính, đa dạng chủng tộc, đa dạng thành phần kinh tế xã hội, lối sống và các thước đo nhân khẩu học khác. Cỡ mẫu càng lớn thì càng giống với tổng thể thực tế, và các nhà thống kê sẽ càng tự tin hơn vào dự báo của họ. Nhưng vẫn luôn tồn tại một số điều không chắc chắn.
Định lượng sự không chắc chắn
Lấy ví dụ về phát triển thuốc. Luôn luôn đúng khi dự báo rằng một loại thuốc mới sẽ có hiệu quả từ 0% đến 100% đối với tất cả mọi người trên trái đất. Nhưng đó không phải là một dự đoán hữu ích. Nhiệm vụ của một nhà thống kê là thu hẹp phạm vi đó thành một giá trị hữu ích hơn. Các nhà thống kê thường gọi phạm vi này là khoảng tin cậy và nó là phạm vi dự báo, trong đó các nhà thống kê rất tin tưởng rằng con số này sẽ đúng trong thực tế.
Nếu một loại thuốc được thử nghiệm trên 10 người, và 7 người trong số họ thấy có hiệu quả, thì hiệu quả ước tính của thuốc là 70%. Nhưng vì mục tiêu là dự đoán hiệu quả trên tổng thể, các nhà thống kê cần tính đến độ không chắc chắn vì chỉ thử nghiệm trên 10 người.
Khoảng tin cậy được tính bằng công thức toán học bao gồm cỡ mẫu, phạm vi phản hồi và quy luật xác suất. Trong ví dụ này, khoảng tin cậy sẽ là từ 42% đến 98% – khoảng 56 điểm phần trăm. Sau khi thử nghiệm chỉ với 10 người, bạn có thể nói với độ tin cậy cao rằng loại thuốc này có hiệu quả với khoảng 42% đến 98% người trong toàn bộ tổng thể.
Nếu bạn chia khoảng tin cậy làm đôi, bạn sẽ nhận được sai số – trong trường hợp này là 28%. Phạm vi sai số càng lớn thì dự báo càng kém chính xác. Phạm vi sai số càng nhỏ thì dự báo càng chính xác. Phạm vi sai số gần 30% vẫn là một phạm vi khá rộng.
Tuy nhiên, hãy tưởng tượng rằng các nhà nghiên cứu đã thử nghiệm loại thuốc mới này trên 1.000 người thay vì 10 người và nó có hiệu quả ở 700 người trong số họ. Hiệu quả ước tính của thuốc vẫn đạt khoảng 70%, tuy nhiên dự đoán này chính xác hơn nhiều. Khoảng tin cậy cho mẫu lớn hơn sẽ nằm trong khoảng từ 67% đến 73% với sai số là 3%. Bạn có thể nói loại thuốc này dự kiến sẽ có hiệu quả 70%, cộng hoặc trừ 3%, cho toàn bộ tổng thể.
Các nhà thống kê rất muốn có thể dự đoán chính xác 100% sự thành công hay thất bại của một loại thuốc mới hoặc kết quả chính xác của một cuộc bầu cử. Tuy nhiên, điều này là không thể. Luôn có một số không chắc chắn, và phạm vi sai số là yếu tố định lượng sự không chắc chắn đó; nó phải được cân nhắc khi nhìn vào kết quả. Đặc biệt, phạm vi sai số xác định phạm vi dự đoán trong đó các nhà thống kê rất tin tưởng rằng con số thực sẽ được tìm thấy. Sai số có thể chấp nhận được là một vấn đề được đánh giá dựa trên mức độ chính xác cần thiết trong các kết luận được rút ra.
Lan Phương (dịch)
Nguồn: https://phys.org/news/2021-01-margin-error-statistical-tool-vaccine.html