10 quy tắc đơn giản để sử dụng thống kê hiệu quả

Dưới áp lực ngày càng tăng để báo cáo kết quả chính xác như giải thích được khối lượng dữ liệu ngày càng lớn hơn, các nhà nghiên cứu đang nhận thấy điều này quan trọng hơn bao giờ hết và là điều kiện tốt để thực hành thống kê.

Vì lý do đó, một nhóm các nhà thống kê bao gồm Robert E. Kass của Đại học Carnegie Mellon  đã viết “Mười quy tắc đơn giản để thực hành thống kê hiệu quả”. Công bố các loạt bài trên tạp chí PLOS Computational Biology “Mười quy tắc đơn giản”, hướng dẫn này được thiết kế để giúp các cộng đồng nghiên cứu – đặc biệt là các nhà khoa học không phải là chuyên gia thống kê hoặc không có một nhà thống kê chuyên sâu trong nhóm nghiên cứu của họ – hiểu được cách tránh những cạm bẫy về những dự định họ thực hiện, nhưng suy luận thống kê không chính xác.

“Một nhiệm vụ trọng tâm và phổ biến đối với chúng tôi cũng như các nhà điều tra nghiên cứu là giải mã xem những dữ liệu có thể nói gì về những vấn đề mà chúng tôi đang cố gắng để giải quyết “, Kass – một giáo sư về khoa học thống kê và khoa học máy móc và tạm thời đang là đồng giám đốc của Trung tâm Cơ sở thần kinh của nhận thức, và các đồng tác giả đã viết. “Thống kê là một ngôn ngữ được xây dựng để hỗ trợ quá trình này, với xác suất  như ngữ pháp của nó.”

“Trong khi cuộc hội thoại thô sơ là có thể mà không thông thạo ngôn ngữ (và được tiến hành thường xuyên), phân tích thống kê có nguyên tắc rất quan trọng  liên quan chặt chẽ với nhiều hiện tượng tinh tế để đảm bảo rằng không có gì nghiêm trọng sẽ bị mất trong bản dịch và làm tăng khả năng  những kết quả nghiên cứu sẽ đứng vững trước thử thách của thời gian”.

Các quy tắc được công khai trên mạng ngày 9 tháng 6 đã nhận được một lượng chú ý đặc biệt  với hơn 37.000 lượt xem, đã khiến nó nằm  trong top 20 bài được xem nhiều nhất trong loạt bài bao gồm khoảng 60 bài. Sự nổi tiếng của họ không hề làm cho Michael J. Tarr, trưởng Khoa Tâm lý học của Đại học Carnegie Mellon bất ngờ.

“Các môn khoa học, đặc biệt là các lĩnh vực về tâm lý học và thần kinh học, trong những năm gần đây đã phải chịu sự giám sát kỹ lưỡng do những ứng dụng thống kê nghèo nàn” Tarr nói. “Những hướng dẫn đơn giản và dễ hiểu mà Kass và các đồng nghiệp đã trình bày sẽ giúp rất nhiều trong việc nhắc nhở cả sinh viên và giảng viên về tầm quan trọng của nghiên cứu thống kê có căn cứ. Bài báo của họ là một ấn phẩm “phải đọc” ngay lập tức đối với bất cứ ai quan tâm đến  khoa học và tái sản xuất”.

Một bản tóm tắt của 10 quy tắc:

1. Phương pháp thống kê không nên cho phép dữ liệu trả lời các câu hỏi khoa học

Phối hợp với các nhà thống kê thường là hữu ích nhất trong một cuộc điều tra bởi vì người dùng thiếu kinh nghiệm thống kê thường tập trung vào kỹ thuật sử dụng để phân tích dữ liệu, chứ không xem xét tất cả các cách dữ liệu có thể trả lời những câu hỏi về khoa học.

2. Tín hiệu luôn bị nhiễu

Các biến có thể cho ra nhiều kết quả, nhưng  việc rất quan trọng để hiểu khi nào là kết quả tốt và khi nào là không tốt để bày tỏ sự không chắc chắn. Nó cũng giúp xác định các nguồn có khả năng lỗi hệ thống.

3. Bước quan trọng của việc lập kế hoạch

Đặt vấn đề ở giai đoạn thiết kế có thể giúp bớt những hóc búa ở giai đoạn phân tích. Thu thập dữ liệu cẩn thận cũng giúp đơn giản hóa phân tích và làm cho nó chặt chẽ hơn.

4. Lo lắng về chất lượng dữ liệu

Khi nói đến việc phân tích dữ liệu, “rác vào thì rác ra” (có nghĩa là đầu vào kém thì cũng chỉ tạo được đầu ra chất lượng kém). Sự phức tạp của bộ sưu tập dữ liệu hiện đại đòi hỏi rất nhiều giả định về chức năng của công nghệ, thường bao gồm công nghệ trước xử lý dữ liệu, trong đó có thể có những ảnh hưởng sâu sắc mà có thể dễ dàng không được chú ý.

5. Phân tích thống kê  hơn là thiết lập các tính toán

Phần mềm thống kê cung cấp công cụ để hỗ trợ phân tích chứ không định nghĩa chúng. Các bối cảnh khoa học là rất quan trọng, và chìa khóa của phân tích thống kê có nguyên tắc là đưa các phương pháp phân tích vào sự phù hợp chặt chẽ với các vấn đề khoa học.

6 – Hãy giữ nó thật đơn giản

Đơn giản hơn hẳn phức tạp. Một số lượng lớn các phép đo, tương tác giữa các biến giải thích, cơ chế phi tuyến của hành động, dữ liệu bị mất, làm sai lệch, thành kiến ​​lấy mẫu và các yếu tố khác có thể yêu cầu một sự gia tăng trong mô hình phức tạp.

Nhưng, hãy nhớ rằng một thiết kế tốt, thực hiện tốt, thường xuyên có thể cho phép các phương pháp đơn giản của phân tích để tạo ra kết quả tốt.

7. Cung cấp các đánh giá về sự biến đổi

Mục đích cơ bản của phân tích thống kê là để giúp đánh giá sự không chắc chắn, thường dưới hình thức của một lỗi hoặc khoảng tin cậy tiêu chuẩn, và một trong những thành công lớn của mô hình thống kê và kết luận là nó có thể cung cấp các ước tính về sai số chuẩn từ cùng một dữ liệu sản xuất ước tính về số lượng quan tâm.

Khi báo cáo kết quả, nó là điều cần thiết để cung cấp một số khái niệm về thống kê không chắc chắn .

8 – Kiểm tra giả định

Phần mềm thống kê phổ biến rộng rãi làm cho nó dễ dàng để thực hiện các phân tích mà không chú ý cẩn thận đến các giả định vốn có, và điều này đã gây ra kết quả không chính xác, hoặc thậm chí sai lầm. Do đó rất quan trọng để hiểu được giả định thể hiện trong các phương pháp và làm bất cứ điều gì có thể để hiểu và đánh giá các giả định.

9.  Khi có thể, hãy tái hiện lại chính xác

Lý tưởng nhất, việc tái hiện được thực hiện bởi một nhà điều tra độc lập. Các kết quả khoa học mà đứng vững trước thử thách của thời gian là những kết quả được khẳng định qua nhiều tình huống khác nhau, nhưng gần với các giả định. Trong nhiều trường hợp, tái hiện hoàn chỉnh là rất khó khăn hoặc không thể, như trong các thí nghiệm quy mô lớn như các thử nghiệm lâm sàng đa trung tâm. Trong những trường hợp đó, một tiêu chuẩn tối thiểu sẽ được tuân theo Quy tắc 10.

10.  Hãy tái hiện các phân tích

Với cùng một bộ dữ liệu, cùng với một mô tả đầy đủ các phân tích, nó phải có khả năng tái hiện các bảng biểu, số liệu và kết luận thống kê. Cải thiện đáng kể khả năng tái sản xuất phát hiện bằng cách rất có hệ thống về các bước trong phân tích, bằng cách chia sẻ dữ liệu và mã được sử dụng để đưa ra các kết quả và bằng cách làm theo các thống kê được chấp nhận thực hành tốt nhất.

Ngoài Kass, các đồng tác giả là Brian S. Caffo của Đại học Johns Hopkins, Marie Davidian của Bắc Ai Cập , Xiao-Li Meng của Đại học Harvard, và Nancy Reid của Đại học California Berkeley và Đại học Toronto.

“Tôi rất tin tưởng vào giá trị của việc xác định những ý tưởng chính trong thống kê, và nêu một cách rõ ràng và chính xác”, Kass nói. “Loạt 10 quy tắc đơn giản rất tuyệt vời, đã chứng minh giá trị của nó như là một định dạng cho các khái niệm khoa học cấp cao. Bài viết này là một công trình rất khó khăn, nhưng chúng tôi đã có một đội tuyệt vời và tôi đã rất hài lòng với kết quả.”

Thái Học (lược dịch)

Nguồn: https://www.sciencedaily.com/releases/2016/06/160620191409.htm