Tuyên bố của ASA về ý nghĩa thống kê và trị số P

Giới thiệu

Gia tăng định lượng trong nghiên cứu khoa học và phát triển các tập hợp dữ liệu lớn, phức tạp trong những năm gần đây đã mở rộng phạm vi ứng dụng của các phương pháp thống kê. Điều này đã tạo ra những hướng mới cho tiến bộ khoa học, nhưng nó cũng mang lại những lo ngại về kết luận rút ra từ dữ liệu nghiên cứu. Giá trị (validity) của kết luận khoa học, bao gồm cả khả năng tái lặp (reproducibility) của chúng, phụ thuộc nhiều hơn so với tự thân phương pháp thống kê. Các kỹ thuật thích hợp được lựa chọn, phân tích thực hiện đúng và giải thích chính xác của kết quả thống kê cũng đóng một vai trò quan trọng trong việc đảm bảo rằng kết luận là có cơ sở và sự không chắc chắn xung quanh chúng được trình bày một cách đúng đắn.

Làm cơ sở cho nhiều kết luận khoa học được công bố là khái niệm về “có ý nghĩa thống kê,” thường được đánh giá bằng một chỉ số được gọi là trị số p. Trong khi trị số p có thể là một phương pháp thống kê hữu ích, nó thường được sử dụng sai và hiểu sai. Điều này đã dẫn đến một số tạp chí khoa học không tán thành việc sử dụng trị số p, và một vài nhà khoa học và nhà thống kê đề nghị việc từ bỏ, với vài lập luận rằng không có thay đổi cơ bản nào kể từ khi trị số p lần đầu tiên được giới thiệu.

Trong văn bản này, Hiệp hội thống kê Mỹ (American Statistical Association, ASA) tin rằng cộng đồng khoa học có thể được hưởng lợi từ một tuyên bố chính thức làm sáng tỏ những nguyên tắc cơ bản được đồng thuận rộng rãi trong việc sử dụng thích hợp và giải thích trị số p. Các vấn đề được đưa ra ở đây không chỉ ảnh hưởng đến nghiên cứu, mà còn là kinh phí nghiên cứu, thực hành viết lách, phát triển nghề nghiệp, giáo dục khoa học, chính sách công, báo chí, và pháp luật. Tuyên bố này không tìm cách giải quyết tất cả các vấn đề liên quan đến thực hành thống kê cũng như những tranh cãi nền tảng. Thay vào đó, tuyên bố nêu rõ về một vài lựa chọn nguyên tắc phi kỹ thuật mà có thể cải thiện việc thực hiện hoặc diễn giải khoa học định lượng, theo sự đồng thuận rộng rãi trong cộng đồng thống kê.

Trị số p là gì?

Một cách không chính thức, trị số p là xác suất theo một mô hình thống kê xác định và là một dữ liệu thống kê tóm tắt (ví dụ, sự khác biệt có ý nghĩa của mẫu giữa hai nhóm được so sánh) sẽ bằng hoặc cực đoan (extreme) hơn so với giá trị quan sát của nó.

Các nguyên tắc

1. Trị số p có thể chỉ ra sự không tương thích các dữ liệu với một mô hình thống kê xác định ra sao.

Trị số p cung cấp một cách tiếp cận tổng hợp sự không tương thích giữa một tập hợp các dữ liệu và một mô hình đề xuất cho dữ liệu. Hình thức phổ biến nhất là một mô hình, được xây dựng theo một tập hợp các giả định, cùng với cái gọi là “giả thuyết không” (null hypothesis). Thường thì “giả thuyết không” mặc nhiên công nhận sự vắng mặt của một ảnh hưởng, chẳng hạn như không có sự khác biệt giữa hai nhóm, hoặc sự vắng mặt của mối quan hệ giữa các yếu tố và một kết quả. Trị số p càng nhỏ, sự không tương thích thống kê của các dữ liệu với các giả thuyết càng lớn, nếu các giả định cơ bản được sử dụng để tính toán trị số p nắm chắc. Sự không tương thích này có thể được hiểu như là sự kiểm định hoặc cung cấp bằng chứng chống lại “giả thuyết không” hoặc các giả định cơ bản.

2. Trị số p không đo lường xác suất mà từ đó giả thuyết nghiên cứu là đúng, hoặc xác suất mà các dữ liệu đã được tạo ra bởi một sự xuất hiện ngẫu nhiên một cách riêng lẻ.

Các nhà nghiên cứu thường muốn đưa trị số p vào tuyên bố về tính đúng đắn của một giả thuyết không, hoặc về xác suất mà sự xuất hiện ngẫu nhiên tạo ra các dữ liệu quan sát được. Trị số p không phải như vậy. Đó là một tuyên bố về dữ liệu liên quan với một sự diễn giải giả thuyết xác định, và không phải là một tuyên bố về sự diễn giải chính nó [giả thuyết].

3. Các kết luận khoa học và quyết sách kinh tế hoặc chính sách không nên chỉ dựa vào trị số p vượt qua một ngưỡng cụ thể.

Những thực hành giảm bớt phân tích dữ liệu hoặc suy luận khoa học với các quy tắc “sáng tỏ” (Bright-line Rules) một cách máy móc (chẳng hạn như “p < 0.05”) để biện minh cho các tuyên bố hoặc kết luận khoa học có thể dẫn đến niềm tin sai lầm và việc đưa ra quyết định vô giá trị. Một kết luận không ngay lập tức trở thành “đúng” trên một mặt của sự phân chia và “sai” về mặt khác. Các nhà nghiên cứu nên mang nhiều yếu tố bối cảnh (contextual factor) vào nghiên cứu để truy tìm những kết luận khoa học, bao gồm các thiết kế nghiên cứu, chất lượng của các thang đo, các bằng chứng bên ngoài cho các hiện tượng được nghiên cứu, và tính hợp lệ của các giả định làm cơ sở cho việc phân tích dữ liệu. Những xem xét thực tế thường đòi hỏi tính nhị phân, quyết định “yes-no”, nhưng điều này không có nghĩa là trị số p riêng lẻ có thể đảm bảo rằng một quyết định là đúng hay sai. Việc sử dụng rộng rãi “ý nghĩa thống kê” (thường được hiểu là “p ≤ 0,05”) như một chứng thực để làm tuyên bố của một phát hiện khoa học (hay sự đúng đắn được ngầm hiểu) dẫn đến biến dạng đáng kể tiến trình khoa học.

4. Suy luận hợp lý đòi hỏi tường trình đầy đủ và minh bạch

Trị số p và phân tích có liên quan không nên được báo cáo có chọn lọc. Tiến hành nhiều phân tích các dữ liệu và báo cáo chỉ với trị số p duy nhất (thường là vượt qua một ngưỡng quan trọng) ám chỉ rằng trị số p được báo cáo về cơ bản không thể sáng tỏ. Những kết quả đầy hứa hẹn do “lỗi suy luận” (Cherry-picking), còn được gọi bằng thuật ngữ như vét dữ liệu (data dreging), đuổi bắt ý nghĩa (significance chasing), truy vấn ý nghĩa (significance questing), suy luận có chọn lọc (selective inference) và “p-hacking” [tất cả các thuật ngữ này ám chỉ việc tìm mọi cách để đạt được p < 0.05], dẫn đến dư thừa giả tạo các kết quả có ý nghĩa về mặt thống kê trong các tài liệu được công bố và nên tránh một cách mạnh mẽ. Một nhu cầu không chính thức tiến hành nhiều kiểm định thống kê cho vấn đề này phát sinh: Bất cứ khi nào một nhà nghiên cứu chọn những gì để trình bày dựa trên kết quả thống kê, giải thích giá trị của những kết quả là bị tổn hại nghiêm trọng nếu người đọc không được thông báo về sự lựa chọn và cơ sở của nó. Các nhà nghiên cứu nên tiết lộ số lượng giả thuyết khám phá trong quá trình nghiên cứu, tất cả các quyết định thu thập dữ liệu, tất cả các phân tích thống kê được thực hiện và tất cả các trị số p được tính toán. Kết luận khoa học có giá trị dựa trên các trị số p và thống kê liên quan không thể được rút ra mà không biết ít nhất bao nhiêu phân tích được tiến hành, và làm thế nào những phân tích (bao gồm cả trị số p) đã được lựa chọn để báo cáo.

5. Trị số p, hay ý nghĩa thống kê, không đo lường kích thước của một ảnh hưởng hoặc tầm quan trọng của kết quả.

Ý nghĩa thống kê không tương đương với ý nghĩa khoa học, con người, hoặc kinh tế. trị số p nhỏ hơn không nhất thiết phải bao hàm sự hiện diện của các ảnh hưởng lớn hơn hoặc quan trọng hơn, và trị số p lớn hơn không ám chỉ thiếu tầm quan trọng hoặc thậm chí không có ảnh hưởng. Bất kỳ tác động, dù nhỏ thế nào, có thể tạo ra một trị số p nhỏ nếu kích thước mẫu hoặc thang đo chính xác là đủ cao, và các ảnh hưởng lớn có thể tạo ra trị số p không mấy ấn tượng nếu kích thước mẫu nhỏ hoặc các thang đo là không chính xác. Tương tự như vậy, những tác động ước lượng giống hệt nhau sẽ có trị số p khác nhau nếu độ chính xác của các ước lượng khác nhau.

6. Tự thân, trị số p không cung cấp một phép đo bằng chứng tốt về một mô hình hay giả thuyết.

Các nhà nghiên cứu nên nhận thấy rằng trị số p không kèm bối cảnh hoặc các bằng chứng khác thì cung cấp thông tin hạn chế. Ví dụ, một trị số p gần 0,05 đơn giản chỉ cung cấp bằng chứng yếu ớt bác bỏ giả thuyết không. Tương tự như vậy, một trị số p tương đối lớn không bao hàm bằng chứng ủng hộ giả thuyết không; nhiều giả thuyết khác có thể tương đương hoặc phù hợp hơn với các dữ liệu quan sát. Với những lý do này, phân tích dữ liệu không nên kết thúc với việc tính toán trị số p khi cách tiếp cận khác là phù hợp và khả thi.

Các phương pháp tiếp cận khác (Other approaches)

Theo quan điểm về sự lạm dụng thường xuyên và quan niệm sai lầm về trị số p, một số nhà thống kê có khuynh hướng bổ sung hoặc thậm chí thay thế trị số p với các cách tiếp cận khác. Chúng bao gồm các phương pháp nhấn mạnh tính toán qua thử nghiệm, chẳng hạn như khoảng tin cậy (confidence interval & credibility interval đều là khoảng tin cậy nhưng thuộc 2 trường phái thống kê khác nhau) hoặc khoảng dự báo (prediction interval); phương pháp Bayesian; các phép đo thay thế của bằng chứng, chẳng hạn như tỷ số khả dĩ (likelihood ratio) hoặc các yếu tố Bayes; và các phương pháp khác như mô hình ra quyết định lý thuyết (decision-theoretic modeling) và tỷ lệ phát hiện sai (false discovery rate). Tất cả những phép đo và cách tiếp cận này dựa trên nhiều giả định hơn, nhưng chúng có thể tiếp cận trực tiếp hơn trong việc xác định kích thước của một ảnh hưởng (và sự không chắc chắn liên quan của nó) cho dù giả thuyết là đúng.

Kết luận

Thực hành thống kê tốt, như là một phần thiết yếu của thực hành khoa học tốt, nhấn mạnh nguyên tắc của thiết kế nghiên cứu và tiến hành tốt, một loạt các tóm tắt các dữ liệu dạng số và đồ họa, sự hiểu biết về các hiện tượng được nghiên cứu, giải thích kết quả trong bối cảnh, tường trình đầy đủ, hợp logic và hiểu biết định lượng của những gì tóm tắt dữ liệu có ý nghĩa. Không nên có chỉ số duy nhất nào thay thế cho lý luận khoa học.

Thái Học (sưu tầm)

Nguồn: http://ibsgacademic.com/bioengineering/tin-sinh-he-thong/tuyen-bo-cua-asa-ve-y-nghia-thong-ke-va-tri-p/