Lần đầu tiên tôi tiếp xúc với thống kê là ở khóa học thống kê nâng cao (AP– Advanced Placement) khi tôi mới 16 tuổi. Tôi nhớ một bài giảng mà ở đó chúng tôi biết được tầm quan trọng của việc phân biệt các tham số trong kiểm định t – test và kiểm định phi tham số Mann – Whitney U. Sau đó, khi là một sinh viên ngành hóa học, tôi đã tiếp tục sử dụng các nguyên tắc thống kê cơ bản để phân tích xem các phân tử nhất định có ảnh hưởng như thế nào đến bệnh ung thư, hay tại sao trẻ bị rối loạn ăn xẩy ra nhiều hơn ở những gia đình có nhiều áp đặt căng thẳng việc ăn uống so với những trẻ em ở những gia đình khác.
Thật không may, không phải ai cũng có cơ hội để học thống kê ngay khi còn trẻ, và theo kinh nghiệm của tôi, vài nhà nghiên cứu khi mới bắt đầu sự nghiệp (ECRs) đã dành thời gian để tìm hiểu môn khoa học này theo cách riêng của họ để họ có thể sử dụng nó trong các nghiên cứu của mình. Những nội dung mà họ thường tìm hiểu là số liệu thống kê là gì? và làm thế nào để số liệu thống kê có thể đem lại lợi ích tốt nhất cho ngành khoa học họ đang nghiên cứu.
Bản chất của thống kê
Thống kê là một ngành toán học bao gồm một loạt các thủ tục để thu thập, tổ chức, phân tích, trình bày và định lượng dữ liệu. Hai nhánh chính của thống kê là thống kê mô tả và thống kê suy luận. Thống kê mô tả chủ yếu liên quan với mô tả dữ liệu định lượng. Thống kê suy luận được sử dụng để suy luận về dân số, nghiên cứu bằng cách phân tích dữ liệu thu thập được từ các mẫu cá thể. Phân tích dữ liệu của các mẫu bằng cách sử dụng các mô hình mẫu để giải thích về tính ngẫu nhiên và sự không chắc chắn.
Sự phổ biến và tầm quan trọng của thống kê
Thống kê được sử dụng trong hầu hết các lĩnh vực khoa học. Ví dụ, trong một bài báo gần đây trên tạp chí PLoS ONE, Young và Gobler đã sử dụng thử nghiệm phân tích ANOVA một chiều và khám phá axit hóa làm cho tảo phát triển quá mức gây nên hiện tượng thiếu ô-xi trong nước ở các cửa sông. Một số ví dụ về điều này trong các ấn phẩm cho thấy, từ động vật có vú đến vi khuẩn, thống kê là cần thiết để làm cho kết quả có ý nghĩa.
Kể từ khi thống kê có thể được áp dụng đa dạng ở các ngành khoa học, nó đã phát triển thành các nhánh khác nhau. Ví dụ, thống kê chiêm tinh học áp dụng nguyên tắc thống kê đến sự hiểu biết về dữ liệu thiên văn, ngành kinh tế sử dụng phương pháp thống kê trong nghiên cứu thực nghiệm của các lý thuyết kinh tế và các mối quan hệ, thống kê sinh học sử dụng nguyên tắc thống kê để hiểu hiện tượng sinh học, và thống kê môi trường sử dụng các phương pháp thống kê để hiểu và đánh giá môi trường điều kiện xung quanh chúng ta. Đây chỉ là một số ví dụ về các thống kê chuyên ngành.
Có ý kiến cho rằng xã hội không thể hoạt động hiệu quả mà không có một hệ thống tiêu chuẩn để cho phép tất cả mọi người tóm tắt dữ liệu, điều quan trọng là mỗi nhà nghiên cứu có các nguyên tắc thống kê sẵn trong “hộp” công cụ của họ. Các nhà nghiên cứu không chỉ cần thống kê để có thể trình bày và truyền đạt những phát hiện của mình một cách hiệu quả hơn, mà còn cần dùng thống kê để hiểu và đánh giá độ tin cậy của các nghiên cứu khác trong cùng lĩnh vực mình nghiên cứu. Thống kê cũng giúp các nhà nghiên cứu kiểm soát các nguồn của sự biến đổi, phát hiện giá trị ngoại lai, hình dung dữ liệu, và thiết kế hiệu quả các thí nghiệm đó giúp trả lời các câu hỏi nghiên cứu của họ.
Vấn đề thường gặp trong truyền thông thống kê
Mặc dù nhận thấy rõ ràng được giá trị thống kê cho nghiên cứu khoa học, nhưng chúng ta vẫn thường thấy sử dụng không đúng số liệu thống kê trong nghiên cứu. Các nhà nghiên cứu có thể vô tình làm thay đổi quy mô dữ liệu để thay đổi sự phân bố dữ liệu hoặc bỏ qua giá trị ngoại lai để trình bày dữ liệu một cách mạch lạc hơn. Một vấn đề thường gặp khác trong phân tích thống kê bao gồm trình bày mối tương quan về mối quan hệ nhân quả, báo cáo sai số dự báo trong dữ liệu, và báo cáo kết quả một cách quá khái quát.
Ngoài ra, những áp lực xuất bản phẩm để thăng tiến chức danh khoa học có thể dẫn đến các nhà nghiên cứu thu thập hoặc lựa chọn nhiều mẫu dữ liệu và làm cho những kết quả không có ý nghĩa trở nên quan trọng. Hiện tượng này, nếu không được biết đến như “p-hacking” thách thức các mô hình khoa học truyền thống về xuất bản dữ liệu quan trọng, hoặc dữ liệu mà mang giá trị p<0,05. Theo bài báo về Khoa học Tâm lý năm 2012 hơn một nửa trong số 2.000 nhà tâm lý học được khảo sát thừa nhận đã “không báo cáo tất cả các đo lường phụ thuộc của một nghiên cứu” và “quyết định có nên thu thập thêm dữ liệu sau khi xem xét kết quả chưa chắc chắn có ý nghĩa”.
Một vấn đề khoa học thông thường, mà còn được thúc đẩy bởi mong muốn của các nhà nghiên cứu tiến sự nghiệp khoa học của mình, là irreproducibility kết quả. Theo một nghiên cứu đã được công bố, trong số lần lặp lại của 100 nghiên cứu thực nghiệm và tương quan, có 97% các nghiên cứu gốc cho thấy kết quả có ý nghĩa thống kê, nhưng chỉ có 36% số lần nghiên cứu lặp lạicho kết quả tương tự.
Những gì có thể được thực hiện?
Các nhà nghiên cứu vẫn chưa xác định làm thế nào để cải thiện việc đào tạo thống kê cho các nhà nghiên cứu khoa học cơ bản và các nhà nghiên cứu dịch thuật. Ngày 1/4/2016, tạp chí PLoS Biology đã đưa ra phương pháp để cải thiện giáo dục thống kê, trong đó bao gồm: khuyến khích các khoa đào tạo thống kê, tổ chức các khóa học thống kê tương ứng vào các lĩnh vực nghiên cứu của sinh viên, cũng như các công cụ và chiến lược phát triển để thúc đẩy giáo dục, phổ biến kiến thức thống kê. Hơn nữa, một trong những trích dẫn của tạp chí PLoS Biology, Megan và các đồng nghiệp thấy rằng giá trị p-hacking, được phát hiện tràn lan trong tiến hóa sinh học, nhưng dường như không ảnh hưởng đến kết quả cuối cùng. Ông đề nghị các nhà nghiên cứu tuân thủ các tiêu chuẩn phân tích phổ biến, sử dụng đúng kích thước mẫu, thực hiện phân tích dữ liệu “mù” bất cứ khi nào có thể, và đánh giá chất lượng của các phương pháp nghiên cứu riêng rẽ tới kết quả. Những khuyến nghị này sẽ giúp giải quyết các vấn đề về p-hacking và không thể tái gây rắc rối cho khoa học hiện đại. Ngoài các đề xuất này, tôi nghĩ rằng các tạp chí nên làm ba việc để ngăn chặn p-hacking: (1) Cung cấp hướng dẫn rõ ràng và chi tiết các báo cáo đầy đủ về kết quả phân tích dữ liệu, (2) Đặc điểm kỹ thuật của phương pháp, (3) Tạo điều kiện tiếp cận với dữ liệu thô.
Trong khi những chương trình giáo dục về thống kê có thể không có sẵn cho tất cả các nhà khoa học, tôi khuyến khích các nhà nghiên cứu mới bắt đầu sự nghiệp xem xét tham gia một lớp học thống kê trong lĩnh vực nghiên cứu riêng của họ, hoặc tham khảo ý kiến một hướng dẫn thống kê trực tuyến/ thực hành thống kê. Có sự hiểu biết sâu sắc hơn về nguyên tắc thống kê cơ bản sẽ không chỉ nâng cao sứ mệnh của khoa học, những phát minh mới của khoa học mới, nâng cao sự hiểu biết của chúng ta về thế giới, mà còn khuyến khích các nhà nghiên cứu trở thành những nhà khoa học có đạo đức.
Lan Phương (lược dịch)
Nguồn: http://phys.org/news/2016-06-statisticsa-significant-skill-early-career.html