Tương lai của khoa học thống kê

Thống kê là môn khoa học nghiên cứu về dữ liệu, là khoa học của thu thập, tổ chức và diễn giải các sự kiện số mà ta gọi là dữ liệu. Trong khi các từ “thống kê” và “dữ liệu” thường được công chúng sử dụng thay thế cho nhau, thống kê thực sự đơn thuần vượt ra ngoài sự tích tụ của dữ liệu. Vai trò của một nhà thống kê là:

– Thiết kế việc thu thập dữ liệu theo cách giảm thiểu sai lệch và các yếu tố gây nhiễu và tối đa hóa nội dung thông tin.

– Xác minh chất lượng của dữ liệu sau khi được thu thập.

– Phân tích dữ liệu theo cách đưa ra cái nhìn sâu sắc hoặc thông tin hỗ trợ việc ra quyết định.

Các quá trình này rõ ràng luôn tính đến sự bất định ngẫu nhiên hiện diện trong bất kỳ quá trình đo lường thực tế, cũng như sự bất định có hệ thống có thể sẽ được đưa ra bởi các thiết kế thực nghiệm. Sự nhận dạng này là một đặc tính cố hữu của  thống kê, và đây là lý do tại sao chúng ta mô tả nó như là “khoa học của sự bất định,” chứ không phải là “khoa học của dữ liệu.” Thống kê có thể được mô tả ngắn gọn nhất là khoa học về sự bất định.

Dữ liệu là phổ biến trong xã hội ở thế kỷ 21: Chúng lan rộng vào trong khoa học, Chính phủ, và trong thương mại. Vì lý do này, các nhà thống kê có thể chỉ ra nhiều cách thức mà công việc thống kê đã tạo ra sự khác biệt so với phần còn lại của tự nhiên. Tuy nhiên, tính rất hữu dụng của thống kê trong một số cách lại là trở ngại cho sự thừa nhận của công chúng. Các nhà khoa học và các nhà điều hành có xu hướng nghĩ rằng số liệu thống kê như cơ sở hạ tầng, và như các loại cơ sở hạ tầng, chúng không có đủ sự tín nhiệm đối với vai trò của chúng. Các nhà thống kê, trong một số trường hợp ngoại lệ nổi bật, cũng đã không muốn hoặc không thể truyền sang phần còn lại của thế giới tự nhiên những giá trị (và cảm hứng) của công việc thống kê.

Bài này bắt đầu với những “câu chuyện thành công” trong thống kê, mà trong tất cả các trường hợp đã tiếp tục cho đến ngày nay. Những câu chuyện thành công này chắc chắn không đầy đủ, nhưng hy vọng rằng chúng chí ít cũng đại diện. Đó là:

– Sự phát triển của các phương pháp luận thực nghiệm đối chứng ngẫu nhiên và các phương pháp thích hợp để đánh giá thực nghiệm như vậy, là một phần cần thiết của quá trình phát triển dược phẩm ở nhiều nước.

– Việc áp dụng “thống kê Bayes” để xử lý hình ảnh, nhận dạng đối tượng, nhận dạng giọng nói, và thậm chí cả các ứng dụng thường ngày như kiểm tra chính tả.

– Sự lây lan bùng nổ của phương pháp “chuỗi Markov Monte Carlo” được sử dụng trong vật lý thống kê, mô hình dân số, và nhiều ứng dụng khác để mô phỏng sự bất định không được phân phối theo một trong những mô hình đơn giản như trong sách giáo khoa (ví dụ “đường cong hình chuông”) .

– Sự tham gia của các nhà thống kê trong nhiều vụ án của tòa án cấp cao trong những năm qua. Khi một bị cáo bị cáo buộc phạm tội do không có khả năng khác thường từ một số chuỗi các sự kiện, họ thường dồn cho các nhà thống kê xác định xem liệu những tuyên bố có vững vàng hay không.

– Việc phát hiện thông qua các phương pháp thống kê của “dấu ấn sinh học”- gen tạo nguy cơ tăng hoặc giảm của một số loại ung thư.

– Một phương pháp được gọi là “Kriging” cho phép các nhà khoa học nội suy phân phối nhẵn của một số số lượng quan tâm từ các phép đo lường thưa thớt. Các lĩnh vực ứng dụng bao gồm khai thác khoáng sản, khí tượng, nông nghiệp, và thiên văn học.

– Sự gia tăng trong những năm gần đây của “phân tích” trong thể thao và chính trị. Trong một số trường hợp, các phương pháp liên quan không phải là mới, nhưng những gì là mới đó là sự công nhận của các bên liên quan (nhà quản lý và các chính trị gia thể thao) của giá trị mà phân tích thống kê khách quan có thể thêm vào dữ liệu của họ.

Chắc chắn thách thức lớn nhất và cơ hội đối mặt với thống kê ngày hôm nay là sự nổi lên của Dữ liệu lớn (Big Data) – cơ sở dữ liệu về bộ gen của con người, bộ não con người, thương mại Internet, hoặc mạng xã hội (một số ít khác …) không lớn về quy mô so với bất kỳ cơ sở dữ liệu mà các nhà thống kê gặp phải trong quá khứ. Dữ liệu lớn là một thách thức vì nhiều lý do:

– Vấn đề về quy mô. Nhiều thuật toán phổ biến cho các phân tích thống kê không mở rộng về quy mô đã chạy rất tốt nhưng chạy rất chậm trên bộ dữ liệu quy mô terabyte. Các nhà thống kê có cần phải cải thiện các thuật toán hoặc thiết kế những cái mới đánh đổi tính chính xác về lý thuyết cho tốc độ.

– Các loại dữ liệu khác nhau. Dữ liệu lớn không chỉ lớn, chúng rất phức tạp và chúng đến với các hình thức khác nhau từ những gì thống kê sử dụng, ví dụ cho hình ảnh hoặc các mạng lưới.

– “Hiệu lực ở khắp mọi nơi.” Khi các nhà khoa học chuyển từ một giả thuyết hướng đến một phương pháp tiếp cận dữ liệu, số lượng phát hiện sự giả mạo (ví dụ, gen xuất hiện để được kết nối với một căn bệnh nhưng thực sự là không) được đảm bảo để tăng, trừ khi biện pháp phòng ngừa cụ thể được thực hiện.

– Riêng tư và bảo mật. Đây có lẽ là lĩnh vực liên quan tới công chúng lớn nhất về Dữ liệu lớn, và các nhà thống kê không có đủ khả năng để bỏ qua nó. Dữ liệu có thể được ẩn danh để bảo vệ thông tin cá nhân, nhưng không có những điều khoản như an ninh hoàn hảo.

– Tái phát minh bánh xe. Một số những người thu thập Dữ liệu lớn đáng chú ý là, Công ty web – có thể không nhận ra rằng các nhà thống kê có thế tạo thực nghiệm lúc nhận được thông tin từ dữ liệu, cũng như tránh sai lầm phổ biến. Một số các nhà thống kê cảm thấy bực với thuật ngữ mới “khoa học dữ liệu.” Một số khác cảm thấy chúng ta nên chấp nhận thực tế rằng “khoa học dữ liệu” là đây và tập trung vào việc đảm bảo rằng chúng bao gồm đào tạo về thống kê.

Dữ liệu lớn không phải chỉ là xu hướng hiện tại được thảo luận tại Hội thảo Khoa học thống kê được tổ chức tại London vào tháng 11 năm 2013, các chủ đề khác cũng được thảo luận bao gồm:

– Khả năng tái sinh của nghiên cứu khoa học. Ý kiến ​​rất khác nhau về mức độ của vấn đề, nhưng nhiều “khám phá” được in ấn chắc chắn là giả. Một số tạp chí khoa học lớn được yêu cầu hoặc khuyến khích các tác giả viết tài liệu phương pháp thống kê của mình trong một cách mà sẽ cho phép những người khác để tạo lại phân tích.

– Cập nhật các bản thử nghiệm ngẫu nhiên có kiểm soát (RCT). Các bản thử nghiệm ngẫu nhiên có kiểm soát truyền thống là tốn kém và thiếu tính linh hoạt. “Thiết kế thích ứng” và “thử nghiệm SMART” là hai sửa đổi đã cho kết quả đầy hứa hẹn, nhưng công việc vẫn cần phải được thực hiện để thuyết phục các bác sĩ rằng họ có thể tin tưởng phương pháp sáng tạo trong vị trí của RCT đã cố gắng-và-đúng.

– Thống kê biến đổi khí hậu. Đây là một lĩnh vực khoa học yêu cầu thống kê nhiều hơn. Mô hình khí hậu không kết hợp một cách rõ ràng sự không chắc chắn, do đó chắc chắn phải được mô phỏng bằng cách chạy chúng nhiều lần với các điều kiện hơi khác nhau.

– Thống kê ở những điểm mới khác. Ví dụ, một cuộc nói chuyện giải thích như thế nào với phương pháp thu thập dữ liệu và phân tích thống kê được cải thiện (hoặc sẽ cải thiện) sự hiểu biết của chúng ta về chế độ ăn uống công cộng. Một đại biểu khác đã mô tả cách Liên Hợp Quốc dự báo dân số được thử nghiệm lần đầu tiên với xác suất, chứ không phải là tất định.

– Truyền thông và trực quan. Internet và đa phương tiện cung cấp cho các nhà thống kê những cơ hội mới để có công việc trực tiếp đến công chúng. Vai trò mô hình bao gồm các diễn giả: Nate Silver, Andrew Gelman, Hans Rosling, và Mark Hansen.

– Giáo dục. Một chủ đề đa phương diện, điều này đã được thảo luận rất nhiều nhưng không có bất kỳ sự đồng thuận thực sự nào. Hầu hết các đại biểu tham dự Hội thảo dường như đồng ý rằng các chương trình đào tạo cần phải được đánh giá lại và có lẽ được cập nhật để làm cho sinh viên tốt nghiệp cạnh tranh hơn tại nơi làm việc. Ý kiến ​​khác nhau về việc liệu một cái gì đó cần phải được hy sinh để mở đường cho máy tính nhiều hơn khoa học -loại vật liệu, và nếu như vậy, những gì nên được hy sinh.

– Phần thưởng chuyên môn. Hệ thống xúc tiến và nhiệm kỳ cần xem xét kỹ lưỡng để đảm bảo đóng góp phi truyền thống như viết một đoạn sử dụng rộng rãi phần mềm thống kê được một cách thích hợp có giá trị. Hệ thống phân cấp không chính thức của các tạp chí, trong đó các tạp chí lý thuyết có nhiều uy tín hơn so với những ứng dụng và tạp chí thống kê được tính hơn các tạp chí chuyên đề, cũng có thể lạc hậu.

Tóm lại, những quan điểm của thống kê nổi lên từ hội thảo London là một trong những lĩnh vực đó, sau ba thế kỷ, là mạnh hơn bao giờ hết, cùng với sự tăng trưởng mạnh mẽ trong tuyển sinh, các nguồn dữ liệu mới phong phú, và các vấn đề thách thức giải quyết trong thế kỷ tới.

PĐQ trích dịch

Nguồn: Statistics and Science. A Report of the London Workshop on the Future of the Statistical Sciences.

http://www.worldofstatistics.org/wos/pdfs/Statistics&Science-TheLondonWorkshopReport.pdf