Phương pháp thống kê linh hoạt thúc đẩy nghiên cứu về sức khỏe, khí hậu, dữ liệu tài chính

Học máy và trí tuệ nhân tạo sẽ không thể thực hiện được nếu không có các mô hình thống kê hỗ trợ khả năng phân tích. Một nhà thống kê tại Cornell và đồng nghiệp của ông đã phát triển một phương pháp mới mang tính cách mạng để phân tích các tập dữ liệu phức tạp, linh hoạt hơn, chính xác hơn và dễ sử dụng hơn.

Dan Kowal, phó giáo sư thống kê và khoa học dữ liệu tại Trường cao đẳng nông nghiệp và khoa học sự sống và ông Cornell Ann S. Bowers Trường cao đẳng khoa học máy tính và thông tin, là tác giả chính của nghiên cứu “Monte Carlo Inference for Semiparametric Bayesian Regression”, được xuất bản vào ngày 01/10/2024 trên Tạp chí của Hiệp hội Thống kê Hoa Kỳ . Đồng tác giả là Bohan Wu, hiện là nghiên cứu sinh Tiến sĩ tại Đại học Columbia.

“Phương pháp này giúp mọi người có nhiều quyền hơn khi họ làm việc với dữ liệu và giải quyết sự phức tạp khác nhau”, Kowal cho biết. “Tôi muốn mọi người sử dụng các mô hình đáng tin cậy để họ có thể thực sự tách tín hiệu ra khỏi tiếng ồn. Chúng tôi đã phát hiện ra theo kinh nghiệm rằng phương pháp này có thể thực hiện điều đó trên nhiều loại dữ liệu, phân phối và cài đặt khác nhau. Đây chính xác là đóng góp khiến tôi phấn khích với tư cách là một nhà thống kê”.

Phân tích hồi quy Bayesian cho phép các nhà nghiên cứu dự đoán một loạt kết quả thay vì một ước tính duy nhất. Mô hình của Kowal được thiết kế đặc biệt để phân tích “dữ liệu lộn xộn” không phù hợp với đường cong, ông nói. Nó có thể phân tích và đưa ra dự đoán về nhiều chủ đề khác nhau, bao gồm việc sử dụng dịch vụ chăm sóc sức khỏe, thu nhập gia đình, thị trường tài chính và các sự kiện liên quan đến khí hậu.

Ví dụ, bác sĩ đôi khi yêu cầu bệnh nhân tự báo cáo về sức khỏe tâm thần của họ bằng những câu hỏi như, “Trong 30 ngày qua, có bao nhiêu ngày sức khỏe tâm thần của bạn không tốt?” Một số lượng lớn người trả lời “0”, một số lượng lớn khác trả lời “30”, và những người còn lại thường ước tính bằng cách trả lời theo mức tăng từ 5 hoặc 7. Ông cho biết: “Với dữ liệu như thế này, bạn sẽ thấy những đột biến trong phản hồi liên quan nhiều đến việc tự báo cáo hơn là bản thân dữ liệu”. “Nếu tôi đang cố gắng lập kế hoạch cho năng lực chăm sóc sức khỏe, tôi không nên đưa ra quyết định dựa trên việc mọi người trả lời 14 so với 15 so với 16. Nhưng việc có các mô hình có thể kéo dài hoặc nén các điểm dữ liệu tập trung này một cách thích hợp sẽ giúp phân tích của bạn có ý nghĩa hơn và cuối cùng là hữu ích hơn.”

Phương pháp mới của Kowal cũng dễ sử dụng hơn đối với các nhà nghiên cứu. Phân tích hồi quy Bayesian thường yêu cầu sử dụng một thuật toán phức tạp (gọi là Markov chain Monte Carlo) đòi hỏi một lượng lớn sức mạnh tính toán và nhiều dự đoán để đảm bảo thuật toán không bị hỏng. Phương pháp của Kowal tránh thuật toán đó.

“Khi mọi người sử dụng Markov chain Monte Carlo, họ phải thực hiện mọi loại dự đoán để đảm bảo mọi thứ hoạt động tốt. Thuật toán đòi hỏi nỗ lực riêng, độc lập với mô hình và dữ liệu mà bạn thực sự quan tâm”, ông nói. “Trong nghiên cứu này, chúng tôi thực sự hoàn toàn tránh được điều đó nhưng vẫn giữ được tính linh hoạt và độ chính xác của mô hình trong việc dự đoán kết quả”. Kowal đã xây dựng một trang web có tài liệu hướng dẫn và ví dụ về cách sử dụng phương pháp mới của mình và đã phát hành phần mềm miễn phí, có thể tải xuống trên CRAN, trang web hàng đầu về lập trình mã nguồn mở cho máy tính thống kê.

Phạm Hạnh (dịch)

Nguồn: https://phys.org/news/2024-11-flexible-statistical-method-powers-health.html

AIHọc máyphương pháptiêu điểm
Comments (0)
Add Comment