Các nhà nghiên cứu tại Đại học Columbia, Princeton và Harvard đã phát triển một phương pháp mới để phân tích dữ liệu lớn, có thể cải thiện tính chính xác kết quả dự báo về y học, các bệnh phức tạp, hiện tượng khoa học xã hội và các vấn đề khác. Bài nghiên cứu này đã được đăng trên Kỷ yếu của Viện Hàn lâm khoa học xã hội (PNSA) ngày 13/12/2016.
Trong nhiều nghiên cứu trước đây, các nhà nghiên cứu cho thấy có nhiều biến quan trọng có thể đã không được dự báo hoặc có nhiều dự báo được đánh giá không có ý nghĩa về mặt thống kê. Điều này đặt ra một câu hỏi quan trọng: Làm thế nào chúng ta có thể tìm thấy các biến dự báo có ảnh hưởng lớn nếu không thông qua một hướng dẫn có ý nghĩa về mặt thống kê? Phương pháp chung để dự báo, bao gồm: Sử dụng tiêu chí căn bản quan trọng dựa trên việc đánh giá các biến có trong mô hình phân tích và đánh giá đồng thời các biến và các mô hình cho việc kiểm chứng chéo (cross validation) hoặc thử nghiệm dữ liệu độc lập.
Nỗ lực việc giảm tỷ lệ sai số, các nhà nghiên cứu đề xuất một phương pháp mới gọi là số điểm ảnh hưởng, hoặc “điểm I” để đo lường tốt hơn khả năng của một biến đến dự báo. Họ thấy rằng “điểm I” là hiệu quả trong việc phân biệt giữa các biến gây nhiễu và các biến dự báo trong dữ liệu lớn và có thể cải thiện đáng kể tỷ lệ dự báo. Ví dụ, “điểm I” cải thiện tỷ lệ dự báo trong dữ liệu ung thư vú từ 70% đến 92%. “Điểm I” có thể được áp dụng trong nhiều lĩnh vực, như: Khủng bố, chiến tranh dân sự, các cuộc bầu cử và thị trường tài chính. “Đối với các nhà thống kê, chúng tôi hy vọng điều này sẽ mở ra một hướng mới trong công việc, tập trung việc xây dựng phương pháp thống kê mới để đo lường khả năng dự báo”, Adeline Lo, một nhà nghiên cứu sau tiến sĩ tại Khoa Chính trị của Đại học Princeton nói.
Lan Phương (dịch và tổng hợp)
Nguồn: https://www.sciencedaily.com/releases/2016/11/161130125513.htm