Hãy để chúng tôi giải thích: Nhiệt độ tăng và mức tiêu thụ kem là hai biến thống kê có mối quan hệ tương quan tuyến tính với nhau.
Trong thống kê, liên hệ tương quan rất quan trọng để dự đoán hành vi trong tương lai của các biến. Các dự báo khoa học như vậy thường được các phương tiện truyền thông yêu cầu, có thể là để sử dụng cho kết quả bóng đá hoặc bầu cử.
Để đo lường mối quan hệ tuyến tính, các nhà khoa học sử dụng hệ số tương quan, lần đầu tiên được giới thiệu bởi nhà khoa học tự nhiên người Anh Sir Francis Galton (1822-1911) vào những năm 1870. Ngay sau đó, nhà toán học Karl Pearson đã đưa ra một chứng minh toán học chính thức về hệ số tương quan. Do đó, các nhà toán học cũng có thể gọi “liên hệ tương quan thời điểm sản phẩm của Pearson” hoặc “hệ số tương quan Pearson”.
Tuy nhiên, nếu sự phụ thuộc giữa các biến là quan hệ phi tuyến tính, thì hệ số tương quan không còn là thước đo phù hợp cho sự phụ thuộc của chúng.
René Schilling, Giáo sư xác suất tại Đại học kỹ thuật Dresden (TU Dresden),nhấn mạnh: Cho đến nay, phải mất rất nhiều nỗ lực tính toán để phát hiện sự phụ thuộc giữa nhiều hơn hai biến số, đặc biệt là khi chúng có mối quan hệ phi tuyến tính phức tạp. Bây giờ chúng tôi đã tìm thấy một giải pháp hiệu quả và thiết thực cho vấn đề này.
Tiến sĩ Bjorn Böttcher, Giáo sư Martin Keller-Ressel và Giáo sư René Schilling đến từ Viện Toán học Toán học của TU Dresden đã phát triển một phương pháp đo lường phụ thuộc được gọi là “đa phương sai khoảng cách”. Định nghĩa về phương pháp mới này và lý thuyết toán học cơ bản đã được công bố trên tạp chí quốc tế hàng đầu Annals of Statistics với tiêu đề “ Đa phương sai khoảng cách: Các phương pháp đo lường sự phụ thuộc mới cho các vectơ ngẫu nhiên.
”Martin Keller-Ressel giải thích: “Từ tính toán số đo lường phụ thuộc, không chỉ các giá trị của các biến quan sát mà cả khoảng cách giữa chúng cũng được ghi lại và từ các ma trận khoảng cách này, đa phương sai khoảng cách được tính toán. Bước trung gian này cho phép phát hiện các sự phụ thuộc phức tạp, mà hệ số tương quan thông thường sẽ đơn giản bỏ qua. Phương pháp của chúng tôi có thể được áp dụng cho các câu hỏi trong lĩnh vực tin sinh học, lĩnh vực khoa học mà các bộ dữ liệu lớn cần được phân tích”.
Trong một nghiên cứu tiếp theo, người ta đã chỉ ra rằng hệ số tương quan cổ điển và các biện pháp đo lường sự phụ thuộc đã biết khác có thể được lấy lại như các trường hợp đường biên từ đa phương sai khoảng cách.
Bjorn Böttcher kết luận bằng cách chỉ ra: “Chúng tôi cung cấp tất cả các chức năng cần thiết trong gói đa phương sai cho phần mềm thống kê miễn phí R, để tất cả các bên quan tâm có thể kiểm tra việc áp dụng phương pháp đo lường sự phụ thuộc mới”.
Phạm Hạnh (dịch)
Nguồn: https://phys.org/news/2019-08-mathematicians-statistical-indicator.html