Việc phân tích và giải thích các bộ dữ liệu không gian lớn bao gồm hàng triệu vị trí giám sát và nhiều tham số cũng như quan sát theo thời gian là một lĩnh vực mới trong khoa học dữ liệu và thống kê. Các bộ dữ liệu như vậy không chỉ yêu cầu các hệ thống máy tính chuyên dụng cao để lưu trữ và xử lý dữ liệu, mà còn yêu cầu các phương pháp thống kê mới có thể giảm khối lượng tính toán trong khi vẫn giữ được khả năng diễn giải và độ chính xác. Tuy nhiên, khi các nhóm thống kê khác nhau trên khắp thế giới thực hành các phương pháp bằng cách sử dụng bộ dữ liệu nội bộ của riêng họ, không có cách nào để so sánh một cách khách quan độ chính xác và hiệu suất của các phương pháp thống kê khác nhau.
Các nhà tổ chức sự kiện dự đoán rằng cuộc thi có thể giúp giải quyết nhu cầu này. Sameh Abdulah, một nhà khoa học nghiên cứu và là người tổ chức cuộc thi cho biết: “Cuộc thi này được thúc đẩy bởi sự vắng mặt của bộ điểm chuẩn chung cho các phương pháp thống kê không gian hiện có để đánh giá độ chính xác của chúng với các loại dữ liệu khác nhau”.
“Bằng cách sử dụng phần mềm ExaGeoStat của chúng tôi, chúng tôi có thể tạo các loại dữ liệu và kích thước khác nhau có thể được sử dụng để đánh giá các phương pháp hiện có trong cả khả năng lập mô hình và dự đoán,” Abdulah giải thích.
“Hầu hết các công cụ hiện có có thể xử lý các tập dữ liệu lớn bằng các phương pháp gần đúng khác nhau, nhưng rất khó để đánh giá hiệu quả của chúng vì nhìn chung không có giải pháp chính xác nào cho các tập dữ liệu mà chúng đang phân tích. ExaGeoStat có thể tạo các tập dữ liệu không gian địa lý rất lớn và lập mô hình chúng để tính toán các giải pháp chính xác có thể được sử dụng để đánh giá tính chính xác và hiệu quả của một phương pháp thống kê.”
Đặt sáu thử thách khác nhau trên ba loại bộ dữ liệu, các đối thủ cạnh tranh đã áp dụng các phương pháp thống kê tương ứng của họ để rút ra các xấp xỉ mô hình tốt nhất. Những người chiến thắng trong sáu thử thách là các nhóm từ KAUST cũng như từ Pháp, Đài Loan, Trung Quốc và Hoa Kỳ.
“Cuộc thi này giúp chứng minh cách phần mềm ExaGeoStat của chúng tôi có thể xử lý dữ liệu không gian địa lý lớn trên kiến trúc phần cứng hàng đầu, cũng như giới thiệu các công cụ và phương pháp tốt nhất để lập mô hình và dự đoán chính xác,” Abdulah nói. “Chúng tôi hy vọng điều này sẽ giúp cải thiện hiệu quả của mô hình hóa và dự đoán cho các ứng dụng như dự báo khí hậu và thời tiết, đồng thời tăng cường đầu tư vào thống kê không gian.”
Chi tiết xem tại: https://phys.org/news/2023-03-competition-spatial-statistics-showcases-global.html
Hoàng Vinh (dịch)
Nguồn: https://phys.org/news/2023-03-competition-spatial-statistics-showcases-global.html