Cạnh tranh về số liệu thống kê không gian thể hiện trạng thái nghệ thuật toàn cầu trong việc phân tích các bộ dữ liệu không gian rộng lớn
Vào năm 2021, KAUST đã tổ chức cuộc thi quốc tế đầu tiên “Thống kê không gian cho tập dữ liệu lớn” bằng cách sử dụng tập dữ liệu tham chiếu của ExaGeoStat. Sau sự kiện thành công đó, Dự án Địa lý Exascale (ExaGeoStat) do Marc Genton và Ying Sun đứng đầu đã tổ chức cuộc thi thứ hai vào tháng 3 đến tháng 5 năm 2022, thu hút các nhà nghiên cứu từ mười nhóm trên khắp thế giới.
Việc phân tích và giải thích các bộ dữ liệu không gian lớn bao gồm hàng triệu vị trí giám sát và nhiều tham số cũng như quan sát theo thời gian là một lĩnh vực mới trong khoa học dữ liệu và thống kê. Các bộ dữ liệu như vậy không chỉ yêu cầu các hệ thống máy tính chuyên dụng cao để lưu trữ và xử lý dữ liệu, mà còn yêu cầu các phương pháp thống kê mới có thể giảm khối lượng tính toán trong khi vẫn giữ được khả năng diễn giải và độ chính xác. Tuy nhiên, khi các nhóm thống kê khác nhau trên khắp thế giới thực hành các phương pháp bằng cách sử dụng bộ dữ liệu nội bộ của riêng họ, không có cách nào để so sánh một cách khách quan độ chính xác và hiệu suất của các phương pháp thống kê khác nhau.
Các nhà tổ chức sự kiện dự đoán rằng cuộc thi có thể giúp giải quyết nhu cầu này. Sameh Abdulah, một nhà khoa học nghiên cứu và là người tổ chức cuộc thi cho biết: “Cuộc thi này được thúc đẩy bởi sự vắng mặt của bộ điểm chuẩn chung cho các phương pháp thống kê không gian hiện có để đánh giá độ chính xác của chúng với các loại dữ liệu khác nhau”.
“Bằng cách sử dụng phần mềm ExaGeoStat của chúng tôi, chúng tôi có thể tạo các loại dữ liệu và kích thước khác nhau có thể được sử dụng để đánh giá các phương pháp hiện có trong cả khả năng lập mô hình và dự đoán,” Abdulah giải thích.
“Hầu hết các công cụ hiện có có thể xử lý các tập dữ liệu lớn bằng các phương pháp gần đúng khác nhau, nhưng rất khó để đánh giá hiệu quả của chúng vì nhìn chung không có giải pháp chính xác nào cho các tập dữ liệu mà chúng đang phân tích. ExaGeoStat có thể tạo các tập dữ liệu không gian địa lý rất lớn và lập mô hình chúng để tính toán các giải pháp chính xác có thể được sử dụng để đánh giá tính chính xác và hiệu quả của một phương pháp thống kê.”
Đặt sáu thử thách khác nhau trên ba loại bộ dữ liệu, các đối thủ cạnh tranh đã áp dụng các phương pháp thống kê tương ứng của họ để rút ra các xấp xỉ mô hình tốt nhất. Những người chiến thắng trong sáu thử thách là các nhóm từ KAUST cũng như từ Pháp, Đài Loan, Trung Quốc và Hoa Kỳ.
“Cuộc thi này giúp chứng minh cách phần mềm ExaGeoStat của chúng tôi có thể xử lý dữ liệu không gian địa lý lớn trên kiến trúc phần cứng hàng đầu, cũng như giới thiệu các công cụ và phương pháp tốt nhất để lập mô hình và dự đoán chính xác,” Abdulah nói. “Chúng tôi hy vọng điều này sẽ giúp cải thiện hiệu quả của mô hình hóa và dự đoán cho các ứng dụng như dự báo khí hậu và thời tiết, đồng thời tăng cường đầu tư vào thống kê không gian.”
Chi tiết xem tại: https://phys.org/news/2023-03-competition-spatial-statistics-showcases-global.html
Hoàng Vinh (dịch)
Nguồn: https://phys.org/news/2023-03-competition-spatial-statistics-showcases-global.html