Hệ thống thống kê của Thụy Sĩ được tăng cường bởi dữ liệu lớn

Một lượng lớn dữ liệu kỹ thuật số đã được thu thập, lưu trữ và chia sẻ trong vài năm gần đây từ các nguồn như phương tiện truyền thông xã hội, hệ thống định vị địa lý và hình ảnh trên không từ máy bay không người lái và vệ tinh, điều này đem lại cho các nhà nghiên cứu nhiều phương pháp mới để nghiên cứu thông tin và giải mã thế giới của chúng ta. Tại Thụy Sĩ, Văn phòng Thống kê Liên bang (FSO) đã quan tâm đến cuộc cách mạng dữ liệu lớn và những khả năng mà chúng đem lại để tạo ra số liệu thống kê dự báo vì lợi ích của xã hội.

Các phương pháp thông thường như tổng điều tra và điều tra mẫu vẫn là chuẩn mực để tạo ra các chỉ số kinh tế – xã hội ở cấp thành phố, tiểu bang và quốc gia. Nhưng các phương pháp này hiện có thể được bổ sung bằng dữ liệu thứ cấp, hầu hết đã có từ trước, từ các nguồn như đăng ký điện thoại di động và thẻ tín dụng. Theo Chiến lược đổi mới dữ liệu năm 2017 của FSO, “Mục tiêu của đổi mới dữ liệu là nâng cao chất lượng, phạm vi và hiệu quả chi phí của các sản phẩm thống kê và giảm gánh nặng trả lời cho các hộ gia đình và doanh nghiệp”.

Dữ liệu ẩn danh

Trong bối cảnh đó, một nhóm các nhà khoa học tại Phòng thí nghiệm EPFL về Mối quan hệ giữa con người và môi trường trong các hệ thống đô thị (Human Environment Relations in Urban Systems – HERUS) đã thực hiện một nghiên cứu đột phá về cách sử dụng mới cho dữ liệu do các công ty bảo hiểm nắm giữ. Công ty đối tác hàng đầu của phòng thí nghiệm, La Mobilière, đã cung cấp dữ liệu ẩn danh từ hàng trăm nghìn chủ hợp đồng. Những dữ liệu này bao gồm các yếu tố như tuổi, mã bưu chính  nơi sinh sống, quyền sở hữu nhà, ô tô, và tình trạng việc làm.

“Chúng tôi muốn xem liệu chúng tôi có thể sử dụng những dữ liệu này để dự báo các chỉ số kinh tế – xã hội cụ thể hay không – những chỉ số có thể cho chúng tôi bức tranh tốt hơn về chất lượng của các khu vực đô thị của Thụy Sĩ. Một lợi thế lớn của dữ liệu do các công ty bảo hiểm nắm giữ – miễn là họ sẵn sàng” Emanuele Massaro, tác giả chính của nghiên cứu, được xuất bản trên PLOS ONE ngày 3 tháng 3 cho biết.

Sử dụng các kỹ thuật khai thác dữ liệu, nhóm nghiên cứu đã trích xuất các thông tin liên quan và tổng hợp lại để nó bao phủ 170 thị trấn đông dân nhất của Thụy Sĩ. Tổng cộng, họ đã thu được gần 600.000 hồ sơ, mỗi hồ sơ được xác định bằng một mã duy nhất. Lorenzo Donadio, thạc sỹ về khoa học và kỹ thuật môi trường tại EPFL và là tác giả đầu tiên của nghiên cứu cho biết: “Bộ dữ liệu của La Mobilière rất đầy đủ; nó chứa nhiều thông tin cho phép chúng tôi tính đến hơn 30 biến, mà chúng tôi sử dụng chủ yếu để chọn những biến phù hợp nhất với từng chỉ số kinh tế – xã hội”.

Mô hình hồi quy không gian

Các nhà khoa học đã phát triển một mô hình hồi quy không gian để dự đoán chính xác 12 biến thuộc 6 nhóm: dân số, giao thông, việc làm, không gian và khu vực, nhà ở và nền kinh tế. Massaro nói “Tất nhiên, các dự báo của chúng tôi không thể thay thế các cuộc tổng điều tra chính thức, nhưng chúng có thể đóng vai trò là các chỉ dẫn hàng năm. Chúng tôi cũng muốn chứng minh rằng bộ dữ liệu của các công ty bảo hiểm chứa rất nhiều thông tin có liên quan đến xã hội – ngoài những gì họ sử dụng để tiếp thị và nghiên cứu thị trường – và các công ty bảo hiểm nên xem xét hợp tác chặt chẽ hơn với các nhà nghiên cứu”.

Mô hình thống kê của nhóm được phát triển chỉ cho mục đích nghiên cứu và không có ứng dụng thực tế như vậy. Mô hình có thể được sử dụng để giúp các nhà hoạch định chính sách, nhưng dữ liệu tổng điều tra thường xuyên vẫn cần thiết. Dữ liệu của La Mobilière thiếu một số thông tin nhất định, chẳng hạn như đối với thanh niên dưới 18 tuổi, nhưng nó vẫn đại diện cho một phần lớn dân số. Massaro nói: “Mô hình của chúng tôi có thể được sử dụng bởi các nhà hoạch định chính sách thành phố và cơ quan thống kê của chính phủ, có thể kết hợp loại thông tin này trong nỗ lực hiện đại hóa của họ. Bộ dữ liệu của các công ty bảo hiểm rất chi tiết vì chúng chứa thông tin rất cụ thể về khách hàng của họ”.

Lan Phương (dịch)

Nguồn: https://phys.org/news/2021-03-swiss-statistical-big.html