Dữ liệu tổng hợp có thể xác định lại cách chúng ta chia sẻ những kiến thức thống kê không?

UNECE đang đưa ra hướng dẫn để giúp các nhà sản xuất số liệu thống kê nhà nước tạo ra dữ liệu tổng hợp.

Dữ liệu tạo ra giá trị bằng cách hướng dẫn các quyết định của chính phủ, doanh nghiệp và cá nhân. Giá trị này thường được mô tả dưới dạng thông tin chi tiết có trong những dữ liệu tổng hợp này, ngoài ra có thể giúp đạt mục tiêu đưa các nguồn tài nguyên cần thiết nhất, để đánh giá các chính sách công hoặc lập kế hoạch kinh doanh. Dữ liệu chi tiết hơn có thể chứa nhiều thông tin chi tiết hơn và có giá trị hơn, tùy thuộc vào yêu cầu của người dùng.

Các nhà sản xuất số liệu thống kê nhằm mục đích đáp ứng nhu cầu về những hiểu biết sâu sắc này và bất cứ khi nào có thể cung cấp bình đẳng quyền truy cập. Tuy nhiên, họ phải đối mặt với một hạn chế nghiêm trọng trong việc tạo điều kiện truy cập vào dữ liệu; cụ thể là nhu cầu bảo vệ tính bảo mật của các cá nhân cung cấp dữ liệu, chẳng hạn bằng cách các cá nhân tự điền vào các phiếu điều tra thống kê.

Hạn chế này được phản ánh trong các sản phẩm chính mà các nhà sản xuất số liệu thống kê cung cấp cho người dùng dữ liệu.

Một trong những sản phẩm này là bản tóm tắt tổng hợp của dữ liệu mà người ta thường tìm thấy trên trang web của cơ quan thống kê và được gọi là bảng thống kê. Chúng thường chứa các giá trị tổng hoặc trung bình của một biến quan tâm, chẳng hạn như lương trung bình của người lao động, có thể được chia nhỏ theo các biến khác nhau, chẳng hạn như theo loại nghề nghiệp.

Việc cung cấp các giá trị tổng hợp sẽ bảo vệ danh tính của một người cụ thể đã cung cấp dữ liệu cho họ, nhưng nó cũng làm giảm lượng thông tin chi tiết được cung cấp cho người dùng dữ liệu. Mặc dù những số liệu như vậy có thể phù hợp để đưa vào một báo cáo bằng văn bản, nhưng việc thực hiện các phân tích chuyên sâu để có cái nhìn sâu sắc hơn đòi hỏi phải có dữ liệu chi tiết hơn.

Sản phẩm khác mà các cơ quan thống kê có thể cung cấp là “dữ liệu vi mô”, chứa thông tin chi tiết ở cấp độ cụ thể của các cá nhân và chỉ được cung cấp cho các nhà nghiên cứu đáng tin cậy với lời hứa bảo mật.

Dữ liệu vi mô đặc biệt dễ bị tiết lộ thông tin cá nhân và ngay cả khi tên của mọi người bị xóa khỏi tập dữ liệu, vẫn có thể thiết lập danh tính của họ bằng cách so sánh với các nguồn dữ liệu khác. Do đó, mặc dù dữ liệu vi mô có thể chứa nhiều thông tin chi tiết hơn so với các tóm tắt tổng hợp được mô tả ở trên, nhưng ít người dùng có cơ hội truy cập và sử dụng chúng.

Nói tóm lại, các nhà sản xuất số liệu thống kê thường giới hạn lượng dữ liệu cung cấp cho người dùng hoặc giới hạn đối tượng dùng tin có thể truy cập dữ liệu và theo nhiều cách khác nhau, điều này hạn chế thông tin chi tiết (và giá trị phân tích) có thể được cung cấp cho người dùng dữ liệu nói chung. Sự khao khát dữ liệu chi tiết ngày càng tăng đang gây áp lực ngày càng lớn đối với các nhà sản xuất số liệu thống kê.

Dữ liệu tổng hợp: Một giải pháp khả thi 

Có một giải pháp thay thế khác và phần lớn chưa được khám phá để đáp ứng nhu cầu của những người dùng yêu cầu dữ liệu vi mô: dữ liệu tổng hợp.

Đây có thể được coi là một cách tách dữ liệu khỏi thông tin chi tiết mà chúng chứa và cung cấp những thông tin này cho các nhà nghiên cứu trong một tập dữ liệu nhân tạo, chứa dữ liệu về những cá nhân không tồn tại. Những dữ liệu này được tổng hợp từ dữ liệu thực bằng mô hình hoặc thuật toán. Rõ ràng, dữ liệu như vậy sẽ cần bắt chước dữ liệu thực theo cách sao cho các kết luận rút ra từ chúng sẽ giống hoặc rất giống với kết luận rút ra từ dữ liệu thực.

Đây là một chủ đề mới nổi, thu hút sự quan tâm ngày càng tăng của các nhà sản xuất số liệu thống kê, vì dữ liệu tổng hợp có khả năng cho phép dữ liệu vi mô chi tiết được phát hành một cách an toàn, đồng thời bảo toàn giá trị phân tích của chúng cho người dùng cuối.

Từ khóa ở đây là “có khả năng” bởi vì việc tổng hợp dữ liệu phải được thực hiện cẩn thận, có tính đến mục đích sử dụng phân tích dự kiến ​​của những dữ liệu đó. Phương pháp được chọn để tổng hợp dữ liệu phải tối đa hóa mức độ tương tự của các đặc tính phân tích của chúng với dữ liệu thực, đồng thời giảm đến mức không đáng kể cơ hội xác định bất kỳ cá nhân thực nào.

Mặc dù các bộ dữ liệu tổng hợp đề cập đến những người không tồn tại, nhưng các thuộc tính của chúng không được quá gần với các thuộc tính của những người thực cụ thể, nếu không thông tin cá nhân có thể bị suy ra.

Điều này không dễ thực hiện và các tổ chức thống kê muốn áp dụng dữ liệu tổng hợp cần có hướng dẫn về các phương pháp hay nhất để tuân theo, giúp họ quyết định phương pháp tổng hợp nào phù hợp để tổng hợp dữ liệu trong một kịch bản triển khai nhất định và để hiểu được ưu và nhược điểm của mỗi cách.

Chính vì lý do này mà UNECE đã xuất bản hướng dẫn mới, cung cấp nhiều yếu tố chính cần thiết để bắt đầu khám phá việc triển khai dữ liệu tổng hợp và cung cấp nền tảng để thúc đẩy sự phát triển hơn nữa của lĩnh vực này trong tương lai.

Tình trạng hiện tại của dữ liệu tổng hợp trong các tổ chức thống kê là gì? Tương lai nắm giữ điều gì? 

Các nhà sản xuất số liệu thống kê đã khá thận trọng trong các ứng dụng dữ liệu tổng hợp của họ và với lý do chính đáng là tính bảo mật của dữ liệu cá nhân và tính chính xác của bất kỳ kết luận nào được đưa ra là tối quan trọng.

Một số, chẳng hạn như Thống kê Canada và Nghiên cứu theo thời gian của Scotland đã cung cấp cho các nhà nghiên cứu dữ liệu tổng hợp để phân tích thăm dò, điều này rất hữu ích để tránh phải di chuyển đến một địa điểm an toàn nơi truy cập dữ liệu vi mô thực, hoặc để bắt đầu nghiên cứu trong khi chờ cấp phép của cơ quan quản lý yêu cầu truy cập dữ liệu thực. Trong cả hai trường hợp, bắt buộc phải thu được các kết quả chất lượng xuất bản cuối cùng bằng cách thực hiện các mô hình của chúng trên dữ liệu vi mô thực.

Trong một ví dụ khác, Cơ quan Thống kê New Zealand đã xuất bản dữ liệu vi mô tổng hợp bắt chước một số dữ liệu từ tổng điều tra, được cung cấp cho mục đích giảng dạy và học tập.

Những hạn chế mà các tổ chức này đặt ra đối với việc sử dụng dữ liệu tổng hợp của họ cung cấp một biện pháp bảo vệ tự động chống lại bất kỳ sự khác biệt nào giữa các phát hiện thu được từ dữ liệu tổng hợp và dữ liệu thực. Nhưng liệu có thể tiến xa hơn và phát hành dữ liệu tổng hợp với ít hạn chế hơn đối với việc sử dụng chúng không?

Ở một mức độ nào đó, điều này đã có thể thực hiện được từ quan điểm kỹ thuật. Có nhiều phương pháp khác nhau để tổng hợp dữ liệu và một trong số chúng có thể thực hiện theo cách sẽ tái tạo chặt chẽ một số kết quả nhất định từ dữ liệu thực. Ví dụ: có thể tạo dữ liệu vi mô tổng hợp về dân số của một quốc gia sao cho tuổi trung bình của dân số đó gần giống với độ tuổi thu được nếu tính toán đó được thực hiện bằng dữ liệu điều tra dân số thực. Người ta cũng có thể duy trì mối tương quan giữa các biến trong tập dữ liệu đó nếu người dùng dữ liệu cần.

Tuy nhiên, cách tiếp cận này để tạo dữ liệu tổng hợp đòi hỏi phải có kiến ​​thức vững chắc về cách sử dụng dữ liệu đó và những thuộc tính phân tích nào cần duy trì, vì vậy có thể không phù hợp nếu mục đích là cung cấp tập dữ liệu cho mục đích sử dụng chung.

Lĩnh vực dữ liệu tổng hợp và các khả năng mà nó mang lại cho các cơ quan thống kê và những người sử dụng dữ liệu lớn hơn đang không ngừng mở rộng. Với sự xuất hiện của học sâu, một loại thuật toán học máy, các khả năng mới đang xuất hiện trong lĩnh vực này để tạo dữ liệu tổng hợp từ nhiều nguồn dữ liệu hơn, chẳng hạn như ảnh vệ tinh hoặc dữ liệu phi cấu trúc.

Ngay lập tức (và có lẽ thực tế hơn) tác động của việc phát hành dữ liệu tổng hợp có thể là tạo sân chơi bình đẳng để cho phép nghiên cứu phân tích nâng cao được thực hiện bởi các đối tượng người dùng ngoài những người thường được phép truy cập dữ liệu vi mô thực (thường chủ yếu được những người làm việc trong giới học thuật hoặc các nhà nghiên cứu của chính phủ đã có quyền truy cập vào nó).

Dữ liệu tổng hợp có thể được các công ty và cá nhân sử dụng nhiều hơn để thực hiện các phân tích phức tạp (chẳng hạn như học máy), để thu được giá trị phân tích từ những dữ liệu đó. Ví dụ, người ta có thể tưởng tượng một doanh nhân làm như vậy để xác định các cơ hội kinh doanh cho một công ty mới thành lập. Với số lượng tài nguyên được sử dụng để thu thập dữ liệu thống kê, điều quan trọng là tối đa hóa mức độ sử dụng của chúng.

Ấn phẩm mới của UNECE, Dữ liệu tổng hợp cho thống kê chính thức: Hướng dẫn cho người mới bắt đầu, kết hợp sự đóng góp của các chuyên gia từ giới học thuật và giới thương mại, cũng như các chuyên gia trong nước từ Úc, Canada, Đức, Hà Lan, New Zealand, Na Uy, Vương quốc Anh và Hợp chủng quốc Hòa Kỳ. Nó bắt nguồn từ một dự án do Cơ quan Thống kê Canada đứng đầu dưới sự bảo trợ của Nhóm Cấp cao về Hiện đại hóa Thống kê chính thức, bộ phận hiện đại hóa của Hội nghị Thống kê Châu Âu của UNECE.

ĐN (lược dịch)

Nguồn: https://unece.org/media/Statistics/press/375133