Big Data trong Thống kê

Sử dụng dữ liệu lớn (Big data) để sản xuất thông tin thống kê đã được xác lập. Nó đang, sẽ được phát triển nhanh và rộng rãi ở nhiều quốc gia. Sau đây là những nét cơ bản về Big data và sử dụng nó trong thống kê.

Tổ chức liên hợp quốc thảo luận về Big Data trong Thống kê chính thức

Tổ chức Thống kê Liên hợp quốc đã tập hợp nhóm cộng đồng các nhà thống kê học quốc tế lại để cùng nhau tham gia đóng góp, chia sẻ kiến thức và kinh nghiệm về việc sử dụng Big Data trong Thống kê. Nhóm làm việc quốc tế (GWG) hướng tới giải pháp cho những người sử dụng thông tin thống kê từ nguồn dữ liệu lớn (Big Data) của Chính phủ, tổ chức cá nhân, viện khoa học, tổ chức dân sự và các tổ chức khác.

Đồng thời GWG chuẩn bị các tình huống, phương pháp, công cụ, giải pháp để sản xuất thông tin thống kê từ nguồn dữ liệu lớn. Bên cạnh đó là các dự án thí nghiệm minh họa và khảo sát điều tra về việc sử dụng Big data trong Thống kê. Để đạt được mục đích đặt ra, 8 nội dung công việc được chỉ ra và tổ chức thực hiện, đó là:

  • Vận động và tuyên truyền;
  • Sử dụng Big Data cho các mục tiêu phát triển bền vững (SDGs);
  • Truy cập dữ liệu và hợp tác;
  • Đào tạo, các kỹ năng và xây dựng năng lực;
  • Các vấn đề xuyên suốt;
  • Dữ liệu từ điện thoại di động;
  • Dữ liệu từ hình ảnh vệ tinh và viễn thám;
  • Dữ liệu từ phương tiện truyền thông và internet.

Tại sao chúng ta cần Big Data?

Những người làm chính sách, truyền thông và xã hội đều mong muốn có số liệu thống kê tốt hơn, nhanh hơn và chi tiết hơn.

Nghị sự của hội nghị về mục tiêu phát triển bền vững đến năm 2030 (Sustainable Development) nhấn mạnh vào trách nhiệm giải trình và bắt buộc tham gia của các quốc gia.

Các vấn đề mới hiện nay sẽ rất khó để đo lường bằng nguồn dữ liệu truyền thống. Vì những thực tế đó, các tổ chức thống kê phải hiện đại hóa để tồn tại, phù hợp và phát triển.

SDGs đã chỉ rõ các cơ hội khi sử dụng nguồn dữ liệu Big data và kỹ năng trong việc hoàn thiện các khoảng trống dữ liệu, cung cấp nhận thức sâu sắc với tần suất và giải pháp tốt hơn, và sử dụng công nghệ kỹ thuật là cách thức mới để đo lường thế giới xung quanh chúng ta.

Nguồn dữ liệu Big data

Dữ liệu Big data được tập hợp từ đa dạng các nguồn: di động và điện thoại thông minh, web, banking và các dịch vụ tự động khác, dữ liệu máy quét, hình ảnh vệ tinh và dự liệu địa lý, dữ liệu phương tiện truyền thông, công cụ đo lường thông minh và các nguồn dữ liệu khác.

Dự báo đến 2020 về khối lượng thông tin chia theo các nguồn trong dữ liệu Big data

Các ví dụ về sử dụng Big Data trong thống kê

Dữ liệu điện thoại di động

  • Nắm được sự di chuyển dân số, di trú và du lịch bằng việc sử dụng dữ liệu vị trí;
  • Phân vùng nghèo dựa trên thói quen sử dụng của người sử dụng điện thoại di động và thời gian phát hành giao dịch tín dụng;
  • Cung cấp thống kê dân số theo thời gian thực và sự di chuyển dân số.

Dữ liệu từ hình ảnh vệ tinh và viễn thám

  • Đo lường sản xuất cây trồng và thu hoạch, cũng như ước tính tỷ lệ đất sử dụng;
  • Đo lường và lập bản đồ đất che phủ, đất sử dụng, tình trạng của các hệ sinh thái và tác động thiên tai;
  • Đánh giá tình hình chấp hành luật giao thông đường bộ bằng cách sử dụng các cảm biến đường bộ.

Dữ liệu từ phương tiện truyền thông

  • Sử dụng các tin nhắn trên phương tiện truyền thông để lấy ra thông tin về dân số;
  • Thu thập giá đồ ăn theo thời gian bằng việc sử dụng tin nhắn Twitter;
  • Khảo sát tính năng động của thị trường lao động qua công cụ tìm kiếm Google và các xu hướng.

Các dữ liệu khác

  • Ước tính tình trạng việc làm dựa trên thông tin từ các cổng thông tin việc làm;
  • Tạo ra các thống kê về giá bán bằng cách lọc dữ liệu từ website của các hãng bán lẻ online;
  • Sử dụng dữ liệu giao dịch từ các siêu thị để xác định giá và thống kê thương mại bán lẻ;

Big Data có thể đảm bảo về chất lượng dữ liệu như thế nào?

Hoàn thiện khoảng trống dữ liệu: Bổ sung các nguồn dữ liệu ban đầu cho thống kê khi mà nguồn dữ liệu truyền thống là không đủ khả năng;

Lợi thế đạt được: rẻ hơn và nhanh hơn, cho phép các cơ quan thống kê đạt được nhiều thứ hơn, trong đó giảm thiểu được gánh nặng phản hồi, kinh phí trong thu thập thông tin theo lối truyền thống;

Nâng cao độ chính xác của dữ liệu: cung cấp sự hiểu biết sâu sắc cho việc ra quyết định dựa trên những bằng chứng nhanh hơn;

Các bên liên quan: là cơ sở tin cậy trong cam kết quan hệ đối tác giữa các bên liên quan khác nhau như là tổ chức cá nhân, Viện khoa học và tổ chức dân sự.

Cơ hội trong tương lai

Các cơ quan thống kê trên khắp thế giới đã, đang và sẽ xác định rõ điều cần thiết để giải quyết những thách thức trong việc kết hợp Big data với công việc hiện tại với các bước đi ban đầu là:

  • Đào tạo, nâng cao trình độ về Big data;
  • Khung chuẩn chất lượng;
  • Tiếp cận về Big data;
  • Xác định nguồn kinh phí;
  • Hợp tác với các viện khoa học và tổ chức cá nhân./.

Nguồn UN Global working Group (link: http://unstats.un.org/unsd/bigdata/)

Vũ Trọng Nghĩa (tổng hợp)