Dữ liệu lớn và số liệu Thống kê

Dữ liệu lớn (Big data) hiện nay được sử dụng ngày càng nhiều trong ngành Thống kê do đó cần phát triển các phương pháp mới, công cụ và ý tưởng để sử dụng nguồn dữ liệu lớn sao cho có hiệu quả nhất.

Một trong những kết luận tại Hội thảo về Hiện đại hóa sản xuất và dịch vụ thống kê tổ chức tại (St. Petersburg, Liên bang Nga, 3-5 tháng 10 năm 2012) những người tham gia nhận thấy “cần phải có một bộ tài liệu giải thích các vấn đề liên quan đến việc sử dụng dữ liệu lớn trong thống kê”.

Để giải quyết vấn đề này, Tập đoàn hiện đại hoá sản xuất và dịch vụ thống kê (HLG) đã thành lập nhóm tham gia bao gồm các chuyên gia trong nước và quốc tế, phối hợp với Ban Thư ký UNECE. Các thành viên của nhóm này bao gồm: Michael Glasson (Australia), Julie Trepanier (Canada), Vincenzo Patruno (Italy), Piet DAAS (Hà Lan), MichailSkaliotis (Eurostat) và Anjum Khan (UNECE). Sau khi thống nhất về nội dung nhóm đã đưa ra được một bộ tài liệu cơ bản về dữ liệu lớn (Big data).

Nguồn gốc hình thành ý tưởng Big data.

Trong thế giới hiện đại của chúng ta có nhiều dữ liệu được tạo ra trong quá trình hoạt động thông tin như hoạt động của những website hoặc được tạo ra bởi các bộ cảm biến trong thiết bị điện tử sử dụng hàng ngày như máy tính. Số lượng dữ liệu nhiều và tần xuất mà chúng được tạo ra liên tục từ đó đã dẫn đến ý tưởng hình thành về ‘dữ liệu lớn’. Dữ liệu lớn được mô tả như là bộ dữ liệu tập hợp có tốc độ truy cập và truy xuất nhanh, số lượng dữ liệu lớn, đa dạng về kiểu dữ liệu,và độ chính xác cao, dữ liệu lớn thường không có cấu trúc xác định chung, nghĩa là nó không có mô hình dữ liệu được xác định trước điều này dẫn tới việc dữ liệu lớn không phát huy hiệu quả trong việc sử dụng cho cơ sở dữ liệu quan hệ thông thường. Tuy nhiên, để khai thác hiệu quả những thông tin từ Big data thì việc kết hợp Big data vào quá trình sản xuất thông tin thống kê không phải là đơn giản mà cần đỏi hỏi cả một quy trình kiểm tra về mọi mặt: nguồn dữ liệu, kiểu dữ liệu, cấu trúc dữ liệu như thế nào thì mới có thể tạo được dữ liệu lớn đáp ứng việc dùng có hiệu quả.

Khái niệm

Dữ liệu lớn có thể được định nghĩa là một dạng biến thể của định nghĩa được sử dụng bởi Gartner cho rằng Dữ liệu lớn là những nguồn dữ liệu có thể được mô tả chung như sau: “dung lượng lớn, tốc độ truy xuất nhanh và cấu trúc dữ liệu đa dạng.”

Nguồn dữ liệu lớn ở đâu ra?

Qua thực tế “dữ liệu lớn” làm cho chúng ta nhận thấy thế giới của chúng ta hiện nay trở nên phong phú một phần là nhờ vào các dữ liệu, chính nhờ nó mà thông tin về mọi mặt trong xã hội đều được thể hiện rõ ràng qua từng con số hay các bộ dữ liệu liên kết với nhau, điều này rất có ích đối với Thống kê. Hiện nay chủ yếu có hai cách khác nhau mà các tổ chức quốc gia và tổ chức quốc tế (IO) sản xuất dữ liệu thống kê là từ: cuộc điều tra mẫu và từ các nguồn dữ liệu hành chính bao gồm công việc đăng ký thông tin. Khi đó các câu hỏi cần được giải quyết là: làm thế nào để dữ liệu lớn có thể giúp đo lường chính xác hơn và kịp thời các hiện tượng kinh tế, xã hội và môi trường?

Từ đó có thể thấy các nguồn dữ liệu lớn có thể được phân loại nguồn gốc như sau:

–   Dữ liệu từ nguồn Hành chính ( phát sinh từ chương trình của một tổ chức, có thể là chính phủ hay phi chính phủ), ví dụ như hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng, các ngân hàng thực phẩm, vv …

–   Dữ liệu từ nguồn Thương mại hoặc giao dịch: (phát sinh từ các giao dịch giữa hai thực thể), ví dụ như các giao dịch thẻ tín dụng, giao dịch trên mạng (bao gồm cả từ các thiết bị di động).

–   Dữ liệu từ nguồn  các  thiết bị cảm biến  như hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu,

–       Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại di động, GPS

–       Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (về một sản phẩm, một dịch vụ hay bất kỳ loại thông tin khác), trang xem trực tuyến, …

–       Dữ liệu từ các thông tin ý kiến trên các phương tiện thông tin xã hội,

Vai trò của Big data

Dữ liệu lớn có thể dùng để sản xuất số liệu thống kê chính xác hơn và kịp thời hơn so với các nguồn số liệu thống kê truyền thống. Số liệu thống kê hiện nay gần như phụ thuộc vào bộ dữ liệu khảo sát và thu thập dữ liệu hành chính từ các chương trình của chính phủ, hoặc phi chính phủ, các tổ chức quốc tế trong và ngoài nước và được luật pháp thừa nhận và bảo vệ trong quá trình hoạt động.

Những vấn đề trong việc sử dụng dữ liệu lớn :

Việc sử dụng các dữ liệu lớn dùng làm số liệu thống kê cần chú ý một số vấn đề sau: Luật pháp, liên quan đến việc truy cập và sử dụng dữ liệu, Bảo mật, Tài chính, Quản lý, Phương pháp sắp xếp – trình bày dữ liệu lớn, Công nghệ thông tin.

1. Luật pháp, liên quan đến việc truy cập và sử dụng dữ liệu.

Luật pháp ở một số nước (như Canada) có thể cung cấp quyền truy cập dữ liệu từ cả tổ chức chính phủ và phi chính phủ, trong khi những nước khác (ví dụ như Ireland) có thể cung cấp quyền truy cập dữ liệu từ các cơ quan công quyền. Điều này có thể dẫn đến những hạn chế để truy cập vào một số loại dữ liệu lớn.

2. Bảo mật

Định nghĩa có thể thay đổi từ nước này sang nước khác, nhưng riêng “Bảo mật” thường được định nghĩa như là quyền của cá nhân về kiểm soát hay ảnh hưởng đến những thông tin liên quan đến họ trực tiếp hoặc gián tiếp có thể được tiết lộ.

3. Tài chính

Hiện nay để có được dữ liệu lớn khả năng tài chính cũng là một yếu tố quan trọng trong việc chi phí mua dữ liệu, nếu luật pháp không quy định rõ ràng về các phương thức tài chính xung quanh việc mua lại dữ liệu bên ngoài, thì kết quả nhiều khi rất khó xác định, đôi khi chi phí có thể vượt quá khả năng tài chính của các tổ chức quốc gia nhưng lợi ích thì có thể chưa được đánh giá kỹ càng, mặc dù vậy dữ liệu lớn với những khả năng cung cấp thông tin có thể làm tăng hiệu quả của các chương trình của chính phủ (ví dụ như hệ thống y tế) nên hiện nay vẫn có rất nhiều tổ chức ở các quốc gia vẫn chấp nhận chi phí cao để có được các nguồn dữ liệu lớn thông qua nhiều cách tiếp cận khác nhau.

4. Quản lý

Dữ liệu lớn làm cho các số liệu thống kê có ý nghĩa, do đó Tổ chức thống kê ở các quốc gia đều được cung cấp thông tin chung về quản lý thông tin tuy nhiên việc quản lý thông tin đó thì theo những cách riêng khác nhau tùy thuộc vào cách sử dụng ở mỗi quốc gia . Một vấn đề liên quan đến quản lý thông tin hiện nay là nguồn nhân lực. Khoa học dữ liệu lớn đang phát triển mạnh trong những tổ chức tư nhân, trong khi đó bộ phận này chưa được liên kết với những tổ chức của chính phủ một cách chặt chẽ dẫn đến việc quản lý vẫn còn nhiều vướng mắc.

5. Phương pháp sắp xếp, trình bày dữ liệu lớn.

Hiện nay khó khăn trong việc xác định đối tượng, mục tiêu, khung điều tra và phương pháp khảo sát theo cách truyền thống, ví dụ: Với một cuộc khảo sát dân số truyền thống, đầu tiên xác định một mục tiêu khảo sát, xây dựng một khung khảo sát để tiếp cận số dân này, vẽ một mẫu, thu thập dữ liệu vv.. Họ sẽ xây dựng một hộp và điền nó với dữ liệu bên trong một cách có cấu trúc. Nhưng với Big data, dữ liệu đầu vào và đầu ra của nhà thống kê sẽ được xây dựng trong một hộp. Điều này đặt ra câu hỏi  là bằng cách nào để tạo ra một hệ thống liên kết chặt chẽ giữa số liệu thống kê bên trong hiện có với dữ liệu đầu vào của những nhà thống kê thực hiện ở bên ngoài hộp dữ liệu lớn, khi tất cả dữ liệu sau đó sẽ được đưa vào bên trong lưu trữ dữ liệu và sử dụng ?

Một vấn đề khác phương pháp truyền thống hiện nay gặp phải. Dữ liệu nhiều và lớn khi được phân tích thì sử lý ra sao!. Trong khi phương pháp truyền thống được phát triển dành cho việc phân tích kỹ các mẫu nhỏ, hoạt động rất phức tạp, thì ta có thể thấy trong trường hợp này, sẽ không đủ nhanh và cần phải làm mới phương pháp và các công cụ phân tích. Phương pháp mới nhanh hơn có khả năng phát hiện ra thông tin từ số lượng lớn các dữ liệu có sẵn, chẳng hạn như phương pháp dữ liệu trực quan, ngoài ra các kỹ thuật phân tích văn bản, có thể ”làm nhỏ dữ liệu”. Tăng sức mạnh máy tính cũng là một cách để hỗ trợ.

6. Công nghệ thông tin

Việc cải thiện tốc độ truy cập vào các dữ liệu hành chính nghĩa là có thể sử dụng giao diện ứng dụng của Chương trình chuyên sâu tiêu chuẩn (API) để truy cập dữ liệu. Bằng cách này, nó có thể kết nối các ứng dụng cho dữ liệu thu về và xử lý dữ liệu trực tiếp với dữ liệu hành chính. Thu thập dữ liệu trong thời gian thực hoặc gần thời gian giới hạn thực trong thực tế. Tiềm năng của dữ liệu lớn mở ra cơ hội mới để kết hợp dữ liệu hành chính với vận tốc truy cập dữ liệu cao đến từ các nguồn khác nhau, chẳng hạn như:

–  Dữ  liệu thương mại (các giao dịch thẻ tín dụng, về giao dịch trực tuyến, bán hàng, …)..

–  Theo dõi các thiết bị (điện thoại di động, GPS, camera giám sát, ứng dụng) và cảm biến vật lý (giao thông, khí tượng, ô nhiễm môi trường, năng lượng, …).

–  Truyền thông xã hội (twitter, facebook, vv..) và các công cụ tìm kiếm (tìm kiếm trực tuyến,  trang xem trực tuyến)

– Dữ liệu cộng đồng (báo cáo công dân).

Làm thế nào dữ liệu lớn có thể sử dụng phổ biến trong thống kê.

Thông qua một ví dụ: hiện nay tại Hà Lan có khoảng một triệu thông điệp thông tin công cộng được phát trên những phương tiện truyền thông mỗi ngày. Những thông tin này đáp ứng cho bất cứ ai có nhu cầu. Qua đó có thể thấy Phương tiện truyền thông xã hội có thể được ví như là một nguồn dữ liệu  bao gồm thông tin về chủ đề nào đó. Ngoài ra phương tiện truyền thông xã hội ở Hà Lan được phép nghiên cứu và tuyên truyền về hai quan điểm: nội dung và tình cảm cuộc sống. Những nghiên cứu về nội dung thông tin công cộng  tại thời điểm nghiên cứu cho thấy có gần 50% các tin nhắn “vô nghĩa”. Phần còn lại chủ yếu là thảo luận về các hoạt động thời gian rảnh rỗi (10%), công việc (7%), phương tiện truyền thông (TV và Radio; 5%) và chính trị (3%). Những tin nhắn vô nghĩa đôi khi cũng ảnh hưởng xấu đến các phương pháp tiếp cận khai thác thông tin.. từ đó có thể thấy được thông qua truyền thông các nguồn thông tin hàng ngày phục vụ cho nhu cầu con người hàng ngày càng thiết thực.

Thống kê sử dụng Công nghệ Thông tin và Truyền thông (ICT): khi nghiên cứu tính khả thi khai thác các kênh trên internet để thu thập số liệu thống kê về Xã hội thông tin. Theo Eurostat dự án này là nhằm mục đích thử nghiệm và đánh giá tính khả thi của người sử dụng và các phương pháp đo lường web dưới góc độ đa chiều, trong đó bao gồm các kỹ thuật, phương pháp, chi phí, các vấn đề pháp lý và chính trị – xã hội. Nâng cao khả năng kết hợp dữ liệu lớn với số liệu thống kê những gì đã thực hiện trong vài thập kỷ qua, mặc dù có thể là hơi khác nhau, nhưng vẫn có khả năng áp dụng rộng rãi hơn. Trong khi thực hiện, người ta nhận thấy có thể duy trì được cấu trúc của các số liệu thống kê và nâng cao chúng với độ chính xác cao hơn thông qua Big data.

Kết luận

Phần này nhóm tác giả rút ra một số kết luận và đưa ra những kiến nghị là từng bước trong hai năm tiếp theo cần phải xác định một vài dự án thí điểm cụ thể về vấn đề này, đồng thời cũng đưa ra một số kết luận sau:

–  Dữ liệu lớn liên quan đến những vấn đề như: phương pháp, công nghệ, quản lý, pháp lý, và các vấn đề kỹ năng của một Tổ chức thống kê; do đó, khuyến khích giải quyết vấn đề Big data thông qua các chương trình công tác hàng năm và nhiều năm của họ bằng cách thực hiện các dự án nghiên cứu, thí điểm trong các khu vực được lựa chọn và phân bổ nguồn lực phù hợp cho mục đích đó.

–  Sử dụng dữ liệu lớn không phải là dễ dàng so với các nguồn dữ liệu thông thường khác, vì cấu trúc dữ liệu phức tạp, dung lượng lớn.

– Cần hợp tác chặt chẽ giữa các tổ chức Thống kê quốc gia và những tổ chức thống kê tư nhân tạo ra một không gian không có ngăn cách về công nghệ giữa các tổ chức.vv..

Công hoan st và dịch

Nguồn http://www1.unece.org/stat/platform/pages/viewpage.action?pageId=77170614