Từng lúc một, chúng ta tạo ra dữ liệu. Từ Paris đến Dakar, từ Jakarta đến New York, các hoạt động hàng ngày của chúng ta (tiêu dùng, giao tiếp, di chuyển …) tạo ra các dữ liệu, những “mảnh vụn dạng số” mà chúng ta để lại đằng sau chúng ta. Những thông tin đó tiềm tàng có ích cho sự phát triển. Như thế nào? Phỏng vấn Thomas Roca, kinh tế gia tại AFD.
Khái niệm “dữ liệu lớn” là một tập hợp các dữ liệu không đồng nhất – nếu không muốn nói là hỗn tạp. Người ta thường mô tả chúng bằng ba chữ “V” là ba chữ viết tắt của “Vélocité (tốc độ cập nhật cao)“, “Variété (đa dạng)” (hình ảnh, dữ liệu điện thoại di động, dữ liệu cảm biến, văn bản, v.v.) và “Volume (khối lượng)”, khối lượng thông tin phát sinh cực kì lớn. Tuy nhiên, mô tả này đặt yếu tố con người đằng sau dữ liệu, nó bỏ qua tác động của khối lượng thông tin này đến việc tổ chức các xã hội của chúng ta.“Dữ liệu lớn” là gì?
Những kiểu dữ liệu mới nêu trên đặt ra những thách thức nào?
Không nên xem những thách thức do việc dữ liệu hóa thế giới đặt ra chỉ là những vấn đề thuần túy kỹ thuật. Những thách thức này cũng đồng thời mang tính chính trị và đạo đức. Ai sở hữu các dữ liệu phát sinh từ điện thoại di động của chúng ta hoặc hoạt động của chúng ta trên các mạng xã hội? Làm thế nào để bảo vệ sự riêng tư của công dân? Làm thế nào để điều tiết những cách sử dụng các dữ liệu này?
Việc chúng ta không thể biết trước được cách các dữ liệu cá nhân của chúng ta sẽ được sử dụng như thế nào đặt ra một vấn đề đạo đức. Nếu các dữ liệu ấy được bán cho một cơ quan an ninh nước ngoài, thì liệu chúng ta có được thông báo không? Chúng ta có thể từ chối không? Ngày nay, câu trả lời là không, bởi vì để sử dụng các mạng xã hội, mỗi người sử dụng đều “đồng ý rõ ràng” cho việc tái sử dụng các dữ liệu cá nhân của mình, mà không biết là chúng sẽ được sử dụng như thế nào trong tương lai. Thật vậy, rất nhiều khi chính người điều hành cũng không biết! Khi được thành lập, Facebook còn lâu mới tưởng tượng hết những lợi ích thương mại một ngày nào đó của những thông tin thu thập được. Vì vậy, dù không phải là mục đích ban đầu, nó vẫn tạo ra một mô hình kinh doanh mới.
Giống như đạo đức học trong sinh học, cần phải xác định các quy tắc, ở cấp độ quốc tế, để xác định tính đạo đức của dữ liệu, một “đạo đức học về dữ liệu“. Do tính đa dạng của dữ liệu, tính gần như độc quyền của khu vực tư trong việc thu thập dữ liệu cũng như do tầm quan trọng chiến lược của dữ liệu trong một nền kinh tế phi vật chất, nên việc hình thành một “sự đồng thuận toàn cầu về dữ liệu” là điều phức tạp.
Cho đến nay những quy định của các quốc gia – hoặc của châu Âu – đã xác định một số quy tắc bảo vệ công dân, ít nhiều có hiệu quả. Tuy nhiên, những quy định quá khắt khe có thể gây trở ngại cho sự sáng tạo và cho việc sử dụng các dữ liệu trên phục vụ cho các chính sách công. Vậy đặt con trỏ ở đâu?
Cho đến nay, chưa có một giải pháp mang tính thể chế nào cho phép việc hình thành một nền tảng các dữ liệu cá nhân, mở nhưng được bảo vệ (ẩn danh, với quyền truy cập hạn chế, v.v.) có thể được sử dụng trong việc xây dựng các chính sách công. Tuy nhiên, những dự án như vậy đang được thảo luận tại Liên Hợp Quốc và Ngân hàng Thế giới. Về phía các doanh nghiệp, công ty Orange là một trong những tác nhân rất tích cực trong các cuộc thảo luận trên. Sau sự thành công của những thách thức Data for Development (Dữ liệu cho sự phát triển)[1], công ty Orange mong muốn tiếp tục theo đuổi những nỗ lực của mình và khuyến khích các doanh nghiệp tư nhân khác cùng tham gia trong việc “cung cấp có kiểm soát” một số dữ liệu hữu ích phục vụ cho sự phát triển. Dự án Data for Climate Action (Dữ liệu cho hành động về khí hậu) là một trong những dự án có thể làm thay đổi tình hình, nếu có một số lượng các doanh nghiệp đủ để huy động việc cung cấp các dữ liệu mới nhằm mục đích hiểu rõ hơn tác động của sự biến đổi khí hậu và của những biến đổi về môi trường trên dân cư.
“Dữ liệu lớn” có thể đóng vai trò gì trong các ngành khoa học xã hội?
Các kiểu dữ liệu mới mang lại một cách nhìn khác về thế giới, bổ sung cho thế giới quan từ các số liệu thống kê hiện hữu. Cho đến nay, các dữ liệu được sử dụng trong các ngành khoa học xã hội được “kiến tạo” trong một quá trình thu thập bắt nguồn từ các quan sát hoặc bản câu hỏi. Trong thời đại của “dữ liệu lớn“, các dữ liệu chủ yếu mang tính được “phát tán“.
Việc sử dụng những dữ liệu trên vào các ngành khoa học xã hội không phải đơn giản như vậy, cũng không phải lúc nào cũng đúng đắn. Nó đặt ra một số câu hỏi. Thứ nhất, là câu hỏi vềtính hiệu lực. Các dữ liệu được sử dụng theo truyền thống là thành quả của một kiến tạo lý thuyết: chúng ta muốn đo lường điều gì? Làm thế nào để nắm bắt thông tin? Với “dữ liệu lớn”, vấn đề được đặt ngược lại: chúng ta có những dữ liệu nào? Chúng ta có thể làm gì với chúng?
Trong thực tiễn, sự khác biệt mong manh hơn nhiều. Trong thực tế, chỉ có một số ít các nhà khoa học xã hội có thể có đủ khả năng để dựng lên một cơ sở dữ liệu đặc biệt. Hầu hết các nhà nghiên cứu đều đối mặt với những câu hỏi đại thể như: chúng ta có những dữ liệu nào? Chúng ta có thể làm gì với chúng? Làm thế nào để xử lý chúng một cách thích đáng?
Một số dữ liệu đồ sộ vướng phải các vấn đề cụ thể: trong thực tế chúng có thể mang tính cục bộ – bởi vì tất cả mọi thứ không thể định lượng được – và đôi khi cũng mang tính thiên vị. Chúng không nhất thiết phản ánh hoạt động của các quần thể ít được kết nối nhất, và những người nghèo nhất thường không được đại diện đầy đủ. Đây có thể là trường hợp của những dữ liệu phát sinh từ những công nghệ thông tin mới (NTIC- Nouvelles Technologies de l’Information et de la Communication) (điện thoại di động, mạng xã hội, v.v.).
Tương lai nào cho việc sử dụng những dữ liệu trên phục vụ cho sự phát triển?
Chúng ta đang sống trong giai đoạn nghiên cứu và thử nghiệm, và việc sử dụng rộng rãi “dữ liệu lớn” phục vụ cho các thống kê chính thức sẽ còn phải mất thời gian. Có hai văn hoá, hai thế hệ đang đối mặt nhau: những nhà thống kê và những nhà “khoa học dữ liệu“. Họ sử dụng một ngôn ngữ và những công cụ đôi khi khác nhau. Những nhà thống kê được đào tạo về thống kê và xác suất. Những nhà “khoa học dữ liệu” đến từ thế giới CNTT và xử lý những tập hợp dữ liệu đôi khi quá lớn mà thống kê suy luận[2] và khái niệm lấy mẫu dường như đã lỗi thời. Những người thứ nhất sống với “thời gian dài” của hệ thống tài khoản quốc gia, những người thứ hai sống với sự tức thời của Internet… Các cuộc tranh luận xung quanh việc đo lường các Mục tiêu phát triển bền vững (Objectifs du Développement Durable) cho thấy sự đối lập, và cả sự nối khớp hai cách nhìn cho việc dữ liệu hóa thế giới.
“Dữ liệu lớn” rõ ràng không phải là một giải pháp kỳ diệu cho sự thiếu thốn về năng lực, tài chính và nhân lực, mà các Viện Thống kê quốc gia ở các nước nghèo nhất phải đối diện. Tuy nhiên, một số những dữ liệu trên có thể hữu ích trong việc giải quyết những vấn đề mang tính cụ thể. Lấy ví dụ về những dữ liệu điện thoại di động. Đây là những dữ liệu đặc biệt thích đáng khi nói đến sự hiểu biết về tính di động và để theo dõi sự di chuyển của dân cư. Việc phân tích những dữ liệu trên cho phép tối ưu hóa các đường giao thông công cộng, điều tiết giao thông đường bộ, tạo điều kiện cho quy hoạch đô thị, v.v. Người ta cũng có thể nghĩ đến việc tiêu thụ nước và điện, những mạng nổi tiếng như “mạng thông minh (smart grid ou réseaux intelligents)”, nhờ vào các cảm biến trên mạng, có thể cải thiện công tác quản lý lưu lượng điện (sản lượng cung cấp, phân phối v.v.).
Khu vực tư nhân đã hưởng lợi từ các dữ liệu trên là do đã kiểm soát quy trình sản xuất. Trong trường hợp của các chính sách công còn có những vấn đề về bảo vệ quyền riêng tư và lợi ích chiến lược của một số dữ liệu trên đối với khu vực tư nhân, đặc biệt khi những dữ liệu ấy đụng đến tâm điểm ngành nghề của các doanh nghiệp này. Tuy nhiên không phải tất cả mọi dữ liệu đều mang tính chiến lược. Công ty Orange gần đây nêu trường hợp của các cảm biến khí tượng trên ăng-ten tiếp sóng của họ, được sử dụng để phân tích chất lượng không khí và như vậy khả năng truyền dẫn các tín hiệu của họ. Hoàn toàn có thể xem xét việc cung cấp các kiểu thông tin như vậy.
Ngày nay, chúng ta hy vọng hình thành những loại hình đối tác mới, đối tác-công-tư-cá nhân có khả năng thúc đẩy việc sử dụng các dữ liệu trên để phục vụ những dân cư nghèo nhất. Như Amina Mohammed, Cố vấn đặc biệt của Tổng thư ký Liên Hợp Quốc, nhắc nhở rằng hằng ngày, nhiều người mất mạng vì họ đã không được tính đến.
Huỳnh Thiện Quốc Việt dịch
Thu Hiền (sưu tầm)
[1] Thách thức các nhóm nghiên cứu xung quanh việc sử dụng dữ liệu của điện thoại di động trong công tác xây dựng các chính sách công tại Côte d’Ivoire (2013) và tại Senegal (2014).
[2] Thống kê suy luận, là ứng dụng vào toàn bộ một tổng thể, những đặc điểm quan sát thấy được bên trong một mẫu đại diện – li lai một biên độ sai số.
Nguồn: http://www.phantichkinhte123.com/2015/06/du-lieu-lon-big-data-phuc-vu-nguoi.html#more