Từ thế kỷ thứ 3 trước CN, Thư viện Alexandria được coi là nơi chứa đựng toàn bộ kiến thức của loài người. Ngày nay, tổng lượng thông tin trên toàn thế giới đủ để chia đều cho mỗi đầu người một lượng nhiều gấp 320 lần lượng thông tin mà các sử gia tin rằng Thư viện Alexandria từng lưu trữ – ước tính vào khoảng 120 exabyte. Nếu tất cả những thông tin này được ghi lại vào đĩa CD và chúng ta xếp chồng các đĩa CD này lên nhau, sẽ có tới 5 chồng đĩa mà mỗi chồng đều vươn dài chạm tới mặt trăng.
Sự bùng nổ dữ liệu này chỉ mới xuất hiện gần đây. Cách đây không lâu, vào năm 2000, chỉ mới có một phần tư lượng thông tin lưu trữ trên toàn thế giới ở dạng kỹ thuật số. Ba phần tư còn lại được người ta lưu trên giấy tờ, phim, và các phương tiện analog khác. Nhưng do lượng dữ liệu kỹ thuật số bùng nổ quá nhanh – cứ 3 năm lại tăng gấp đôi – cục diện trên nhanh chóng đảo ngược. Ngày nay, chỉ dưới 2% tổng lượng thông tin chưa được chuyển sang lưu trữ ở dạng kỹ thuật số.
Với quy mô khổng lồ như vậy, chúng ta dễ hiểu rằng dữ liệu lớn thuần túy chỉ là vấn đề về kích cỡ. Nhưng nghĩ vậy là lầm lẫn. Dữ liệu lớn còn được biết đến với khả năng chuyển hóa thành dữ liệu từ nhiều khía cạnh của đời sống mà trước đây chưa từng được lượng hóa; ta gọi hiện tượng này là “dữ liệu hóa”. Ví dụ, các địa điểm ngày nay đều được dữ liệu hóa, đầu tiên là bằng kinh độ và vĩ độ, và gần đây là qua các hệ thống vệ tinh định vị toàn cầu (GPS). Chữ viết cũng được coi như dữ liệu khi sách vở của nhân loại qua nhiều thế kỷ được lưu trữ trong máy tính. Kể cả tình bạn và những sự “ưa thích” (“likes”) cũng được dữ liệu hóa qua mạng xã hội Facebook.
Những loại dữ liệu này được sử dụng vào những chức năng phi thường nhờ vào sự hỗ trợ của những bộ nhớ máy tính có chi phí rất thấp, những bộ xử lý cực mạnh, những phép toán thông minh, các phần mềm khôn ngoan, dựa trên những kiến thức toán được vay mượn từ kiến thức thống kê đơn giản. Thay vì cố gắng “dạy” máy tính cách làm một việc gì đó, chẳng hạn như lái xe hơi hay làm phiên dịch ngôn ngữ, điều mà các chuyên gia trí tuệ thông minh nhân tạo đã cố gắng bất thành qua hàng thập kỷ, cách tiếp cận ngày nay đơn giản chỉ là cung cấp đủ dữ liệu cho một máy tính để nó có thể tính ra xác suất của tất cả mọi thứ mà người ta muốn tính toán, từ xác suất người đi đường gặp đèn giao thông màu xanh, hay xác suất chuyển ngữ từ ánh sáng trong một câu văn thành từ lumière hay từ léger (cả hai từ đều có nghĩa là ánh sáng trong tiếng Pháp) thì chuẩn xác hơn.
Việc sử dụng những khối lượng thông tin theo cách này đòi hỏi ba sự thay đổi sâu sắc trong cách chúng ta tiếp cận dữ liệu. Một là thu thập và sử dụng thật nhiều dữ liệu thay vì chấp nhận lấy những mẫu thống kê với số lượng nhỏ như các nhà thống kê vẫn làm từ hơn một thế kỷ nay. Hai là không nhất thiết phải kén chọn sàng lọc ra dữ liệu sạch, vì kinh nghiệm thực tiễn cho thấy rằng một chút sai lệch trong thông tin vẫn có thể chấp nhận được, và việc sử dụng một lượng khổng lồ những dữ liệu ô hợp đem lại nhiều ích lợi hơn là cố gắng sàng lọc ra những dữ liệu tuy chính xác nhưng quá ít ỏi về dung lượng. Ba là trong nhiều trường hợp, chúng ta không nhất thiết phải cố tìm ra nguyên nhân đằng sau các hiện tượng.Ví dụ, không cần phải cố tìm hiểu chính xác vì sao một cỗ máy bị hỏng, hay vì sao tác dụng phụ của một loại thuốc bỗng nhiên biến mất, thay vào đó các nhà nghiên cứu có thể thu thập và phân tích thật nhiều dữ liệu về chúng cùng tất cả mọi thứ liên quan, từ đó rút ra quy luật làm cơ sở dự đoán các sự vật trong tương lai.
Càng nhiều càng tốt
Xuyên suốt lịch sử, con người làm việc với những lượng dữ liệu tương đối nhỏ vì thiếu công cụ để thu thập, tổ chức, lưu trữ, và phân tích thông tin. Người ta sàng lọc thông tin một cách tối đa nhằm thu được mẫu dữ liệu có kích cỡ tối thiểu để có thể dễ phân tích hơn. Đó là thời hoàng kim của toán thống kê hiện đại, được xuất hiện lần đầu từ cuối thế kỷ 19 và đã trở thành công cụ giúp con người thấu hiểu những vấn đề phức tạp kể cả khi có trong tay rất ít dữ liệu.
Thời đó, việc thu thập thông tin khá tốn kém và mất thời gian, nên người ta khắc phục bằng cách lấy những mẫu điều tra quy mô nhỏ, dựa trên nguyên lý là, trong phạm vi sai số nào đó, người ta có thể dùng một nhóm nhỏ để suy luận ra đặc thù của một tập hợp lớn, miễn là nhóm nhỏ đó được thu thập một cách ngẫu nhiên.Ví dụ, người ta có thể phỏng vấn ngẫu nhiên khoảng vài trăm người đi bỏ phiếu trong ngày bầu cử, từ đó dự đoán kết quả bầu cử của cả một tiểu bang.
Tuy nhiên, cách làm này chỉ hiệu quả khi người ta cần đưa ra những ước đoán đơn giản, và dễ thất bại khi cần giải đáp những thắc mắc chi tiết và phức tạp, kiểu như làm sao biết được tỷ lệ phiếu bầu của những phụ nữ độc thân dưới 30 tuổi, hay tỷ lệ phiếu bầu của những phụ nữ người Mỹ gốc Á và có bằng đại học dưới 30 tuổi.Với những thắc mắc kiểu như vậy, việc thu thập mẫu điều tra một cách ngẫu nhiên trở nên vô dụng, vì có thể trong mẫu điều tra người ta chỉ thu được một vài người phù hợp với tiêu chí điều tra, quá ít ỏi để có thể rút ra được kết luận có tính đại diện cho toàn thể những đối tượng nghiên cứu. Tuy nhiên, vướng mắc này sẽ được hóa giải nếu chúng ta thu thập được toàn bộ dữ liệu.
Một hạn chế khác của việc sử dụng một lượng nhỏ dữ liệu là người ta phải quyết định ngay từ đầu sẽ thu thập những dữ liệu gì và cách thức sử dụng như thế nào. Còn ngày nay, khi chúng ta thu thập được tất cả mọi dữ liệu mình muốn, ta không cần phải biết trước mình sẽ sử dụng chúng ra sao. Tất nhiên, không phải khi nào ta cũng thu được mọi dữ liệu, nhưng ngày nay việc thu thập một lượng dữ liệu khổng lồ còn dễ hơn là phải tính toán cân nhắc tỉ mỉ để thu về một lượng dữ liệu nhỏ.
Đổi lại, khi tăng quy mô dữ liệu, chúng ta phải chấp nhận rằng dữ liệu không được sạch và không được tổng hợp một cách cẩn thận. Quan điểm này trái nghịch với cách thức con người làm việc với dữ liệu từ nhiều thế kỷ qua trong môi trường thông tin bị hạn chế và không thể thu thập được nhiều dữ liệu, đó là cố gắng sàng lọc tối đa nhằm đảm bảo mọi dữ liệu thu thập được là chính xác. Còn ngày nay, với khả năng dễ dàng thu thập một lượng dữ liệu khổng lồ, ta hoàn toàn có thể cho phép sai lệch ở đâu đó.
Ví dụ như trong dịch thuật, lĩnh vực mà các máy tính có thể làm rất tốt khi phải dịch từng từ đơn (do khả năng lưu trữ lớn trong bộ nhớ và tìm thông tin nhanh chóng tức thời) nhưng lại vô cùng vụng về nếu phải dịch cả một đoạn văn. Trong thập kỷ 1990 hãng IBM đã có một đột phá trong công nghệ dịch thuật cả một đoạn văn bằng máy tính dựa trên kỹ thuật thống kê. Người ta tải vào máy tính một tài liệu có nội dung là biên bản họp của Nghị viện Canada, bằng cả tiếng Anh và tiếng Pháp, và lấy tài liệu này làm cơ sở để giúp lập trình cho máy tính nhận biết một từ ở ngôn ngữ này được dịch sang từ nào của ngôn ngữ kia thì đạt xác suất dịch đúng là cao nhất. Cách thức dịch thuật như vậy thuần túy dựa trên toán học và thống kê. Tuy nhiên, sau bước phát triển này, IBM không đi tiếp được xa hơn.
Đó chính là lúc Google nhảy vào cuộc. Thay vì dùng một lượng tài liệu nhỏ được dịch thuật thật chuẩn xác, Google dùng rất nhiều dữ liệu được thu thập một cách ‘thô sơ’ trên Internet. Đó là những bản dịch từ trang web của các doanh nghiệp ở mọi thể loại ngôn ngữ, thậm chí cả những bản scan các cuốn sách trong dự án khổng lồ mà Google đang theo đuổi. Số lượng trang tài liệu không chỉ lên tới hàng triệu, mà là hàng tỷ. Kết quả dịch thuật theo cách này có thể nói là khá tốt – còn tốt hơn cả công nghệ của IBM – và không chỉ giới hạn ở 2 ngôn ngữ mà có tới 65 ngôn ngữ có thể được dịch thuật chéo qua nhau. Vậy là, một lượng nhỏ dữ liệu tinh đã bại trận trước một lượng khổng lồ dữ liệu thô.
Tìm kiếm sự trùng hợp thay vì tìm nguyên nhân
Hai xu hướng thay đổi trong cách nghĩ của chúng ta về dữ liệu – từ một nhóm sang toàn bộ và từ tinh sang thô – đưa đến thay đổi thứ ba: từ tìm kiếm nguyên nhân chuyển sang tìm kiếm sự trùng hợp. Đó là khi người ta không cần phải cố gắng tìm ra những nguyên nhân sâu xa về sự vận hành của các sự vật trên thế giới, mà đơn giản chỉ cần tìm hiểu sự trùng hợp giữa các hiện tượng và dùng thông tin này để giải quyết vấn đề.
Ví dụ như ở UPS, một công ty vận chuyển hàng. Người ta cài cảm biến trong các bộ phận xe tải nhằm phát hiện ra hiện tượng tăng nhiệt và những nhịp rung lắc mà trước đây thường bị quy kết là nguyên nhân dẫn tới trục trặc. Công ty định dùng cách này để dự đoán được các xe có vấn đề từ trước khi xảy ra hỏng hóc, và thay thế các bộ phận ngay khi có điều kiện phù hợp thay vì phải xử lý trong điều kiện khó khăn nếu bị hỏng dọc đường. Thế nhưng dữ liệu mà họ thu được không cho thấy có sự trùng hợp rõ ràng giữa những trục trặc máy móc với mức độ tăng nhiệt hay nhịp rung lắc. Đây là một kết quả có ý nghĩa, mặc dù nó không giúp chỉ ra nguyên nhân khiến máy móc bị hỏng, nhưng ít ra cũng giúp công ty biết cần phải làm gì trước mắt, làm cơ sở để họ tiếp tục mở rộng điều tra.
Cũng với nguyên tắc của dữ liệu lớn là đi tìm sự trùng hợp thay vì tìm cách lý giải căn nguyên, các nhà nghiên cứu ở Canada đã nghiên cứu về điều trị những viêm nhiễm trong cơ thể con người, nhằm can thiệp điều trị viêm nhiễm ở trẻ sơ sinh từ trước khi các triệu chứng lộ rõ. Bằng cách chuyển hóa 16 thông tin cơ bản, trong đó có nhịp tim, huyết áp, hơi thở, và mức oxy trong máu, thành một dòng dữ liệu với 1000 điểm dữ liệu/giây, họ đã tìm ra sự trùng hợp giữa những biến đổi rất nhỏ trong cơ thể với những vấn đề sức khỏe cần xử lý và điều trị, từ đó giúp các bác sỹ có thể can thiệp và chữa trị kịp thời hơn. Qua thời gian, việc ghi lại những quan sát này sẽ cho phép các bác sỹ hiểu rõ nguyên nhân gây ra các vấn đề này, nhưng trước mắt, khi sức khỏe của trẻ sơ sinh đang bị đe dọa, việc phát hiện sớm các vấn đề còn hữu ích hơn so với biết chính xác căn nguyên của chúng.
Một ví dụ nữa là tháng 2 năm 2009, các nhà nghiên cứu của Google đã công bố một nghiên cứu trên tạp chí Nature cho thấy khả năng theo dõi sự bùng phát của dịch cúm, đơn giản chỉ dựa trên những hồ sơ tìm kiếm mà Google lưu lại. Hằng ngày Google giúp người sử dụng thực hiện hơn một tỷ cuộc tìm kiếm thông tin trên mạng và lưu trữ tất cả mọi kết quả thu được. Công ty đã chọn ra 50 triệu cụm từ khóa phổ biến nhất trong khoảng 2003 tới 2008, và so sánh chúng với dữ liệu về dịch cúm từ Trung tâm Kiểm soát và Ngăn ngừa Bệnh dịch (CDC) của Mỹ. Ý tưởng ở đây là nhằm tìm hiểu, liệu có sự trùng hợp giữa việc gia tăng tần số của một nhóm từ khóa được tra cứu bởi những cư dân ở một địa phương, với những dữ liệu của CDC về các đợt bùng phát dịch cúm ở cùng địa phương đó. Trên thực tế, CDC hằng ngày vẫn theo dõi số lượng bệnh nhân tới phòng khám trên khắp đất nước, nhưng thông tin của CDC có độ trễ báo cáo trong khoảng 1 tới 2 tuần – quá lâu để có thể kịp thời ngăn chặn một trận dịch bệnh bùng phát. Trái lại, hệ thống của Google hoạt động rất nhanh, cho kết quả dữ liệu gần như tức thời bất kỳ khi nào người ta cần đến.
Cách làm của Google là rà soát tất cả mọi từ khóa qua một thuật toán nhằm xếp hạng mức độ trùng khớp giữa chúng và các đợt dịch cúm. Sau đó hệ thống sẽ thử kết hợp các từ khóa này với nhau và kiểm tra xem tần số trùng khớp có nhờ thế mà tăng cao hơn không. Cuối cùng, sau khi tiến hành gần nửa tỷ phép tính trên dữ liệu có trong tay, Google nhặt ra được 45 cụm từ khóa – kiểu như “đau đầu” hay “ngạt mũi” – có mức trùng khớp cao nhất với dữ liệu của CDC về các đợt dịch cúm.
Tất nhiên, một người bất kỳ có thể tiến hành tra cứu về dịch cúm dù bản thân người đó và những người xung quanh vẫn hoàn toàn khỏe mạnh, đơn giản chỉ vì nghe tiếng hắt hơi ở nhà bên cạnh, hay bỗng nhiên phát sinh lo lắng sau khi đọc tin tức. Hệ thống của Google hoàn toàn không thể nhận biết được nguyên nhân thực sự đằng sau các cuộc tra cứu của người sử dụng, và nó cũng chẳng bận tâm tới điều này. Do vậy mà tháng 12 vừa qua, hệ thống của Google đã ước tính quá cao số lượng các ca bệnh cúm ở Mỹ. Điều này nhắc nhở chúng ta rằng các dự đoán kiểu như vậy thuần túy mang tính xác suất và không phải khi nào cũng chính xác, đặc biệt là khi người ta đưa ra ước đoán dựa theo số lượng tra cứu trên Internet. Dạng căn cứ như vậy thường xuyên thay đổi và dễ bị tác động bởi những ảnh hưởng bên ngoài, ví dụ như tin tức truyền thông.
Thu lợi từ dữ liệu hóa
Giáo sư Shigeomi Koshimizu của Viện Công nghệ Công nghiệp Tiên tiến ở Tokyo là một chuyên gia về khai thác thông tin từ tư thế ngồi của mọi người. Từ đường nét cơ thể, dáng ngồi, sự phân bổ trọng lượng, tất cả đều có thể được lượng hóa và xếp thành cột dữ liệu. Koshimizu và nhóm nghiên cứu của ông đối chiếu những dữ liệu này với áp lực được đo từ 360 điểm khác nhau mà các cảm biến trên ghế xe hơi thu được, mỗi điểm có mức áp lực được xếp từ 0 tới 256. Kết quả thu được là một mật mã kỹ thuật số riêng biệt cho mỗi cá nhân. Trong một thử nghiệm, hệ thống đã phân biệt được từng cá nhân trong một nhóm người, với độ chính xác là 98%.
Nghiên cứu này không phải chỉ để làm cho vui. Koshimizu có kế hoạch ứng dụng nó thành một công nghệ giúp chống trộm cho xe hơi. Xe hơi được trang bị công nghệ này sẽ nhận biết được người lạ ngồi sau vô lăng và sẽ đòi người đó cung cấp mật khẩu trước khi cho phép xe hoạt động.
Việc chuyển hóa tư thế ngồi thành dữ liệu như vậy rất hữu ích, và hứa hẹn một triển vọng kinh doanh tiềm năng. Không chỉ giúp chống trộm ô tô, nó còn có thể giúp nhận biết nguy hiểm trên đường giao thông dựa theo tư thế của tài xế, chẳng hạn như một sự thay đổi đặc biệt trong tư thế người lái ngay trước khi xảy ra tai nạn. Hệ thống cũng có thể nhận biết khi nào tài xế hơi sụp người xuống do mệt mỏi và chuyển tín hiệu khẩn cấp tự động giúp xe phanh lại.
Điều đáng nói ở đây là Koshimizu đã chuyển hóa một thứ chưa từng được coi là dữ liệu – thậm chí chưa từng được coi là thông tin đáng quan tâm – thành một định dạng có thể lượng hóa. Ta tạm gọi sự chuyển hóa này là ‘dữ liệu hóa’. Khác với số hóa là sự chuyển hóa những nội dung analog như sách, phim, ảnh thành thông tin số gồm một chuỗi những ký tự 0 và 1 mà máy tính có thể đọc được, dữ liệu hóa là một hoạt động rộng hơn, cho phép chuyển hóa một sự vật bất kỳ trong đời sống thành dữ liệu: ví dụ như thiết bị kính đeo mắt chuyên dụng của Google dữ liệu hóa tia nhìn của người đeo, Twitter dữ liệu hóa những suy nghĩ tản mạn, LinkedIn dữ liệu hóa mạng lưới công việc của người sử dụng.
Sau khi dữ liệu hóa sự vật, chúng ta có thể chuyển hóa mục đích của chúng, và chuyển thông tin thu được thành một dạng giá trị mới. Ví dụ, IBM được cấp bằng sáng chế của Mỹ năm 2012 cho phương thức “thâu tóm ích lợi từ công nghệ tính toán trên nền bề mặt” (“securing premises using surface-based computing technology”) – một dạng công nghệ dựa trên dữ liệu hóa sàn nhà. Sàn nhà có thể nhận dạng các sự vật bên trên nó, từ đó có thể bật sáng đèn hoặc mở cửa phòng khi có người bước vào. Hơn thế, nó còn nhận dạng được từng cá nhân dựa trên cân nặng hoặc cách thức người đó đứng và đi lại. Nó cũng biết được khi ai đó ngã xuống mà không đứng lên, công năng rất hữu ích khi phục vụ người lớn tuổi. Khi ứng dụng tại các cửa hàng, công nghệ này còn có thể giúp người quản lý nắm bắt được luồng di chuyển của khách hàng qua từng quầy bán.
Việc chuyển hóa tất cả mọi sự vật thành dạng dữ liệu có thể lưu trữ và phân tích được sẽ cho phép con người hiểu rõ hơn về thế giới. Điều này cho phép chúng ta, với khả năng đo lường một cách dễ dàng và rẻ tiền như ngày nay, khám phá ra những điều trước đây chưa từng biết đến.
Dữ liệu lớn với quản lý Nhà nước
Dữ liệu sẽ được ứng dụng không chỉ trong lĩnh vực y tế và thương mại, mà sẽ thay đổi sâu sắc cách thức vận hành của các chính phủ cũng như bản chất của chính trị.Những người khai thác được dữ liệu lớn sẽ có lợi thế đáng kể trong thúc đẩy tăng trưởng kinh tế, cung cấp dịch vụ công, hay tiến hành chiến tranh. Cho đến nay, có thể thấy những minh chứng thú vị nhất ở một số chính quyền địa phương, nơi có thể truy cập dữ liệu và làm thí nghiệm với thông tin một cách dễ dàng hơn.
Từ nỗ lực mang tính tiên phong của Michael Bloomber, Thị trưởng thành phố New York – người kiếm được bộn tiền từ hoạt động kinh doanh thông tin – thành phố này đang sử dụng dữ liệu lớn nhằm cải thiện dịch vụ công và giảm chi phí, ví dụ như trong lĩnh vực phòng cháy.
Thường thì các tòa nhà bị cư trú quá tải bất hợp pháp dễ cháy hơn các tòa nhà khác. Hằng năm thành phố nhận được 25 nghìn khiếu nại về các tòa nhà bị cư trú quá tải, trong khi lực lượng thanh tra viên chỉ có 200 người. Một nhóm chuyên gia phân tích tại văn phòng thị trưởng nhận thấy rằng dữ liệu lớn có thể giúp giải quyết vấn đề nan giải này. Họ tạo ra một kho dữ liệu của tất cả 900 nghìn tòa nhà trong thành phố và bổ sung thêm bằng những dữ liệu thu được từ 19 cơ quan chức năng: những hồ sơ nợ thuế, bất thường trong hóa đơn điện nước, các trường hợp bị cắt dịch vụ, hóa đơn chậm trả, số lần gọi xe cứu thương, tỷ lệ tội phạm địa phương, khiếu nại chuột bọ, v.v.
Tiếp theo, họ so sánh cơ sở dữ liệu này với các hồ sơ về những vụ cháy nhà trong vòng 5 năm qua, được xếp hạng tùy theo mức độ nghiêm trọng, nhằm tạo ra một công cụ cho phép xác định đặc thù nào của các tòa nhà có sự trùng hợp cao nhất với các vụ cháy, từ đó nhận biết được loại hình khiếu nại quá tải cư trú cần được quan tâm hơn cả. Thực tế đã chứng minh giá trị của nghiên cứu này: trước đây, chỉ 13% trong số các căn hộ bị thanh tra được phát hiện là có vấn đề về phòng cháy cần được xử lý, ngày nay con số tăng thành 70% – một sự gia tăng vượt bậc về tính hiệu quả.
Các công ty bảo hiểm từ lâu đã dùng phương pháp tương tự để đánh giá nguy cơ cháy, nhưng họ chủ yếu chỉ khảo sát trên một nhóm nhỏ các yếu tố, thường là những tác nhân có sự liên quan một cách trực quan. Trái lại, cách tiếp cận bằng dữ liệu lớn của thành phố New York đã tiến hành khảo sát trên rất nhiều yếu tố, bao gồm cả những yếu tố nghe qua tưởng như chẳng liên quan gì tới nguy cơ cháy nổ. Kết quả thực tiễn đã cho thấy cách khảo sát này của thành phố vừa rẻ và nhanh hơn, đồng thời kết quả đạt được cũng cao hơn.
Dữ liệu lớn có thể giúp tăng mức độ minh bạch và dân chủ trong quản lý Nhà nước. Trên thế giới đang có một phong trào dần lớn mạnh, xoay quanh ý tưởng “dữ liệu mở”, đi xa hơn cả những quy định pháp lý về tự do thông tin mà ngày nay đã trở nên phổ biến ở các nước dân chủ phát triển. Những người ủng hộ phong trào mới đang kêu gọi các chính phủ công khai hóa cho công chúng lượng dữ liệu vô hại mà chính quyền đang lưu giữ. Chính phủ Mỹ đang đi đầu trong xu thế này, mở ra trang web Data.gov, trong khi nhiều nước khác cũng đang làm theo.
Không chỉ khuyến khích sử dụng dữ liệu lớn, các chính phủ cũng cần bảo vệ công dân trước những thế lực độc quyền trên thị trường. Các công ty như Google, Amazon, hay Facebook – cùng với những nhà ‘môi giới dữ liệu’ ít tên tuổi hơn, như Acxiom ahy Experian – đang tích lũy những lượng thông tin khổng lồ về tất cả mọi người và mọi thứ. Luật chống độc quyền có thể áp dụng được với các thị trường hàng hóa và dịch vụ vì không khó để ước tính thị phần ở những thị trường này. Nhưng liệu các chính phủ có nên áp dụng luật chống độc quyền về dữ liệu lớn, một thị trường rất khó xác định và liên tục thay đổi hình thái? Bên cạnh đó, điều khiến người ta lo ngại hơn nữa là nguy cơ bị xâm phạm thông tin đời tư, mặt trái của dữ liệu lớn mà những công cụ công nghệ và luật pháp hiện hành đều khó ngăn chặn.
Quy định về quản lý dữ liệu lớn có thể sẽ trở thành một trận chiến giữa các quốc gia. Các nước châu Âu đã sẵn sàng điều tra Google do những lo ngại về độc quyền và xâm phạm đời tư, tương tự như những biện pháp cứng rắn chống độc quyền mà Ủy ban châu Âu áp dụng với Microsoft từ một thập kỷ trước. Facebook cũng có thể là đối tượng tiếp theo ở nhiều nơi trên thế giới, vì họ nắm giữ quá nhiều dữ liệu về các cá nhân. Các nhà ngoại giao cần sẵn sàng cho cuộc đấu khẩu giữa các nước về việc liệu có nên áp dụng nguyên tắc thương mại tự do đối với dòng chảy thông tin: trong tương lai, việc Trung Quốc kiểm duyệt hoạt động tra cứu thông tin có thể sẽ bị khiếu nại không chỉ với lý do là kiềm chế tự do ngôn luận, mà còn vì tạo rào cản thương mại một cách bất công.
Nguy cơ con người bị áp đặt bởi Dữ liệu Lớn?
Một nguy cơ tiềm ẩn lớn khác là: con người bị áp đặt bởi dữ liệu lớn. Ở mọi quốc gia, đặc biệt là những nước phi dân chủ, dữ liệu lớn làm trầm trọng hóa chênh lệch cán cân quyền lực giữa chính quyền và nhân dân.
Sự chênh lệch có thể trở thành quá lớn, dẫn tới chủ nghĩa toàn trị dữ liệu lớn.Năm 2007, Cục An ninh Nội địa của Mỹ phát động một dự án nghiên cứu mang tên FAST, với mục tiêu là xác định ra những tội phạm khủng bố tiềm năng, bằng cách phân tích dữ liệu về các cá nhân, từ những đặc điểm cơ bản tới cử chỉ và những đặc thù bề ngoài khác. Lực lượng cảnh sát ở nhiều thành phố như Los Angeles, Memphis, Richmond, và Santa Cruz, đã áp dụng các phần mềm ‘trị an mang tính phòng ngừa’, trong đó phân tích các dữ liệu về những vụ án, nhằm dự đoán nơi nào và khi nào thì vụ án tiếp theo sẽ xảy ra.
Cho đến nay, những hệ thống trên không chỉ ra cá nhân nào là nghi phạm, nhưng dường như đó là xu thế đang được hướng đến. Người ta sẽ tìm ra thanh niên nào có xác suất cao nhất là kẻ ăn trộm. Điều này sẽ khiến người đó bị mang tiếng xấu trong mắt mọi người. Vô hình trung đó là một hình phạt cho đối tượng, cho dù chưa làm điều gì sai trái, và đây sẽ là sự xâm phạm tới quyền tự do cá nhân thiêng liêng.
Một lo ngại khác là các chính quyền có thể quá tin vào sức mạnh của dữ liệu mà đưa ra những chính sách sai lầm. Cuốn sách năm 1999 mang tựa đề Dưới góc nhìn của chính quyền (Seeing Like a State), nhà nhân chủng học James Scott đã ghi lại những trường hợp các chính phủ, do quá hăng say thu thập dữ liệu để dữ liệu hóa, nhiều khi đã đẩy cuộc sống người dân vào tình cảnh khốn khổ. Họ dựa trên bản đồ để tái định cư các cộng đồng mà không hề hỏi ý kiến người dân sinh sống ở đó. Họ dùng những bảng dữ liệu lớn về các vụ mùa để quyết định tiến hành hợp tác xã hóa, dù người làm chính sách chẳng am hiểu gì về trồng trọt. Họ biến đổi những tập quán bao đời của người dân, đôi khi chỉ đề nhằm thỏa mãn nhu cầu thiết lập trật tự theo bảng dữ liệu của người quản lý.
Các tổ chức có thể bị lừa dối bởi vẻ hào nhoáng của các con số, hoặc gán cho con số những ý nghĩa không tồn tại trong thực tế. Đó là một trong những bài học từ cuộc Chiến tranh Việt Nam, khi Bộ trưởng Quốc phòng Mỹ Robert McNamara quá tin tưởng vào các con số thống kê khi đánh giá tiến trình ngoài mặt trận, như số lượng đối phương bị tiêu diệt, cho dù con số không thể phản ánh sự phức tạp của cuộc xung đột, chưa kể chúng thường không chính xác, và rất ít giá trị khi dùng để đo lường thành công.
Yếu tố ảnh hưởng của con người
Như vậy, dữ liệu lớn là một tài nguyên và một công cụ có giá trị tham khảo, giúp ta hướng tới sự hiểu biết, nhưng cũng có thể dẫn tới nhầm lẫn, tùy thuộc vào cách sử dụng của con người.
Tuy nhiên, với xu thế khai thác dữ liệu lớn một cách phổ biến, một câu hỏi đặt ra là: trong một thế giới mà các vấn đề ngày càng được định đoạt bởi dữ liệu và công cụ máy móc thì mục đích còn lại của con người là gì, đâu còn giá trị của trực quan hay sự mạo hiểm? Khi mà tất cả mọi người ai cũng giống nhau, đều bị quyến rũ bởi sức mạnh của dữ liệu và những công cụ khai thác, có lẽ chúng ta sẽ cần giữ riêng một nơi để bảo tồn cho những yếu tố như trực quan, tư duy thực tiễn, duyên may, nhằm đảm bảo rằng chúng không bị xâm lấn bởi dữ liệu và những câu trả lời do máy móc cung cấp.
Điều này rất quan trọng cho sự phát triển của xã hội. Dữ liệu lớn cho phép chúng ta tiến hành các thử nghiệm nhanh hơn, khám phá nhiều manh mối hơn. Những lợi thế ấy cần được phục vụ cho tiến trình sáng tạo, và nhiều khi sự sáng tạo sẽ đem lại kết quả bất ngờ mà không dữ liệu nào có thể tiên đoán, vì nó chưa từng có trước đấy.
Thái Học (sưu tầm)
Nguồn: http://bookhunterclub.com/thoi-dai-cua-du-lieu-lon-big-data/