Cách tốt hơn để tư duy về dữ liệu lớn “Big Data”

Dữ liệu lớn ở khắp mọi nơi, và chúng ta đang liên tục nói rằng nó nắm giữ câu trả lời cho hầu hết các vấn đề chúng ta muốn giải quyết. Các công ty thu thập thông tin về cách chúng ta mua sắm, các bác sĩ, các công ty bảo hiểm thu thập kết quả kiểm tra y tế của chúng ta, và các chính phủ biên dịch các bản ghi chép các cuộc gọi điện thoại và email của chúng ta. Trong những khía cạnh đó, hy vọng là những hiểu biết quan trọng được ẩn sâu bên trong một lượng lớn thông tin, chỉ cần chờ đợi để được khám phá.

Nhưng chỉ đơn giản là có rất nhiều dữ liệu không giống như sự hiểu biết về nó. Ngày càng có nhiều công cụ toán học mới là cần thiết để trích xuất ý nghĩa từ các bộ dữ liệu khổng lồ. Trong công bố trực tuyến gần đây, hai nhà nghiên cứu tại Cold Spring Harbor Laboratory (CSHL) thách thức những tiến bộ mới nhất trong lĩnh vực này, đó là sử dụng một khái niệm toán học cổ điển để giải quyết những vấn đề nổi bật trong phân tích dữ liệu lớn.

Điều này có nghĩa là gì khi phân tích dữ liệu lớn? Mục tiêu chính là tìm mô hình giữa những yếu tố dường như không liên quan, chẳng hạn như thu nhập và tỷ lệ ung thư. Nhiều trong số các công cụ thống kê phổ biến nhất chỉ có thể phát hiện mẫu nếu các nhà nghiên cứu có một số kỳ vọng về mối quan hệ giữa các yếu tố. Một phần cuốn hút của dữ liệu lớn là nó có thể cho thấy, việc xuất hiện mẫu ngẫu nhiên hoàn toàn mới. Vì vậy, các nhà khoa học và các nhà nghiên cứu đã làm việc để phát triển phương pháp thống kê nhằm mục đích tìm ra những mối quan hệ mới.

Vào năm 2011, một nhóm các nhà nghiên cứu xuất sắc của Đại học Harvard xuất bản một bài báo có ảnh hưởng lớn trên tạp chí Science cho rằng phương pháp này là một công cụ. Nhưng trong một bài báo công bố trên Kỷ yếu của Viện hàn lâm Khoa học, Sinh học định lượng viên Justin Kinney và Trợ lý Giáo sư Gurinder “Mickey” Atwal của CSHL đã chứng minh rằng công cụ mới này là cực kỳ sai lầm. “Công cụ thống kê của họ không có các tính chất toán học đã được tuyên bố,” Kinney nói.

Kinney và Atwal cho thấy công cụ chính xác đang được ẩn bên trong kho dữ liệu khổng lồ. Họ nói các giải pháp là một biện pháp toán học nổi tiếng được gọi là “thông tin lẫn nhau,” mô tả lần đầu vào năm 1948. Ban đầu nó được sử dụng để định lượng số lượng thông tin mà có thể được lây truyền qua đường điện tử thông qua một cáp điện thoại, khái niệm bây giờ là nền tảng của thiết kế cơ sở hạ tầng viễn thông trên thế giới. “Những gì chúng tôi đã tìm thấy trong công việc của chúng tôi là khái niệm này cũng có thể được sử dụng để tìm các mẫu trong dữ liệu,” Kinney giải thích.

Áp dụng cho dữ liệu lớn, thông tin lẫn nhau là có thể tiết lộ các mẫu trong các danh sách lớn các con số. Ví dụ, nó có thể được sử dụng để phân tích các mẫu trong bộ dữ liệu trên nhiều loài vi khuẩn giúp chúng ta tiêu hóa thức ăn. “Công cụ đặc biệt này là hoàn hảo cho việc tìm kiếm các mẫu trong nghiên cứu về vi khuẩn trên cơ thể con người, trong số những thứ khác” Kinney nói.

Quan trọng hơn, thông tin lẫn nhau cung cấp một cách để xác định tất cả các loại mô hình trong dữ liệu mà không phụ thuộc vào bất kỳ giả định trước nào. “Công việc của chúng tôi cho thấy rằng thông tin lẫn nhau rất tự nhiên giải quyết vấn đề quan trọng này trong thống kê,” Kinney nói. “Khái niệm toán học “xinh đẹp” này có khả năng hưởng lợi rất nhiều đến phân tích dữ liệu hiện đại, trong sinh học và nhiều lĩnh vực quan trọng khác”.

Phạm Anh Tuấn

Nguồn: http://www.sciencedaily.com/releases/2014/02/140218185128.htm