Chúng ta đang sống trong thời đại cách mạng về dữ liệu. Dữ liệu chúng ta có và cách chúng ta xử lý chúng đang thay đổi từng ngày. Như một dẫn chứng, Hal Varian, nhà kinh tế trưởng của Google, đưa ra ví dụ: “Ở thời kỳ đầu của kỷ nguyên Web, cuối mỗi trang tài liệu hay dữ liệu thường có dòng chữ ‘Tài liệu có bản quyền. Không được sao chép’. Ngày nay, cuối mỗi trang tài liệu thường là ‘Tài liệu có bản quyền. Bấm vào đây để gửi đi’.” Tức là ngày nay chúng ta dễ dàng tiếp cận nhiều nguồn dữ liệu phong phú và cách quản lý chúng đã thay đổi. Hal Varian là người từng đưa ra nhiều nhận định nổi tiếng về thống kê trong kỷ nguyên của dữ liệu. Dưới đây là bài phỏng vấn ông của nhà báo Julian Champkin – tổng biên tập của tạp chí ‘Significance magazine’, một ấn bản của Hội Thống Kê Hoàng gia Anh và Hội Thống Kê Mỹ.
Hal Varian thực ra không phải là một nhà thống kê. Ông là một nhà kinh tế, và hiện là kinh tế trưởng của công ty Google. Thế nên ông cũng được xem như là người phát ngôn của Google – tổ chức nắm trong tay một lượng dữ liệu khổng lồ và có lẽ cũng là trung tâm phân tích dữ liệu lớn nhất mà thế giới từng thấy. Ông cũng là người đã từng nhận định “Nghề ‘sexy’ trong thập niên tới sẽ là thống kê”.
Tôi gặp ông ở hội nghị ‘Gặp gỡ thường niên của Hội Thống Kê Mỹ’ tại Vancouver năm 2010, nơi mà ông đến để nói chuyện và tuyển nhân viên phân tích dữ liệu cho Google. Ông không chắc là có bao nhiêu nhân viên làm về thống kê, phân tích dữ liệu hiện đang làm việc cho Google. “Thật khó để định nghĩa thế nào là một nhà thống kê”, ông nói, “nhưng trong khoảng 22000 nhân viên hiện tại của Google, có khoảng 600 người trong nhóm làm việc về các vấn đề thống kê.” Varian bắt đầu làm việc cho Google cách đây 9 năm khi đang là giáo sư ở Berkeley, và ông cũng thường xuyên viết bài cho tờ New York Times. Ông là tác giả của một vài cuốn sách giáo khoa nổi tiếng về kinh tế. Do đó không có gì là quá nếu nói ông là một trong những học giả lỗi lạc đương thời. Ông là người nhã nhặn, ít nói nhưng lại là một diễn giả dí dỏm và đầy thuyết phục.
Là một người luôn khuyến khích thể hệ trẻ lựa chọn nghề thống kê, nhưng tại sao ông lại chọn kinh tế chứ không phải là thống kê khi bắt đầu sự nghiệp? Ông trả lời “Khi nói về từ ‘nhà thống kê’, tôi định nghĩa theo nghĩa rộng, bao gồm tất cả những người mà sử dụng các phương pháp định lượng để phân tích dữ liệu. Thế nên nó bao gồm các nhà kinh tế học, tâm lý học thực nghiệm, khoa học máy tính và nhiều ngành nghề khác”. Theo định nghĩa đó thì ông đúng là một nhà thống kê. Công việc của ông hoàn toàn là xử lý và phân tích dữ liệu. Chẳng có gì đáng bàn cãi về lợi nhuận và sức mạnh kinh tế (thậm chí cả chính trị) mà Google thu được từ việc phân tích kho dữ liệu khổng lồ của nó. Hal Varian, do đó, là người lý tưởng để chia sẻ với chúng ta về dữ liệu lớn, về những cơ hội và thách thức cho các nhà thống kê, và về những gì có lẽ sẽ góp phần làm thay đổi cả thể giới chúng ta đang sống.
Một bằng chứng là đóng góp của ông trong việc xây dựng mô hình đấu giá quảng cáo trên Google. Không có một giá chuẩn cho quảng cáo trên Google, nó được bán bằng cách đấu giá. “Khi tôi mới vào Google, mô hình đấu giá quảng cáo đang được xây dựng bởi một nhóm kỹ sư máy tính đầy tài năng, nhưng họ không biết về những mô hình thống kê kinh tế đã có về thiết kế đấu giá. Nhiệm vụ đầu tiên của tôi là thiết lập mô hình này và tôi nghĩ là tôi đã có một vài đóng góp thông qua sử dụng lý thuyết trò chơi và một vài kỹ thuật thống kê cổ điển khác.”
Như ông đã viết trong một cuốn sách kinh tế của mình, chúng ta đang ở trong thời kỳ bùng nổ về thông tin/dữ liệu. Cần có những phương pháp mới để giúp khám phá tri thức từ những lượng dữ liệu khổng lồ này. Đối với những tập dữ liệu lớn (tức là những tập dữ liệu phức tạp, nhiều chiều – ND), nhiều phương pháp thống kê truyền
thống không áp dụng được. Một ví dụ đơn giản là trong dữ liệu về gen sinh học, số gen – tức là số biến dự báo – thường là hàng triệu, lớn hơn rất nhiều số quan sát – thường là hàng trăm. Những phương pháp phân tích hồi quy cổ điển không áp dụng được trong tình huống này. Ông nhận xét: “Trong thập kỷ vừa rồi, chúng ta đã chứng kiến sự kết hợp rất thành công giữa các nhà khoa học máy tính làm việc về học máy (machine learning – ND) và các nhà thống kê. Các nhà khoa học máy tính thường làm việc với dữ liệu lớn sử dụng những mô hình tương đối đơn giản trong khi các nhà thống kê thường có những mô hình chặt chẽ nhưng lại tập trung vào dữ liệu nhỏ. Tôi nghĩ hai lĩnh vực này có rất nhiều thứ để học lẫn nhau”.
Ngày nay dữ liệu có ở khắp nơi, rất rẻ và gần như là miễn phí. Tài sản tri thức không chỉ đơn giản là dữ liệu nữa. Các công ty do đó không thể chỉ đơn giản là bán dữ liệu, mà phải tìm cách phân tích và giải thích chúng. Ông chia sẻ: “Một điều tuyệt vời ở Google là họ đã xây dựng được một cơ sở hạ tầng có khả năng quản lý, lưu trữ một cách hiệu quả những lượng dữ liệu khổng lồ, giúp cho việc phân tích khám phá trở lên dễ dàng hơn. Rất nhiều công ty khác cũng đang thu thập dữ liệu lớn nhưng họ không có cơ sở hạ tầng hay chuyên gia tốt để thực sự khai thác được thông tin hữu ích từ dữ liệu họ có.”
Và những gì chúng ta thu được khi tri thức từ những lượng dữ liệu lớn như vậy được khai thác một cách hiệu quả là không tầm thường. Thống kê khi mà ứng dụng vào phân tích dữ liệu lớn thu được từ internet đạt được những sức mạnh tuyệt vời – và Google đang đi tiên phong trong lĩnh vực này. Một bằng chứng là chương trình dịch ngôn ngữ tự động của họ – nó được xây dựng bởi các nhà thống kê chứ không phải các nhà ngôn ngữ học. Không nhất thiết là phải hiểu được, ví dụ tiếng Pháp hoặc tiếng Anh, mới có thể dịch được từ ngôn ngữ này sang ngôn ngữ kia. Điều này nghe có vẻ thật lạ lùng, ông nói: “Thật là đáng ngạc nhiên khi mà các công cụ thống kê được ứng dụng hiệu quả vào dịch thuật tự động. Điều mấu chốt là có được một cơ sở dữ liệu về các bản dịch song song ra nhiều ngôn ngữ khác nhau từ cùng một văn bản. Với một lượng đủ lớn các văn bản như vậy, làm một phép tìm kiếm thống kê cho các từ mà xuất hiện ở những vị trí tương đối giống nhau – và thế là bạn có thể dịch được phần lớn ngôn ngữ của loài người.”
Hai dự án lớn về ứng dụng của thống kê mà Varian tự hào là nhận dạng giọng nóivà xe không người lái. Varian chia sẻ “Hai dự án này là sự kết hợp tuyệt vời gữa các nhà thống kê và các nhà khoa học máy tính ở Google. Rất rất nhiều các thuật toán thống kê được phát minh và sử dụng trong hai dự án này. Việc còn lại là cụ thể hóa
các thuật toán đó bằng máy tính”. Một ứng dụng truyền thống của thống kê là dự báo. Dữ liệu mua bán trực tuyến có thể được sử dụng để đo lạm phát. Có nghiên cứu chỉ ra rằng có tương quan giữa số lượng tìm kiếm tên công ty với lượng chứng khoán được giao dịch của công ty đó. Lượng click chuột (trên một trang địa ốc) có thể chỉ ra thị trượng địa ốc đang lên hay xuống. Varian gọi đó là ‘bắt mạch nền kinh tế’. “Tôi nghĩ rằng mỗi tập dữ liệu như vậy đều có năng lực dự báo. Cũng giống như ví dụ về dịch ngôn ngữ tự động, không cần thiết phải hiểu được luật nhân quả mới có thể thu được dự báo từ dữ liệu tìm kiếm, tất cả những gì chúng ta cần là hệ số tương quan. Hầu hết bất kỳ mối quan hệ nào đều có thể được khai thác theo cách này. Ví dụ, số liệu tìm kiếm thông tin về trợ cấp thất nghiệp trong một tuần có thể là một chỉ số tốt để dự báo tỷ lệ thất nghiệp”. Ông nói thêm “Tất nhiên có rất nhiều ứng dụng khác mà hiện tại chúng tôi chưa làm được. Chúng tôi sẽ phải làm việc bận rộn trong khoảng vài chục năm nữa.Tôi nghĩ rằng bài toán lựa chọn mô hình sẽ trở nên quan trọng trong tương lai. Trước đây, chúng ta thường chỉ xét vài biến dự báo. Bây giờ chúng ta có hàng triệu biến tiềm năng. Làm sao để quyết định nên chọn biến nào?”
Đó thực sự là một buổi nói chuyện tuyệt vời với Varian. Giờ thì tôi muốn kết thúc bài viết ở đây với một tin tốt lành cho các nhà thống kê. Varian luôn nhắc đi nhắc lại: “Thống kê sẽ là một nghề ‘sexy’ trong thập kỷ tới”. Tôi tự hỏi vậy nghề gì sẽ là nghề ‘sexy’ trong thập kỷ tiếp theo đây?
Người dịch: Trần Minh Ngọc.
Khoa Toán cơ tin học, ĐH Khoa học tự nhiên Hà nội và Khoa Kinh tế, Đại học New
South Wales, Úc
Đoàn Dũng(st)