Các chức năng bảo vệ thống kê trong phân tích dữ liệu và phần mềm trực quan hóa
Phần mềm trực quan hóa dữ liệu hiện đại giúp người dùng dễ dàng khám phá các tập dữ liệu lớn để tìm kiếm các mối tương quan thú vị và các khám phá mới. Nhưng tính dễ sử dụng – khả năng đặt câu hỏi sau nghiên cứu một tập dữ liệu với một vài cú nhấp chuột – thường đi kèm với cạm bẫy: Nó làm tăng khả năng tạo ra các khám phá sai.
Đây chính là vấn đề mà các nhà thống kê gọi là “lỗi đa giả thuyết”. Về cơ bản, vấn đề này là: Nếu càng có nhiều người truy cập về bộ dữ liệu, họ càng có khả năng nhầm lẫn thứ gì đó với một khám phá nhưng thực sự chỉ là sự dao động ngẫu nhiên trong bộ dữ liệu.
Một nhóm các nhà nghiên cứu từ Đại học Brown đang nghiên cứu trên các phần mềm để tìm ra giải pháp chống lại vấn đề này. Tuần này tại Hội nghị SIGMOD2017 ở Chicago, họ đã đưa ra một hệ thống mới gọi là QUDE, bổ sung vào chức năng bảo vệ thống kê theo thời gian thực cho các hệ thống thăm dò dữ liệu tương tác để giúp làm giảm các phát hiện sai.
Tim Kraska, trợ lý giáo sư về khoa học máy tính tại Brown, đồng tác giả của nghiên cứu, nói rằng: “Ngày càng có nhiều người sử dụng các phần mềm khai thác dữ liệu như Tableau và Spark, nhưng hầu hết những người dùng không phải là các chuyên gia về thống kê hay học về máy (machine learning)”, “Bạn có thể tạo ra rất nhiều sai sót thống kê, vì vậy chúng tôi đang phát triển các kỹ thuật giúp mọi người tránh được các sai sót này”.
Sai sót thử nghiệm đa giả thuyết là một vấn đề phổ biến trong thống kê. Trong kỷ nguyên dữ liệu lớn và thăm dò dữ liệu tương tác, vấn đề này càng trở nên nổi cộm, Kraska cho biết.
Ông nói: “Những công cụ này giúp việc truy cập dữ liệu trở nên rất dễ dàng. Bạn có thể dễ dàng kiểm tra 100 giả thuyết trong một giờ bằng cách sử dụng các công cụ trực quan này. Nếu không khắc phục lỗi đa giả thuyết, rất có thể bạn sẽ gặp mối tương quan hoàn toàn không có thật”.
Có các kỹ thuật thống kê phổ biến để giải quyết vấn đề này. Hầu hết các kỹ thuật này bao gồm điều chỉnh mức độ quan trọng thống kê cần thiết để xác nhận một giả thuyết cụ thể dựa trên tổng số giả thuyết đã được thử nghiệm. Do số lượng các thử nghiệm giả thuyết gia tăng, mức độ quan trọng cần thiết để đánh giá kết quả hợp lệ cũng tăng lên.
Nhưng những kỹ thuật hiệu chỉnh này gần như là tất cả các điều chỉnh sau thực tế. Chúng là công cụ được sử dụng vào cuối dự án nghiên cứu sau khi tất cả các thử nghiệm giả thuyết được hoàn tất, điều này không lý tưởng cho việc khảo sát dữ liệu tương tác hoặc trong thời gian thực.
Eli Upfal, giáo sư khoa học máy tính tại Brown, đồng tác giả của nghiên cứu cho biết: “Chúng tôi không muốn chờ đợi cho đến khi kết thúc một phiên họp để nói cho mọi người kết quả của họ có hợp lệ hay không. Chúng tôi cũng không muốn hệ thống tự đảo ngược sau khi bạn đã thử nghiệm nhiều giả thuyết – và cho bạn biết rằng kết quả ban đầu của bạn không còn quan trọng nữa”.
Cả hai kịch bản này đều có thể sử dụng các phương pháp hiệu chỉnh đa giả thuyết phổ biến nhất. Vì vậy, các nhà nghiên cứu đã phát triển một phương pháp khác cho dự án này cho phép họ giám sát rủi ro phát hiện sai khi các thử nghiệm giả thuyết đang được tiến hành.
“Ý tưởng là bạn có một lượng ngân sách chưa biết về nguy cơ phát hiện lỗi khi phân bổ, và chúng tôi cập nhật lượng ngân sách đó theo thời gian thực khi người dùng tương tác với dữ liệu”, Upfal cho biết, “Chúng tôi cũng tính đến cách thức người dùng có thể khám phá dữ liệu. Bằng cách hiểu rõ chuỗi câu hỏi của mình, chúng tôi có thể điều chỉnh thuật toán và thay đổi cách phân bổ ngân sách”.
Đối với người dùng, trải nghiệm này tương tự như sử dụng bất kỳ phần mềm trực quan hóa dữ liệu nào, chỉ với thông tin phản hồi có mã màu cung cấp thông tin về ý nghĩa thống kê.
“Màu xanh lá cây có nghĩa là một trực quan hóa đại diện cho một phát hiện quan trọng,” Kraska cho biết, “Nếu màu đỏ, điều đó có nghĩa là người dùng phải cẩn thận, trên cơ sở nền tảng thống kê biến động”.
Các nhà nghiên cứu cho biết hệ thống không thể đảm bảo độ chính xác tuyệt đối. Không hệ thống nào có thể. Tuy nhiên, trong một loạt các cuộc thử nghiệm người dùng sử dụng các dữ liệu tổng hợp mà các mối tương quan thực và giả đã được thực hiện thành công, các nhà nghiên cứu đã chỉ ra rằng hệ thống đã thực sự làm giảm số lượng các phát hiện sai của người dùng.
Các nhà nghiên cứu xem công việc này là một bước tiến hướng tới một hệ thống khai thác dữ liệu và trực quan hóa tích hợp đầy đủ một tập hợp các biện pháp bảo vệ thống kê.
“Mục tiêu của chúng tôi là giúp người sử dụng có thể tiếp cận với khoa học dữ liệu nhiều hơn”, Kraska cho biết, “Giải quyết vấn đề đa giả thuyết rất quan trọng, nhưng cũng rất khó thực hiện. Chúng tôi coi bài nghiên cứu này là một bước đi đầu tiên”.
Thái Học (dịch)
Nguồn: https://www.sciencedaily.com/releases/2017/05/170519124047.htm