Tránh thiên vị trong phân tích dữ liệu

Sử dụng phân tích sâu các dữ liệu để giúp chúng ta đưa ra quyết định là một ý tưởng hay nhưng nó cũng có thể phản tác dụng nếu dữ liệu bị thiên vị. Sự thiên vị trong phân tích số liệu có thể xảy ra bởi chúng ta thu thập dữ liệu thiên vị hoặc ngược lại.

Thiên vị là một khuynh hướng tự nhiên mà tất cả chúng ta đều gặp phải nhưng nó phải được giảm bớt càng nhiều càng tốt để có những quyết định tốt hơn. Có thể tránh thiên vị trong việc phân tích số liệu bằng cách đặt ra các câu hỏi đúng, cho phép người trả lời mà không có bất kỳ ảnh hưởng bên ngoài nào và thông qua các thuật toán cải tiến liên tục. Dưới đây chúng ta sẽ tìm thấy 4 loại thiên vị và cách để tránh chúng.

1. Sự thiên vị xác nhận thông tin trong phân tích dữ liệu

Sự thiên vị xác nhận thông tin trong phân tích dữ liệu xảy ra khi các nhà nghiên cứu sử dụng câu trả lời của người trả lời để xác nhận giả thuyết của họ. Đôi khi, các nhà nghiên cứu chấp nhận những bằng chứng ủng hộ nghiên cứu của họ và từ chối những bằng chứng gây trái ngược với nghiên cứu của họ. Điều này có nghĩa nó chỉ hỗ trợ một điểm quan sát và đưa ra đúng cách từ chối những người khác, do đó thu hẹp tầm nhìn của chúng ta. Để giảm bớt sự thiên vị này, các nhà nghiên cứu phải sẵn sàng để xem xét lại câu trả lời của người trả lời và cũng phải tránh những khái niệm và quan điểm đã được định sẵn.

2. Sự thiên vị diễn dịch thông tin trong phân tích dữ liệu

Sự thiên vị diễn dịch thông tin có hai loại. Elizabeth Loftus tại Đại học California đã thực hiện một nghiên cứu, trong đó cô đã cho các tình nguyện viên của cô xem một bộ phim về tai nạn xe hơi. Sau đó, cô chia làm hai nhóm và yêu cầu họ ngồi trong những căn phòng riêng biệt. Đối với nhóm đầu tiên, cô hỏi, “Bạn nghĩ gì về tốc độ của chiếc xe khi bị tai nạn?” Và nhóm thứ hai cô hỏi, “Bạn nghĩ gì về tốc độ của chiếc xe khi nó bị phá hủy như thế?”. Cô ngạc nhiên là thông tin tốc độ theo nhóm thứ hai cao hơn nhóm đầu tiên. Như vậy, rõ ràng hai nhóm đã trả lời khác nhau khi cùng một câu hỏi nhưng được diễn dịch khác nhau. Tương tự, nếu chúng ta có một blog chứa tất cả thông tin trên cùng một trang,  khi có người truy cập sẽ ở mãi 1 trang có nghĩa tỷ lệ thoát của blog của chúng ta sẽ bằng không, điều này hoàn toàn tốt, nhưng có thể không chính xác khi kết luận blog có hiệu suất sử dụng kém có nghĩa web site chứa ít thông tin. Để kiềm chế sự thiên lệch trong diễn giải, ta phải phân tích dữ liệu từ nhiều chiều và sau đó mới được kết luận.

3. Sự thiên vị dự đoán trong phân tích dữ liệu

Vào đầu năm 2017, tại Chicago, cảnh sát bắt đầu dựa vào ‘chính sách dự đoán’ để xác định những khu vực có nhiều khả năng xảy ra các vụ bạo lực. Cảnh sát dựa vào dữ liệu đến mức đưa ra những cảnh báo những người có tỷ lệ phạm tội cao hơn. Ngoài ra, một số lượng lớn cảnh sát đã được chỉ định đến những nơi dễ bị xảy ra phạm tội hơn. Có một mối đe dọa rằng một phần mềm như vậy có thể có những người khác biệt sai dựa trên màu sắc, chủng tộc, giới tính, thu nhập hoặc mức độ nghiêm trọng của tội phạm trong khu vực họ sinh sống. Để giảm những thành kiến ​​như vậy, dữ liệu thu thập phải luôn được phân tích bởi con người-những người có thể tạo ra sự khác biệt tinh tế mà máy móc chưa có khả năng.

4. Sự thiên vị thông tin trong phân tích dữ liệu

Trong năm 2008, Google đã đưa ra một nhiệm vụ mới để cảnh báo sớm cúm để kiềm chế sự gia tăng của nó. Sáng kiến ​​được gọi là “Xu hướng dịch cúm” thu thập từ khoá tìm kiếm đang được sử dụng bởi những người trong khu vực. Nếu có nhiều tìm kiếm về các triệu chứng cúm, tác dụng hoặc phương pháp chữa trị, thì nó sẽ cảnh báo với các cơ quan y tế địa phương để hành động ở khu vực đó. Nhưng sự gia tăng tìm kiếm các từ khóa không phải là một cách chính xác để xác định những điều đó bởi vì sự gia tăng tìm kiếm bệnh hoặc cúm không phải lúc nào cũng có nghĩa là những người trong một khu vực bị bệnh đó mới tìm kiếm các thông tin về dịch bệnh. Nó có thể đơn giản là những người trong một khu vực đó đang tích cực cung cấp dữ liệu nhiều hơn những người ở khu vực khác. Phương pháp duy nhất là đưa ra các thuật toán tốt hơn và đưa nó sử dụng sau khi thử nghiệm rộng rãi.

Thiên vị trong phân tích dữ liệu tiếp tục là một vấn đề lớn và cần được thực hiện từng bước để giảm thiểu nó bằng cách phát triển các thuật toán tiên tiến. Ngoài ra, các nhà khoa học dữ liệu không nên bị thiên vị trong khi thu thập và phân tích các thông tin để tạo có lợi cho nghiên cứu của họ. Các nhà nghiên cứu nên cởi mở với tất cả các loại quan điểm dựa trên thông tin thu được mà cuối cùng sẽ giúp đưa ra quyết định tốt hơn.

Công Hoan (lược dịch)

Nguồn: https://www.linkedin.com/pulse/avoiding-bias-data-analytics-naveen-joshi