Số liệu thống kê có thể hỗ trợ như thế nào trong cuộc chiến chống lại thông tin sai lệch?
Một giáo sư toán của Đại học Mỹ (AU) và nhóm cộng sự của ông đã tạo ra một mô hình thống kê có thể phát hiện thông tin sai lệch trong các bài đăng trên mạng xã hội. Mô hình này cũng giúp tránh được sự cố hộp đen xảy ra trong học máy.
Bằng việc sử dụng các thuật toán và mô hình máy tính, học máy ngày càng đóng vai trò trong việc ngăn chặn sự lan truyền của thông tin sai lệch. Tuy nhiên thách thức chính đối với các nhà khoa học là hộp đen của những sự vật không thể biết, nơi mà các nhà nghiên cứu không hiểu được cách máy móc đưa ra quyết định giống con người.
Sử dụng tập dữ liệu Twitter với các dòng tweet thông tin sai lệch về COVID-19, Zois Boukouvalas – trợ lý giáo sư tại Khoa Toán học và Thống kê, Đại học Nghệ thuật và Khoa học của AU, cho thấy cách các mô hình thống kê có thể phát hiện thông tin sai lệch trên phương tiện truyền thông xã hội trong các sự kiện như đại dịch hoặc thiên tai. Trong nghiên cứu mới được công bố, Boukouvalas và các đồng nghiệp của ông, Caitlin Moroney – sinh viên AU và Giáo sư Khoa học Máy tính – Nathalie Japkowicz, cũng chỉ ra các quyết định của mô hình phù hợp với các quyết định của con người như thế nào.
Boukouvalas cho rằng:“Chúng tôi muốn biết một cỗ máy nghĩ gì khi nó đưa ra quyết định, làm thế nào và tại sao nó đồng ý với người tạo ra nó. Chúng tôi không muốn chặn tài khoản mạng xã hội của ai đó vì mẫu đưa ra quyết định chệch.”
Phương pháp của Boukouvalas là một loại máy học sử dụng thống kê. Đây không phải là một lĩnh vực nghiên cứu phổ biến như học sâu, một loại máy học phức tạp, nhiều lớp và trí tuệ nhân tạo. Boukouvalas cho rằng các mô hình thống kê có hiệu quả và cung cấp một cách làm khác, chưa được khai thác.
Đối với tập hợp thử nghiệm gồm 112 tweet thông tin thực và sai lệch, mô hình đã đạt được hiệu suất dự báo cao và phân loại chúng một cách chính xác, với độ chính xác gần 90%. (Sử dụng một tập dữ liệu nhỏ gọn như vậy là cách hiệu quả để xác minh cách phương pháp phát hiện các tweet thông tin sai lệch.)
“Điều quan trọng về phát hiện này là mô hình của chúng tôi đạt được độ chính xác đồng thời cung cấp sự minh bạch về cách nó phát hiện các tweet là thông tin sai lệch”, Boukouvalas nói thêm. “Các phương pháp học sâu không thể đạt được độ chính xác với tính minh bạch như vậy.”
Trước khi thử nghiệm mô hình trên tập dữ liệu, đầu tiên các nhà nghiên cứu đã chuẩn bị để tạo mô hình. Mô hình chỉ tốt khi thông tin mà con người cung cấp tốt. Độ chệch được đưa ra (một trong những lý do đằng sau độ chệch trong công nghệ nhận dạng khuôn mặt) và hộp đen được tạo ra.
Các nhà nghiên cứu đã cẩn thận gắn nhãn các tweet là thông tin sai lệch hoặc thông tin thực và họ sử dụng một bộ quy tắc được xác định trước để đưa ra lựa chọn của họ. Họ cũng xem xét các sắc thái trong ngôn ngữ của con người và các đặc điểm ngôn ngữ có liên quan đến thông tin sai lệch. Ví dụ, như một bài đăng có sử dụng nhiều hơn danh từ riêng, dấu câu và các ký tự đặc biệt. Một nhà ngôn ngữ học xã hội – Giáo sư Christine Mallinson của Đại học Maryland, Baltimore, đã xác định các dòng tweet về phong cách viết liên quan đến thông tin sai lệch, độ chệch và các nguồn thông tin kém tin cậy trên các phương tiện truyền thông tin tức. Sau đó là thời gian tạo mẫu.
Japkowicz cho biết: “Khi chúng tôi thêm những đầu vào đó vào mô hình, nó đang cố gắng hiểu các yếu tố cơ bản dẫn đến sự tách biệt thông tin tốt và xấu”. “Đó là học ngữ cảnh và cách các từ tương tác.”
Ví dụ: Hai trong số các tweet trong tập dữ liệu chứa các từ “bat soup” và “covid” cùng nhau. Các tweet đã được các nhà nghiên cứu dán nhãn là thông tin sai lệch và mô hình đã xác định chúng là như vậy. Mô hình đã xác định các tweet có ngôn từ kích động thù địch, ngôn ngữ cường điệu hóa và ngôn ngữ cảm xúc mạnh. Tất cả đều có liên quan đến thông tin sai lệch. Điều này cho thấy mô hình đã phân biệt trong mỗi tweet có quyết định của con người đằng sau việc dán nhãn và cho rằng nó tuân thủ các quy tắc của các nhà nghiên cứu.
Các bước tiếp theo là cải thiện giao diện người dùng cho mô hình, cùng với việc cải thiện mô hình để có thể phát hiện các bài đăng xã hội có thông tin sai lệch bao gồm hình ảnh hoặc thông tin đa phương tiện khác. Mô hình thống kê sẽ phải tìm hiểu cách nhiều yếu tố trong các bài đăng trên mạng xã hội tương tác để tạo ra thông tin sai lệch. Ở dạng hiện tại, mô hình có thể được sử dụng tốt nhất bởi các nhà khoa học xã hội hoặc các nhà nghiên cứu đang nghiên cứu cách phát hiện thông tin sai lệch.
Bất chấp những tiến bộ trong học máy giúp chống lại thông tin sai lệch, Boukouvalas và Japkowicz đồng ý rằng trí thông minh của con người và hiểu biết về tin tức vẫn là tuyến phòng thủ đầu tiên trong việc ngăn chặn sự lan truyền của thông tin sai lệch.
“Thông qua công việc của mình, chúng tôi thiết kế các công cụ dựa trên máy học để cảnh báo và giáo dục công chúng nhằm loại bỏ thông tin sai lệch. Chúng tôi tin tưởng mạnh mẽ rằng con người cần phải đóng một vai trò tích cực trong việc ngừng phát tán thông tin sai lệch ngay từ đầu”, Boukouvalas cho biết.
Phạm Hạnh (dịch)
Nguồn: https://www.sciencedaily.com/releases/2021/12/211202162151.htm