Jiménez đã tạo ra một nguyên mẫu để ước tính xác suất mà một mẩu tin trên trang web trình bày các nội dung liên quan đến rửa tiền, tài trợ cho các hoạt động khủng bố hoặc các chủ đề liên quan (trên toàn thế giới và với các ngôn ngữ khác nhau). Theo cách này, chúng ta có thể phát hiện ra các đối tượng (khách hàng, nhà quản lý, các nhà cung cấp) đã kết nối với một tập đoàn tài chính mà có khả năng là với các nội dung như vậy.
Theo đó, các khảo sát có thể được thực hiện và cho ra các kết luận về việc tiến hành những hành động nào đối với các đối tượng này, tùy theo mức độ nghiêm trọng của từng trường hợp.
Thông qua việc tạo ra các mạng nhện để tự động trích xuất thông tin, việc xử lý ngôn ngữ tự nhiên và một thủ tục liên ứng các thuật toán thống kê đa dạng, các mô hình được tạo ra để gán xác suất và phân loại văn bản. Mục tiêu này đã đạt được với mức độ chính xác cao trong các mô hình phân loại (98% đường cong ROC trong mẫu xác nhận sự phù hợp), và mức độ nhận biết cao trong thử nghiệm ý tưởng được tiến hành, trong đó sử dụng các cá nhân đã biết với các hoạt động đã được xác định trong các chủ đề về rửa tiền.
Đậu Trang (dịch)
Nguồn: http://www.worldofstatistics.org/files/2014/01/WOS_newsletter_09082016.pdf