Công cụ thống kê mới để phân biệt các tính năng được chia sẻ và duy nhất trong dữ liệu từ các nguồn khác nhau
Khi đối mặt với một tập dữ liệu khó khăn, Phân tích thành phần chính (PCA), có thể giúp chắt lọc độ phức tạp bằng cách tìm ra một số tính năng có ý nghĩa giải thích tỷ số phương sai dữ liệu có ý nghĩa nhất.
Tuy nhiên, PCA đi kèm với giả định tất cả các nguồn dữ liệu đều đồng nhất. Sự phát triển trong kết nối internet đặt ra một thách thức khi dữ liệu được thu thập bởi “khách hàng”, như bệnh nhân, phương tiện được kết nối, cảm biến, bệnh viện hoặc máy ảnh, không đồng nhất. Khi càng có nhiều công nghệ từ đồng hồ thông minh đến công cụ thu thập dữ liệu giám sát, càng nên có một công cụ phân tích mới để phân tách dữ liệu không đồng nhất và mô tả những gì được chia sẻ và duy nhất trên dữ liệu phức tạp từ nhiều nguồn.
Raed Al Kontar, phó giáo sư về công nghiệp và vận hành, cho biết: “Việc xác định những điểm tương đồng đặt ra một thách thức đáng kể. Mặc dù đã nghiên cứu sâu rộng, chúng tôi không tìm thấy phương pháp hiện tại nào có thể trích xuất để chứng minh được cả các tính năng được chia sẻ và duy nhất có thể nhận dạng từ các bộ dữ liệu khác nhau”.
Để giải quyết thách thức này, các nhà nghiên cứu Niaichen Shi và Raed Al Kontar của Đại học Michigan đã phát triển một phương pháp “PCA cá nhân hóa” hay PerPCA mới để tách các thành phần được chia sẻ và duy nhất khỏi dữ liệu không đồng nhất. Kết quả sẽ được công bố trên Tạp chí nghiên cứu Học máy. Shi, tác giả đầu tiên của bài báo, tiến sĩ nghiên cứu sinh về kỹ thuật công nghiệp và vận hành, cho biết: “Phương pháp PCA được cá nhân hóa tận dụng các kỹ thuật học biểu diễn cấp thấp để xác định chính xác cả thành phần chung và duy nhất với sự đảm bảo thống kê tốt”.
“Là một phương pháp đơn giản có thể xác định một cách hiệu quả các tính năng được chia sẻ và duy nhất, chúng tôi hình dung PCA được cá nhân hóa sẽ hữu ích trong các lĩnh vực bao gồm di truyền, xử lý tín hiệu hình ảnh và thậm chí cả các mô hình lớn.”
Tăng thêm tiện ích của nó, phương pháp này có thể được triển khai theo cách được liên kết và phân phối đầy đủ, nghĩa là việc học có thể được phân phối trên các máy khách khác nhau và dữ liệu thô không cần phải chia sẻ; chỉ các tính năng được chia sẻ (và không phải duy nhất) mới được truyền đạt giữa các máy khách. Al Kontar cho biết: “Điều này có thể nâng cao quyền riêng tư của dữ liệu và tiết kiệm chi phí liên lạc và lưu trữ”.
Với PCA được cá nhân hóa, các khách hàng khác nhau có thể hợp tác xây dựng các mô hình thống kê mạnh mẽ bất chấp sự khác biệt đáng kể trong dữ liệu của họ. Các tính năng được chia sẻ và duy nhất được trích xuất mã hóa thông tin phong phú cho các phân tích tiếp theo, bao gồm phân cụm, phân loại hoặc phát hiện bất thường. Các nhà nghiên cứu đã chứng minh khả năng của phương pháp này bằng cách trích xuất hiệu quả các chủ đề chính từ 13 bộ dữ liệu khác nhau về bản chép lại cuộc tranh luận của tổng thống Mỹ từ năm 1960 đến năm 2020. Họ có thể phân biệt các chủ đề và từ khóa tranh luận được chia sẻ và duy nhất. PCA được cá nhân hóa tận dụng các tính năng tuyến tính mà người thực hành có thể hiểu được dễ dàng, nâng cao hơn nữa việc sử dụng nó trong các ứng dụng mới.
Nguyễn Mai (dịch)
Nguồn: https://phys.org/news/2024-03-statistical-tool-distinguish-unique-features.html