Học máy cho thống kê nhà nước; lan truyền, cần thiết hay bứt phá?

Hướng dẫn của UNECE, Học máy cho Thống kê nhà nước được phát hành ngày 03 tháng 3, sẽ giúp các tổ chức thống kê quốc gia và quốc tế khai thác sức mạnh của học máy (ML) để hiện đại hóa việc sản xuất thống kê nhà nước.

Như được tìm thấy bởi một dự án năm 2021 do Vương quốc Anh và UNECE dẫn đầu, ML có tiềm năng to lớn để hiện đại hóa việc sản xuất số liệu thống kê, có thể tốn rất nhiều thời gian và tài nguyên khi dựa trên các phương pháp tiếp cận thông thường. Các cơ quan thống kê đang ngày càng khám phá việc bổ sung ML vào kho công cụ của họ để xử lý các tập dữ liệu rất lớn – chẳng hạn như thông tin giá được thu thập tự động hoặc “cào” từ các cửa hàng trực tuyến – vì các công cụ và kỹ thuật thống kê thông thường tỏ ra cực kỳ đắt đỏ khi đối mặt với khối lượng lớn dữ liệu như vậy.

Tiềm năng đặc biệt lớn đối với các quy trình yêu cầu ra quyết định “giống như con người”, chẳng hạn như đọc mô tả bằng văn bản và gán nó vào một danh mục hoặc nhìn vào một hình ảnh để xác định những gì nó đại diện. Theo truyền thống, điều này được thực hiện theo cách thủ công hoặc thông qua một hệ thống dựa trên quy tắc phức tạp, cả hai đều tốn kém, mất thời gian và khó quản lý.

Những tiến bộ trong ML đã được công bố rộng rãi. Nhiều người trong chúng ta đã biết rằng máy tính đã học cách vẽ theo phong cách của Rembrandt, viết các bài báo giống như con người và xác định hình dạng 3D của protein. Nhưng làm thế nào để những phát hiện thú vị này chuyển sang thế giới trần tục hơn của số liệu thống kê nhà nước do Cơ quan Thống kê Quốc gia (NSO) cung cấp? Được điều chỉnh bởi các Nguyên tắc Cơ bản của Thống kê nhà nước, có một trọng trách lớn gắn liền với mỗi con số mà họ tạo ra, vì vậy họ không thể trở thành con mồi của sự cường điệu hóa.

Một loạt gồm 21 nghiên cứu thử nghiệm đã được thực hiện như một phần của hai sáng kiến: Nhóm Cấp cao của UNECE về Dự án Máy học Hiện đại hóa Thống kê nhà nước (HLG-MOS) (2019-20) và Cơ quan Thống kê Quốc gia Vương quốc Anh (ONS) – Nhóm Học máy UNECE 2021. Những nghiên cứu này đã làm rõ rằng đối với số liệu thống kê nhà nước, khó khăn thực sự bắt đầu khi các NSO cố gắng chuyển từ các “thử nghiệm” sáng tạo, vui nhộn sang sản xuất thống kê hàng ngày. Để điều này xảy ra, các giải pháp mới thú vị phải được kết nối liền mạch với các quy trình kinh doanh thông thường. Những thay đổi đáng kể về cơ sở hạ tầng, cơ cấu tổ chức và văn hóa cần thiết để thực hiện điều này có nghĩa là nhiều giải pháp học máy cho thống kê cuối cùng vẫn bị bỏ lại trên kệ.

Hướng dẫn mới dựa trên những phát hiện của các nghiên cứu thử nghiệm này để xác định các rào cản cụ thể đối với việc áp dụng trong các NSO và đưa ra các khuyến nghị để giải quyết chúng. Thông điệp quan trọng là việc tăng ML trong thống kê nhà nước phụ thuộc vào hai điều.

Đầu tiên là sự chấp nhận: cuối cùng ML sẽ chỉ được sử dụng nếu nó được chấp nhận rộng rãi, cả từ quan điểm thống kê và đạo đức. Hướng dẫn xác định một loạt các yếu tố then chốt để được chấp nhận như vậy, bao gồm khả năng chứng minh rõ ràng giá trị gia tăng, sự tôn trọng rõ ràng và minh bạch đối với các cân nhắc pháp lý đạo đức và sự phù hợp của các đổi mới với nhu cầu kinh doanh của NSO.

Điều kiện tiên quyết thứ hai là tạo điều kiện thuận lợi. Điều này có nghĩa là thúc đẩy bối cảnh trong đó các NSO có thể tận dụng tốt nhất tiềm năng của ML. Điều này xuất phát từ việc đảm bảo rằng các cơ quan thống kê có các kỹ năng phù hợp trong đội ngũ nhân viên của họ, cơ sở hạ tầng máy tính cần thiết, chiến lược hỗ trợ nghiên cứu và phát triển, và sự tham gia mạnh mẽ trong toàn bộ NSO từ nhân viên kỹ thuật đến quản lý cấp cao.

Hướng dẫn, và dự án dựa trên nó, kết luận rằng ML trong số liệu thống kê nhà nước không chỉ đơn thuần là tiếng thông báo; nó là điều bắt buộc khi nó có thể tăng thêm giá trị, nhưng nó không nên được sử dụng ở những nơi không đủ điều kiện.

Các chìa khóa để chấp nhận Học máy trong Thống kê nhà nước

Lĩnh vực ML đang phát triển nhanh chóng, với các phương pháp, nền tảng và cách tiếp cận mới ra mắt hàng tháng. Để bắt kịp với tốc độ thay đổi và tránh những nỗ lực trùng lặp, rất cần sự cộng tác và chia sẻ kiến ​​thức trong cộng đồng thống kê nhà nước. UNECE tiếp tục dẫn dắt những nỗ lực này trong năm nay, thông qua Nhóm Học máy 2022 hợp tác với ONS của Vương quốc Anh, để hỗ trợ các tổ chức thống kê khai thác sức mạnh của học máy.

ĐN (lược dịch)

Nguồn: https://unece.org/media/Statistics/press/365536