Học máy mở đường cho sản xuất thống kê hiện đại, hiệu quả

Sự hợp tác quốc tế do Ủy ban Kinh tế và Xã hội của Liên hợp quốc ở châu Âu (UNECE) tạo điều kiện đang giúp các tổ chức thống kê trên toàn thế giới tiến tới việc sản xuất các số liệu thống kê quan trọng theo những cách sáng tạo dựa trên học máy (Machine learning – ML) và trí tuệ nhân tạo (Artificial Intelligence – AI).

Nhóm học máy 2021, do Đại học Khoa học Dữ liệu của Vương quốc Anh phối hợp với UNECE dẫn đầu, đang thúc đẩy nỗ lực đưa các ý tưởng về ML và AI từ lĩnh vực khoa học viễn tưởng hướng tới một thực tế có thể góp phần tạo ra với chi phí ít hơn, nhanh hơn và chính xác hơn số liệu thống kê cho việc ra quyết định quan trọng. Một sáng kiến kéo dài một năm gồm nghiên cứu, chia sẻ kiến thức và phát triển năng lực nhằm mục đích đặt ML là vị trí trung tâm trong các nỗ lực quốc tế nhằm hiện đại hóa cách thức sản xuất số liệu thống kê.

ML là một phần trong cuộc sống hàng ngày của chúng tôi

ML và AI có thể giống như những từ mang tính xu hướng “hot”, thuật ngữ biệt ngữ chỉ liên quan đến thế giới của những người đam mê công nghệ trong ngành Công nghiệp phần mềm. Nhưng chúng ta đang sống trong một thế giới kỹ thuật số, và sự thật là các công cụ dựa trên ML và AI đều ở xung quanh chúng ta. Các ứng dụng tin tức mà chúng tôi lướt qua khi bắt đầu ngày mới; bộ lọc thư rác để giữ cho các Email rác không có trong hộp thư đến trong công việc của chúng tôi; phương tiện truyền thông xã hội kết nối chúng ta với gia đình và bạn bè; các trang web phát trực tuyến phim và truyền hình mà chúng ta thư giãn vào cuối ngày; từ bình minh cho đến hoàng hôn, mỗi ngày của chúng ta đều chạm đến bởi sức mạnh công nghệ mới này.

Một cuộc cách mạng dữ liệu

ML đã đi vào thành công mọi ngóc ngách trong cuộc sống của chúng ta, không chỉ nhờ sự gia tăng sức mạnh tính toán và những tiến bộ trong phương pháp, mà còn do một hiện tượng quan trọng của những năm gần đây, được gọi là “cuộc cách mạng dữ liệu”. Số lượng dữ liệu kỹ thuật số được tạo ra đang tăng lên ở quy mô chưa từng có, khi ngày càng có nhiều dịch vụ được số hóa và kiến thức ngày càng được đưa nhiều lên trang web. ML phụ thuộc vào dữ liệu – máy tính được cung cấp dữ liệu và được hướng dẫn tìm kiếm các mẫu – vì vậy càng nhiều dữ liệu, máy càng có nhiều phạm vi để xác định các mẫu này hoặc ‘học’ từ thông tin mà chúng được cung cấp.

ML trong số liệu thống kê nhà nước: cần có một cách tiếp cận thận trọng

Quá trình trích xuất các mẫu từ dữ liệu trong ML không quá khác biệt so với quá trình sản xuất cốt lõi của các cơ quan thống kê quốc gia (NSOs), theo truyền thống xử lý dữ liệu từ các cuộc điều tra, đăng ký và các nguồn hành chính để tạo ra các số liệu thống kê chính thức mà chúng ta phụ thuộc vào như Tổng sản phẩm trong nước GDP, tỷ lệ có việc làm và số liệu nhân khẩu học. Thật vậy, nhiều kỹ thuật được sử dụng trong ML có nguồn gốc từ các phương pháp thống kê mà NSOs đã sử dụng trong nhiều thập kỷ. Việc mở rộng phạm vi công việc của NSOs để bao gồm các kỹ thuật mới này mang lại tiềm năng tăng tốc các quy trình hiện đang tốn nhiều thời gian hoặc sự can thiệp của con người, cũng như khả năng giảm gánh nặng trả lời cho người trả lời. Ví dụ: ML có thể được sử dụng để phân loại công việc mà mọi người nắm giữ và ngành họ làm việc dựa trên câu trả lời của họ cho các câu hỏi điều tra mở, một cách tiếp cận đang được thử nghiệm ở Canada, Mexico, Serbia và Iceland.

Mã hóa và phân loại là điều cần thiết để đảm bảo dữ liệu thu thập từ mọi người hoặc doanh nghiệp có thể so sánh được trong nước và quốc tế – nhưng các quy trình này đòi hỏi cần tập trung nhiều nguồn lực, thường liên quan đến người đọc câu trả lời và gán mã cho chúng. Tuy nhiên, với ML, quá trình này phần lớn có thể được tự động hóa. Các chuyên gia đầu tiên làm việc trên một tập hợp con nhỏ của toàn bộ tập dữ liệu. Sau đó ML được sử dụng để phân loại phần dữ liệu còn lại bằng cách học hỏi từ mô hình công việc của các chuyên gia. Việc mã hóa tự động như vậy dẫn đến việc phát hành số liệu nhanh hơn, khiến chúng có giá trị hơn đối với người dùng cuối cùng.

Mặc dù mang đến nhiều điều tuyệt vời, nhưng việc sử dụng ML cho các số liệu thống kê chính thức đòi hỏi một cách tiếp cận rất thận trọng. NSOs hoạt động theo một cách khác với các công ty thuộc khu vực tư nhân. Các nguyên tắc cơ bản của thống kê nhà nước yêu cầu các số liệu thống kê của họ phải được tạo ra một cách khoa học, đáng tin cậy, minh bạch và có thể tái tạo được. Các công nghệ và kỹ thuật mới phải được khai thác theo những cách duy trì lòng tin của công chúng. Và mặc dù NSOs nên thử nghiệm các ý tưởng mới để thử và sắp xếp hợp lý các quy trình cũng như cải thiện sản phẩm của họ, nhưng không có nhiều thời gian như những người khác để thử các ý tưởng mới và chỉ cần loại bỏ chúng nếu kết quả bắt đầu không như mong muốn: sau khi NSOs công bố số liệu đó là số liệu thống kê chính thức, người dùng phụ thuộc vào độ chính xác và liên tục của chúng.

UNECE giúp các tổ chức thống kê trên toàn thế giới thúc đẩy việc sử dụng ML

Nhóm Cấp cao của UNECE về Hiện đại hóa số liệu thống kê chính thức (HLG-MOS) đi đầu trong các nỗ lực toàn cầu nhằm hiện đại hóa số liệu thống kê chính thức. Năm 2019, nhóm đã thực hiện thử thách điều tra xem ML có thể được khai thác như thế nào để giúp NSOs cải thiện việc sản xuất số liệu thống kê chính thức. Dự án ML kết thúc vào tháng 12/2020 có sự tham gia của hơn 120 người từ 23 quốc gia. Sau khi thực hiện 19 nghiên cứu thử nghiệm trong 2 năm, báo cáo cuối cùng của dự án kết luận rằng “ML” không chỉ là một từ “hot” hoặc một giai đoạn trôi qua cho số liệu thống kê chính thức mà tiềm năng của ML là xác thực và rất lớn.

Tuy nhiên, các thành viên của dự án cũng công nhận rằng mặt trái của những lợi ích này, các tiêu chuẩn chất lượng khắt khe là nền tảng của số liệu thống kê chính thức và những tiêu chuẩn được tạo ra với sự trợ giúp của ML cũng không ngoại lệ. Chất lượng, theo thuật ngữ thống kê, không chỉ có nghĩa là chính xác mà còn đề cập đến các khía cạnh khác như tính kịp thời và hiệu quả về chi phí. Các kỹ thuật mới của ML tạo ra nhiều khía cạnh hơn nữa mà chất lượng phải được đánh giá, chẳng hạn như khả năng giải thích và khả năng tái tạo. Nhiều người bày tỏ nỗi lo sợ về mặt đạo đức của ML, bắt nguồn từ sự phức tạp của các thuật toán, đôi khi được coi như một “hộp đen” vì có thể rất khó để xem xét những gì đang xảy ra bên trong. Nếu người dùng không thể hiểu ML đưa ra quyết định như thế nào, họ có thể không cảm thấy tin tưởng vào kết quả. Thật vậy, không chỉ người dùng cuối mà cả NSOs sử dụng ML cần có khả năng hiểu nội dung của “hộp đen”, để đảm bảo rằng ML không “đưa ra quyết định chính xác vì những lý do sai lầm”, có sự thiên vị trong tập dữ liệu. Dự án HLG-MOS đã phát triển Khung chất lượng cho các thuật toán thống kê, nhằm hướng dẫn NSOs đi qua lĩnh vực có nhiều khó khăn không nhìn thấy này để đảm bảo chất lượng khi sử dụng ML.

Hợp tác quốc tế để đảm bảo lời hứa được thực hiện

Vẫn còn một chặng đường dài trước khi thực sự khai thác tiềm năng của ML để hiện đại hóa số liệu thống kê chính thức. Ngay cả sau khi các dự án thử nghiệm thành công ở nhiều quốc gia UNECE, các giải pháp dựa trên ML vẫn chưa nhất thiết được chấp nhận như một phần không thể thiếu trong quy trình sản xuất của NSOs. Các rào cản để thành công, chẳng hạn như hệ thống công nghệ thông tin lỗi thời, hay văn hóa làm việc không muốn hợp tác và chia sẻ, đã được nghiên cứu như một phần của dự án. Thông qua việc điều phối mạng lưới các chuyên gia trên toàn thế giới này, Nhóm HLG-MOS đã bắt đầu thúc đẩy sự hiểu biết chung về những rào cản này và các giải pháp khả thi. Năm 2021, kế hoạch tiếp tục với một loạt các công việc. Vương quốc Anh đang dẫn đầu về việc sử dụng ML có đạo đức trong thống kê; IMF, Mexico, Thụy Điển và những nước khác sẽ tập trung vào việc tích hợp ML vào sản xuất; Phần Lan sẽ khám phá các vấn đề về chất lượng trong bộ dữ liệu sử dụng các thuật toán ML; và Mexico sẽ tiếp tục nỗ lực để thiết lập một khuôn khổ chất lượng được quốc tế thống nhất cho ML trong số liệu thống kê chính thức.

Lan Phương (dịch)

Nguồn: https://unece.org/statistics/news/machine-learning-paves-way-modern-efficient-statistical-production