Thống kê chính thức trong thế giới khoa học dữ liệu đang thay đổi

Khoa học dữ liệu đã và đang mang lại cho các Cơ quan thống kê quốc gia (NSO) những cơ hội để xem xét, sử dụng các nguồn dữ liệu mới cũng như áp dụng các phương pháp mới trong sản xuất thông tin thống kê. Chính vì vậy, trong thế giới khoa học dữ liệu đang không ngừng phát triển, thống kê nói chung và thống kê chính thức nói riêng cần phải định vị lại nhiều vấn đề liên quan đến khoa học dữ liệu. Theo đó, trong Đại hội Thống kê Thế giới (WSC) lần thứ 63 vừa được tổ chức trong tháng 7/2021, “Thống kê chính thức trong thế giới khoa học dữ liệu đang thay đổi” là phiên họp quy tụ được nhiều nhà lãnh đạo đến từ các NSO trên khắp thế giới để cùng nhau trả lời các câu hỏi lớn như: (1) Cuộc cách mạng khoa học dữ liệu đã mang lại những thay đổi quan trọng nào cho thống kê chính thức? (2) Những thách thức và cơ hội chủ yếu đối với thống kê chính thức trong thời đại kỹ thuật số là gi? (3) Sự tiến bộ của khoa học dữ liệu có thể giúp thống kê chính thức đảm bảo tính độc lập về chuyên môn nghiệp vụ và cải thiện niềm tin của công chúng? (4) Các NSO đang có những nỗ lực gì để tuyển dụng các nhà khoa học dữ liệu làm việc cho thống kê chính thức? (5) Những nhân viên của các NSO cần thêm nền tảng, kiến ​​thức chuyên môn và kỹ năng nào trong thời đại phát triển khoa học dữ liệu này và làm cách làm để nâng cao được những kỹ năng này nhằm đáp ứng được nhu cầu?

Phát biểu quan điểm về những vấn đề này, ông Yoel Finket, Phó Tổng cục trưởng Cơ quan Thống kê Israel (ICBS) đã điểm lại một số bối cảnh dẫn đến cuộc cách mạng khoa học dữ liệu nói chung và trong thống kê chính thức nói riêng, đồng thời chỉ ra những thay đổi đáng kể trong các hoạt động sản xuất thông tin thống kê chính thức thông qua việc đối chiếu khoa học dữ liệu với Mô hình quy trình tác nghiệp thống kê chung (GSBPM). Ông cũng đưa ra một số ví dụ về các dự án ứng dụng khoa học dữ liệu trong thống kê chính thức của ICBS như: mô hình AI để tự động phân tổ các hoạt động kinh tế và nghề nghiệp theo tiêu chuẩn ISIC và ISCO, mô hình machine learning cao cấp xác định những người thuộc nhóm dân số cực đoan chính thống, mô hình machine learning để lựa chọn địa chỉ chính xác trong tổng điều tra dân số từ nhiều nguồn dữ liệu khác nhau. Ông Yoel chỉ ra một số cơ hội và thách thức trong kỷ nguyên số, cụ thể là những thách thức trong quản lý chất lượng dữ liệu và tính riêng tư của người cung cấp thông tin, cũng như những cơ hội trong thu thập dữ liệu từ nhiều nguồn dữ liệu mới. Bên cạnh đó, việc tuyển dụng các nhà khoa học dữ liệu cũng được khẳng định là cần thiết với những vị trí như: quản lý sản phẩm dữ liệu (data product manager), kỹ sư dữ liệu (data engineer), kỹ sư khoa học dữ liệu (data scientist), chuyên viên thu thập dữ liệu (data acquisition specialist)…, cũng như phải lấp đầy khoảng trống về các kỹ năng liên quan đến khoa học dữ liệu cho những nhân viên hiện có.

Bà Gabriella Vukovich, Thống kê trưởng của Hungrary, Chủ tịch Cơ quan Thống kê Trung ương Hungrary cũng khẳng định môi trường dữ liệu những năm gần đây đã thay đổi rất nhanh chóng cùng với nhu cầu của người dùng ngày càng trở nên đa dạng, phức tạp với những yêu cầu cao hơn, đặc biệt là tính kịp thời. Do đó, để thích ứng được với những thay đổi này và đáp ứng được nhu cầu của người dùng tin, những người làm thống kê trong các NSO cần có các kiến thức, kỹ năng về khoa học dữ liệu. Mặc dù Thống kê Hungary có một hệ thống đào tạo nội bộ khá tốt, hiện vẫn còn thiếu những khóa đào tạo về khoa học dữ liệu. Tuy vậy, Thống kê Hungary khuyến khích nhân viên trau dồi tất cả các kỹ năng liên quan đến khoa học dữ liệu thông qua đăng ký các khóa học bên ngoài với các khoản tài trợ về kinh phí đào tạo để không ai bị bỏ lại phía sau. Liên quan đến những thách thức, bà Gabriella Vukovich đề cập đến vấn đề quản lý chất lượng thống kê. Theo đó, đây được coi là thách thức của rất nhiều NSO và các NSO cần công bố các thông tin về chất lượng thông tin thống kê một cách minh bạch cho người dùng, đặc biệt là trong bối cảnh nhiều nguồn dữ liệu mới được sử dụng.

Tại phiên họp, ông Sugeru Kawasaki, Nguyên Tổng cục trưởng Cơ quan Thống kê Nhật Bản đã chỉ ra đóng góp về những phương pháp và nguồn dữ liệu mới cho thống kê chính thức của khoa học dữ liệu. Ông cho rằng giữa thống kê và khoa học dữ liệu có nhiều tương đồng và khoa học dữ liệu đã mang lại những thay đổi đột phá cho thống kê. Tại Nhật Bản, khoa học dữ liệu mang đến nhiều cơ hội, ví dụ như sử dụng dữ liệu lớn để tính CPI (từ đầu những năm 2000), phương pháp ước lượng khu vực nhỏ (từ 2006), tự động đánh mã bằng machine learning (từ 2015). Tuy vậy, trong kỷ nguyên số, vẫn còn nhiều thách thức cho thống kê chính thức như khả năng tiếp cận hạn chế của NSO với các dữ liệu thuộc khu vực tư nhân, dữ liệu thu thập không phù hợp với nhu cầu thực tế, khả năng giải trình còn thấp của một số nguồn dữ liệu mới (chẳng hạn như dữ liệu lớn, việc công bố số liệu một cách chi tiết có thể dẫn đến vi phạm quyền riêng tư. Ông Sugeru Kawasaki cũng cho rằng ngày nay, làm thống kê thì cần phải có các kỹ năng về khoa học dữ liệu nhưng thống kê không nhất thiết phải dẫn đầu về công nghệ nên không cần thiết phải cạnh tranh trong việc tuyển dụng những nhà khoa học dữ liệu giỏi nhất với khu vực tư nhân. Thay vào đó, ngành thống kê cần tuyển những nhân viên có kiến thức về toán, thống kê và khả năng học hỏi tốt./.

Trang Chun