Hội thảo kết quả ban đầu thử nghiệm thu thập giá tiêu dùng từ nguồn dữ liệu lớn (Big data)

Ngày 20 tháng 12 năm 2017, Viện Khoa học Thống kê (KHTK) đã tổ chức Hội thảo khoa học về Báo cáo kết quả ban đầu thử nghiệm khai thác nguồn dữ liệu lớn (big data) phục vụ biên soạn chỉ số giá tiêu dùng. Ông Vũ Thanh Liêm, Phó Tổng cục trưởng Tổng cục Thống kê chủ trì Hội thảo. Tham dự hội thảo còn có Ban Lãnh đạo Viện KHTK, đại diện Vụ Thống kê Giá, Trung tâm Tin học thống kê khu vực I và các viên chức của Viện KHTK.

Cùng với sự phát triển của cuộc cách mạng Công nghiệp lần thứ 4, việc ứng dụng và khai thác dữ liệu lớn vào công tác thông kê Nhà nước đang là xu hướng tất yếu khoa học thống kê hiện đại. Theo Ủy ban Thống kê Liên hợp quốc, nguồn dữ liệu lớn ứng dụng trong công tác thống kê gồm 3 nguồn chính: Dữ liệu vệ tinh, dữ liệu điện thoại di động và dữ liệu từ mạng truyền thông xã hội. Đối với công tác thống kê giá, nguồn dữ liệu được thu thập từ các trang mạng trực tuyến bằng công nghệ web-crawler và web-scraper.

Để thu thập được giá của các mặt hàng tương tự trong rổ hàng hóa tính chỉ số giá tiêu dùng của Việt Nam (CPI), Viện KHTK đã làm việc với Cục Thương mại điện tử của Bộ Công thương để cung cấp 104 trang websites chính hiện đang bán trực tuyến các mặt hàng tiêu dùng tương đương với các mặt hàng có trong rổ hàng hóa tính CPI hiện hành (Đây là các trang websites bán hàng trực tuyến được Bộ Công thương quản lý, có số lượng giao dịch, doanh thu từ bán hàng trực tuyến và số lượt người ghé thăm lớn nhất). Kết quả thử nghiệm đã thu thập được: 450/654 (chiếm 68,80%) mặt hàng có các đặc điểm về quy cách, tên gọi và kích thước tương đương với các mặt hàng hiện có trong rổ hàng hóa CPI. Các mặt hàng tiêu dùng này có thể được thu thập hàng giờ, hàng ngày, tùy theo yêu cầu nghiên cứu.

Hội thảo, Viện KHTK đã tập trung trình bày các nội dung chính: (1) Cách thức, quy trình thử nghiệm thu thập giá của hàng tiêu dùng từ mạng trực tuyến; (2) Kết quả ban đầu thử nghiệm thu thập giá của hàng tiêu dùng từ mạng trực tuyến phục vụ biên soạn chỉ số giá tiêu dùng.

Từ kết quả thử nghiệm, các đại biểu rằng việc thu thập giá của hàng tiêu dùng để phục vụ tính chỉ số giá tiêu dùng có tính khả thi. Một số hạn chế cần tiếp tục nghiên cứu giải quyết trong thời gian tới như: những mặt hàng không thể thu thập được từ mạng trực tuyến, hạ tầng công nghệ thông tin, hành lang pháp lý cho việc ứng dụng và khai thác nguồn dữ liệu lớn đối với thống kê nhà nước, phương pháp tính chỉ số giá tiêu dùng từ nguồn dữ liệu lớn,…

Kết luận Hội thảo, ông Vũ Thanh Liêm đánh giá cao kết quả thử nghiệm ban đầu và tính khả thi của nghiên cứu do Viện KHTK thực hiện. Từ những  hạn chế của nghiên cứu đã được chỉ ra, Viện KHTK cần tiếp tục phối hợp với các đơn vị có liên quan như Vụ Phương pháp chế độ thống kê và Công nghệ thông tin, Vụ Thống kê Giá, Trung tâm Tin học thống kê khu vực I và các đơn vị có liên quan khác nhằm giải quyết được các hạn chế này, nâng cao độ tin cậy của dữ liệu thu thập được từ nguồn dữ liệu lớn. Đồng thời, từ đây có thể mở ra các hướng mới như nghiên cứu về niềm tin của người tiêu dùng từ nguồn dữ liệu lớn,…

Một số hình ảnh của Hội thảo:

Ông Vũ Thanh Liêm, Phó Tổng cục trưởng Tổng cục Thống kê chủ trì hội thảo

Ông Nguyễn Văn Đoàn, Viện trưởng Viện KHTK phát biểu tại hội thảo.

Ông Nguyễn Công Hoan, Nghiên cứu viên của Viện KHTK trình bày thử nghiệm

Quang cảnh hội thảo

Văn Thụy