Hội thảo về khai thác dữ liệu từ máy quét và cào web

Cơ quan Thống kê châu Âu cùng với Nhóm công tác dữ liệu máy quét của Ủy ban chuyên gia của Liên hợp quốc về Dữ liệu lớn và Khoa học dữ liệu cho thống kê chính thức sẽ tổ chức Hội thảo về khai thác dữ liệu từ máy quét và cào web (Scanner Data and Web Scraping) vào ngày 12 – 14 tháng 10 năm 2021 bằng hình thức trực tuyến. Mục tiêu của Hội thảo là trao đổi về thực tiễn kinh nghiệm liên quan đến việc sử dụng các nguồn dữ liệu mới trong thống kê giá tiêu dùng, trình bày và thảo luận về một số công việc do Nhóm công tác và Hệ thống thống kê châu Âu tiến hành.

Hội thảo được tổ chức trong 3 ngày với 7 phiên, cụ thể:

– Ngày 12/10/2021 với 3 phiên: (1) Giới thiệu, gồm các nội dung: Khai mạc hội thảo do Cơ quan Thống kê châu Âu chủ trì; tổng quan về Dữ liệu máy quét của Nhóm đặc nhiệm Liên hợp quốc trình bày; tổng quan về một số công việc thực hiện gần đây do Cơ quan Thống kê châu Âu trình bày; (2) Dữ liệu máy quét 1, gồm các nội dung: từ liên hệ với nhà cung cấp dữ liệu đến tiếp nhận dữ liệu do Nhóm đặc nhiệm Liên hợp quốc trình bày; hướng dẫn sử dụng các phương pháp đa phương do Cơ quan Thống kê châu Âu trình bày; các nguồn dữ liệu mới để đo lường sự phát triển giá trên thiết bị điện tử tiêu dùng do Cơ quan Thống kê Na Uy trình bày; giải quyết các tác động lựa chọn từ sự hình thành giá tương đối trong dữ liệu máy quét với trọng số xác suất nghịch đảo do Cơ quan Thống kê Lao động Mỹ trình bày; (3) Phân loại, gồm các nội dung: hướng dẫn về phân loại do Nhóm đặc nhiệm Liên hợp quốc trình bày; một cách tiếp cận được hỗ trợ bởi Machine Learning để tạo hiệu quả các tập dữ liệu huấn luyện do Cơ quan Thống kê Áo trình bày.

– Ngày 13/10/2021 với 2 phiên: (1) Cào web, gồm các nội dung: cào web trên booking.com để triển khai chỉ số giá khách sạn mới do Viện Thống kê và Nghiên cứu kinh tế quốc gia Pháp trình bày; sử dụng các công cụ tìm kiếm trên web trong việc thu thập giá lưu trú của khách du lịch để cải thiện việc tổng hợp CPI ở Brazil do Viện Thống kê và Địa lý Brazil trình bày; thu thập giá vé máy bay thông qua API: kinh nghiệm của Ý do Viện Thống kê Ý trình bày; kỹ thuật cào web để thu thập thông tin giá cả – Trường hợp của FGV – Brazil trong đại dịch do Fundação Getulio Vargas của Brazil trình bày; xăng dầu: thu thập tự động và sử dụng dữ liệu lớn giữa đại dịch do Cơ quan Thống kê Lao động Mỹ trình bày; báo cáo cào web hàng năm từ Sở giao dịch chứng khoán Oslo với R và Rselenium do Cơ quan Thống kê Na Uy trình bày; (2) Thẩm định, gồm các nội dung: diễn giải các thay đổi của chỉ số thông qua các phân tích về tác động và đóng góp của sản phẩm: phương pháp và công cụ do Cơ quan Thống kê Hà Lan trình bày.

– Ngày 14/10/2021 với 2 phiên: (1) Dữ liệu máy quét 2, gồm các nội dung: GEKS tương phản: Hướng tới việc tổng hợp thực tế CPI với kỳ gốc và các chiến lược liên kết chuỗi trong bộ dữ liệu hoàn chỉnh do Cơ quan Thống kê Phần Lan trình bày; công việc hiện tại với dữ liệu máy quét trong thống kê giá của Đức – Sử dụng trong sản xuất giá PPP do Cơ quan Thống kê Đức trình bày; dữ liệu khiếu nại y tế: cải thiện tỷ lệ phản hồi kém với dữ liệu trễ do Cơ quan Thống kê Lao động Mỹ trình bày; những phát triển gần đây về CPI của Luxembourg: từ rổ hàng động sang phương pháp đa phương do Viện Thống kê và Nghiên cứu kinh tế Luxembourg trình bày. (2) Hướng dẫn, gồm các nội dung: chuyển từ dữ liệu thô sang giá trị chỉ số trong gói Chỉ số giá do Đại học Lodz và Thống kê Ba Lan trình bày; bộ dữ liệu Dominick’s Finer Foods: Thúc đẩy việc sử dụng bộ dữ liệu máy quét có sẵn công khai trong nghiên cứu chỉ số giá và để xây dựng năng lực do Quỹ tiền tệ Quốc tế trình bày và Bế mạc.

Những người tham gia được mời đóng góp cho hội thảo bằng một bài trình bày về một trong các chủ đề sau:

  • Các khía cạnh liên quan đến việc thu thập các nguồn dữ liệu thay thế
  • Ý nghĩa của các nguồn dữ liệu thay thế đối với quá trình sản xuất thống kê
  • Vấn đề phân loại với các nguồn dữ liệu thay thế
  • Phương pháp lập chỉ số cho các nguồn dữ liệu thay thế
  • Nghiên cứu điển hình để tìm kiếm trên web
  • Sử dụng các nguồn dữ liệu thay thế trong bối cảnh giãn cách xã hội
  • Ngoài ra, các đề xuất thực hiện một hướng dẫn (30-45 phút) về một công cụ hoặc phương pháp cụ thể để biên soạn chỉ số, tìm kiếm hoặc phân loại web cũng được hoan nghênh.

Để đăng ký tham gia Hội thảo, vui lòng bấm vào đây. Liên kết kết nối đến Hội thảo sẽ được gửi đến tất cả những người tham gia đã đăng ký ngày gần Hội thảo diễn ra.

Nguồn: https://ec.europa.eu/eurostat/cros/content/workshop-scanner-data-web-scraping_en