Học máy có thể giúp chúng ta tạo ra một bản đồ nghèo đói tốt hơn?
Học máy (ML) đã trở nên phổ biến trong nhiều lĩnh vực khác nhau, bao gồm cả việc lập bản đồ nghèo đói. Gần đây, đã có một sự gia tăng trong việc sử dụng các phương pháp ML và dữ liệu không gian địa lý để tạo bản đồ nghèo chi tiết.
Hiểu được nơi những người nghèo sống là rất quan trọng để xóa đói giảm nghèo. Do đó, các ước tính nghèo chi tiết là rất quan trọng để can thiệp kịp thời. Tuy nhiên, các cuộc điều tra hộ gia đình truyền thống có những hạn chế về độ chính xác và phạm vi địa lý, cản trở việc điều tra chi tiết. Điều này được khắc phục bằng ước lượng khu vực nhỏ – một phương pháp thống kê kết hợp dữ liệu từ các cuộc điều tra hộ gia đình với thông tin bổ sung từ các cuộc điều tra dân số, cơ sở dữ liệu hành chính, hệ thống thông tin địa lý hoặc các nguồn khác để tạo ra các ước tính có chất lượng cao hơn. Bằng cách tận dụng các kỹ thuật ước lượng khu vực nhỏ, các nhà hoạch định chính sách có thể khắc phục những nhược điểm của dữ liệu khảo sát truyền thống và có được những hiểu biết đáng tin cậy hơn để thiết kế các biện pháp can thiệp hiệu quả.
Các bản đồ nghèo dựa trên ML được thực hiện và xác thực như thế nào?
Hầu hết các bản đồ dựa trên học máy được tạo ra bằng cách thiết lập một mô hình nắm bắt mối tương quan không gian giữa thước đo nghèo đói thu được từ một cuộc khảo sát và dữ liệu không gian địa lý. Các bản đồ ML thường được xác thực bằng cách tính toán R-bình phương, định lượng tỷ lệ biến thể trong các ước tính dựa trên khảo sát được giải thích bằng các ước tính dự đoán. Trong một số trường hợp nhất định, một hệ số tương quan cũng được sử dụng để đánh giá mức độ của mối quan hệ giữa các ước tính dựa trên khảo sát và dự đoán. Thông thường, giá trị R-bình phương cao được sử dụng để xác định chất lượng của bản đồ.
Bản đồ nghèo đói sử dụng học máy tốt như thế nào?
Trong bài báo mới của chúng tôi, lập bản đồ nghèo đói trong thời đại học máy, chúng tôi tận dụng một cuộc khảo sát hộ gia đình quy mô lớn và rất chi tiết. Cuộc khảo sát giữa kỳ Mexico năm 2015 và sử dụng nó như một cuộc điều tra dân số. Bởi vì cuộc khảo sát được coi là một cuộc điều tra dân số, tỷ lệ nghèo đói ở các khu vực nhỏ trong dữ liệu là mục tiêu của chúng tôi. Sau khi lấy 500 mẫu từ cuộc điều tra dân số, chúng tôi có được các ước tính nghèo đói trong khu vực nhỏ bằng nhiều phương pháp khác nhau.
Phương pháp ML, chúng tôi dựa vào các máy tăng cường độ dốc[1] sử dụng dữ liệu sau:
- Điều tra dân số có nguồn gốc từ cấp đô thị (CEN-MUN)
- Các hiệp phương sai GIS cấp đô thị có sẵn (GIS-MUN)
- Kết hợp của các đồng biến có nguồn gốc từ điều tra dân số và GIS (ALL-MUN)
Bản đồ nghèo dựa trên ML được so sánh với các phương pháp truyền thống để lập bản đồ nghèo. Cụ thể, so sánh các bản đồ ML với bản đồ nghèo cấp đơn vị thu được từ dữ liệu vi mô khảo sát và điều tra dân số nơi các giá trị phúc lợi cho toàn bộ dân số được mô phỏng và các bản đồ cấp khu vực trong đó tỷ lệ nghèo ở cấp khu vực được mô hình hóa bằng cách sử dụng các đặc điểm ở cấp khu vực.
Chúng tôi chỉ ra rằng chất lượng dữ liệu được sử dụng để lập bản đồ nghèo cũng quan trọng như phương pháp. Bản đồ nghèo dựa trên ML với dữ liệu phù hợp cạnh tranh với bản đồ truyền thống, đòi hỏi nhiều dữ liệu hơn (ví dụ: yêu cầu quyền truy cập vào vi dữ liệu điều tra dân số) được thực hiện tại Ngân hàng Thế giới kể từ đầu thế kỷ 21 (hình 1). Tuy nhiên, chất lượng dữ liệu là công cụ để có được bản đồ nghèo chất lượng cao. Ngay cả các thuật toán ML hàng đầu cũng không thể làm được gì nhiều với dữ liệu kém, dữ liệu không gian địa lý có sẵn công khai được sử dụng không mang lại các ước tính phù hợp (hình 1, ước tính của GIS-MUN). Khi có thể, việc kết hợp dữ liệu không gian địa lý với dữ liệu chất lượng cao hơn, chẳng hạn như tổng hợp có nguồn gốc từ điều tra dân số hoặc dữ liệu hành chính, có thể mang lại ước tính chất lượng cao hơn (ALL-MUN).
Hình 1: Xu hướng thực nghiệm và sai số bình phương trung bình (MSE) của các phương pháp khác nhau
Tại sao chúng ta không sử dụng thước đo R-bình phương hoặc các mối tương quan để đánh giá các ước tính?
Mục tiêu của việc lập bản đồ nghèo là ước tính tỷ lệ nghèo. Bởi vì các ước tính dựa trên khảo sát vốn dễ bị nhiễu nên chúng cung cấp một giá trị gần đúng cho giá trị thực tế. Do đó, sức mạnh của mối quan hệ giữa dự đoán và ước tính dựa trên khảo sát là sai lệch và có thể rất khác khi được đánh giá theo tỷ lệ nghèo.
Ngoài ra, R-bình phương và các mối tương quan không bị ảnh hưởng bởi sai lệch hệ thống trong mô hình dự báo trong đó tỷ lệ nghèo đói được đánh giá cao hơn hoặc thấp hơn một cách có hệ thống. Do đó, các thước đo tương quan và R- bình phương được sử dụng để xác thực các bản đồ nghèo trong tài liệu ML có thể gây hiểu lầm về mặt đánh giá mô hình vì nó mang lại thông tin không chính xác để chọn tập hợp ước tính tốt nhất qua các phương pháp và kịch bản khác nhau.
Tất cả những điều này ngụ ý gì đối với việc lập bản đồ nghèo trong tương lai?
Phát hiện của chúng tôi minh họa rằng ML hứa hẹn sẽ lập bản đồ nghèo, nhưng các xác nhận hiện có chưa đủ sâu để đánh giá chất lượng của nó. Các máy tăng cường độ dốc, đã được kiểm định bằng phương pháp ML về độ nhiễu và độ lệch, có khả năng mang lại các ước tính ngang bằng với các bản đồ nghèo cấp đơn vị. Tuy nhiên, chất lượng của dữ liệu được sử dụng để lập mô hình là chìa khóa để có được bản đồ nghèo chất lượng cao. Khi việc truy cập dữ liệu ngoài dữ liệu không gian địa lý bị cản trở, bản đồ nghèo phải được sử dụng cẩn thận, nỗ lực nhiều hơn để xác thực.
Lập bản đồ nghèo dựa trên học máy có thể cung cấp những hiểu biết có giá trị cho các nhà hoạch định chính sách. Nhưng điều cần thiết là phải đánh giá nghiêm túc các phương pháp và dữ liệu được sử dụng để lập bản đồ nghèo nhằm đảm bảo tính hiệu quả của chúng trong việc giải quyết nghèo đói
Thu Hương (dịch)
Nguồn: https://blogs.worldbank.org/developmenttalk/can-machine-learning-help-us-create-better-poverty-map
[1] là một kỹ thuật học máy được sử dụng trong các tác vụ hồi quy và phân loại, trong số các tác vụ khác. Nó đưa ra một mô hình dự đoán dưới dạng một tập hợp các mô hình dự đoán yếu, thường là cây quyết định. (Wikipedia)