Tác giả: Tom Macaulay
Công ty YouGov đã dự đoán chính xác cuộc bầu cử ở Anh nhờ mô hình thống kê thử nghiệm được gọi là Hồi quy đa biến và mẫu phân tầng (MRP).
Kết quả của cuộc bầu cử ở Anh đã làm nản lòng rất nhiều các nhà thăm dò, sau những gì dự đoán không đúng về cuộc trưng cầu dân ý của EU và cuộc bầu cử Tổng thống Hoa Kỳ, nhưng một trong số họ đã dự đoán chính xác cuộc bầu cử ở Anh là một quốc hội không có đảng nào, chiếm đa số, trong khi hầu hết tất cả những người khác thất bại.
Như bình luận viên James O’Brien người dẫn chương trình LBC và Newsnight đã nói: “Người chiến thắng thực sự duy nhất cho đến nay là YouGov”.
(Hình ảnh minh họa bỏ phiếu)
Dự đoán của YouGov dựa trên kết quả của một mô hình thống kê mới sử dụng phương pháp Hồi quy đa biến và mẫu phân tầng (MRP), được phát triển để tạo ra các ước tính cho các vùng địa lý nhỏ, chẳng hạn như các khu vực bầu cử. Nó hướng dẫn công ty dự đoán chính xác đảng chiến thắng với 93% số ghế, mặc dù dựa vào cỡ mẫu trung bình trong mỗi cuộc bầu cử là 75 người.
Mô hình này được phát triển bởi Giáo sư Ben Lauderdale, Trường Kinh tế London và nhóm nghiên cứu dữ liệu của YouGov do Doug Rivers, Đại học Stanford đứng đầu, Rivers đã chia sẻ với hiệp hội Computerworld UK về cách thức hoạt động của MRP như thế nào.
Rivers chia sẻ: “Một cuộc thăm dò 75 người có thể dễ dàng bị loại bỏ, vì bổ sung thêm mười người”. Bí quyết là chúng ta biết năm 2015 có bao nhiêu người bình chọn cho Đảng Bảo thủ và Đảng Lao động và Đảng Quốc gia Scotland (SNP) và năm 2016 chúng ta biết có bao nhiêu người đã bỏ phiếu để rời bỏ hoặc ở lại EU. Hai điều này khi chúng ta thêm thông tin nhân khẩu học làm cho những dự đoán mạnh mẽ hơn”.
Do đó mô hình này làm phong phú thêm dữ liệu không đầy đủ và tỷ lệ đáp ứng thấp để dự đoán chính xác vị trí nào sẽ có đủ phiếu bầu.
Mô hình MRP của YouGov
YouGov đã sử dụng dữ liệu thăm dò từ bảy ngày trước để tham chiếu các biến số trong hồ sơ người được theo dõi, với ý định bỏ phiếu hiện tại của họ. Các biến số này bao gồm bầu cử, dân số, hành vi cử tri trong quá khứ và ngày phỏng vấn. Mô hình sau đó ước tính xác suất của từng loại cử tri bỏ phiếu cho một đảng chính trị cụ thể.
Cơ quan Thống kê Anh (ONS) điều tra dân số hàng năm, nghiên cứu về Bầu cử Anh, cuộc bầu cử tổng thống năm 2015 và trưng cầu dân ý của EU sau đó được sử dụng để ước lượng số cử tri có ở mỗi khu vực bầu cử. YouGov có thể dự đoán bao nhiêu loại, mỗi loại dự định bỏ phiếu trong bầu cử của họ.
Mô hình tiếp tục bổ sung một số lượng nhỏ các cuộc phỏng vấn được tiến hành tại mỗi khu vực bầu cử bằng cách tổng hợp dữ liệu từ những người trả lời ở các khu vực khác nhau để tăng cường số lượng mẫu và tăng độ chính xác. Vì hồ sơ cử tri vẫn được coi là một nguồn thông tin để dự báo khá chính xác cho dù họ sống ở đâu.
Dữ liệu được gửi từ hệ thống khảo sát của YouGov tới cơ sở dữ liệu phân tích Crunch. Mẫu này sau đó được xử lý thông qua một phần của phần mềm phân tích xác suất sử dụng mã nguồn mở gọi là Stan được phát minh bởi Andrew Gelman thuộc Đại học Columbia. Nó sử dụng một thuật toán, được gọi là thuật toán Hamiltonian Monte Carlo để ước lượng mô hình dữ liệu.
Tỷ lệ cơ hội?
Sự mất mát của thành phố Canterbury thuộc Đảng lao động ở Anh sau 99 năm đã thuộc Đảng bảo thủ là một cú sốc đối với hầu hết mọi người, nhưng YouGov đã nhìn thấy. Dự đoán chủ yếu dựa vào thông tin Canterbury có sự hiện diện phần lớn của cử tri và sinh viên.
Rivers nói: “Đó chỉ là những dữ liệu nói ra. Điều mà chúng ta phải hiểu về điều này là phải mất tám tiếng đồng hồ trên hệ thống phân tích của AWS, để ước tính mô hình, vì vậy chúng ta không phải trải qua và điều chỉnh dự đoán ở bất cứ nơi nào hoặc làm bất cứ điều gì đặc biệt. Đó là một khu vực bầu cử, nơi mà phiếu bầu là một yếu tố dự đoán hữu ích cho những gì sẽ xảy ra trong năm nay”.
Các nhà thăm dò khác có khả năng bị thiệt hại quá mức, vì sự thất bại trước đây của họ để dự đoán phần lớn Đảng bảo thủ chiến thắng năm 2015, bằng cách khắc phục thao tác sai sót về dữ liệu trước đó để phù hợp với niềm tin của họ.
Ví dụ, Ipsos Mori, đã thực hiện một thao tác điều chỉnh vào phút chót theo cách dự đoán truyền thống và dựa trên biến số cử tri để biến nó thành một chiến thắng cho Đảng Bảo thủ.
Theo Rivers: “Họ chỉ tin những gì họ cho rằng nó sẽ đi theo cách này và họ làm điều gì đó với dữ liệu của họ, để làm cho điều đó xảy ra”, “Vì vậy, tôi nghĩ một trong những bài học chỉ nghe dữ liệu của chúng ta”.
Lượt truy cập
YouGov đã không nhận được đúng thông tin tất cả mọi thứ, bao gồm một số thông tin bất ngờ ở Scotland, nơi họ đánh giá quá cao cơ hội của Đảng SNP. Con số cử tri của Đảng bảo thủ nhỏ hơn dự kiến, nhưng họ vẫn giành được nhiều ghế hơn so với cuộc thăm dò ý kiến.
Rivers nói: “Đảng Bảo thủ đã chiến thắng sau nhiều cuộc đua gần đó”. Vị trí của cô Amber Rudd thuộc Đảng bảo thủ là một trong những điều mà chúng ta dự đoán cô ấy sẽ mất một lượng nhỏ.
YouGov đã dự đoán “Cô đã giành được một lượng rất nhỏ, vì vậy chúng tôi cảm thấy chất lượng của dự đoán đó khá tốt, khi nó được sử dụng. Cuộc bầu cử đã kết thúc khi chúng ta có một cuộc tranh cử khó khăn. Chúng ta sẽ may mắn ở một số nơi như thành phố Canterbury và hơi thiếu may mắn trong trường hợp cô Amber Rudd”.
Trước đây mô hình MRP của YouGov đã thành công trong dự đoán kết quả trưng cầu ý kiến của EU, nhưng năm 2016 nó không thành công trong việc dự đoán chiến thắng của Trump trong Cuộc bầu cử Hoa Kỳ. YouGov có ít kinh nghiệm hoạt động tại thị trường Mỹ và bao gồm khu vực có mật độ dân số thấp hơn đã đưa ra những thách thức khác nhau.
Họ tiên đoán chính xác rằng Hillary Clinton sẽ giành chiến thắng trong cuộc bầu cử phổ thông một cách khó khăn, nhưng họ đã nhầm lẫn trong dự báo rằng Bà sẽ phải cạnh tranh cử tri đoàn. Điều này phần lớn là do các tiểu bang trọng điểm ở miền Trung Tây quan trọng quá gần, và một số lượng lớn những người ủng hộ Trump đã vận động một số trong số họ theo cách của Ông.
Cải tiến trong tương lai
Phương pháp tiếp theo sẽ được áp dụng ở Đức lần đầu tiên tại cuộc bầu cử liên bang vào tháng Chín. Điều này đưa ra một thách thức khác vì số lượng quốc gia là quan trọng hơn. YouGov cũng đang phát triển để mở rộng quy mô mẫu và bổ sung thêm thông tin về người được hỏi.
Rivers nói:”Chúng tôi đang chuyển sang dữ liệu lớn hơn về số lượng người trong mẫu”. Nếu chúng ta có thể có từ 50.000 đến 100.000 hoặc 200.000 để cải thiện chất lượng thông tin dự đoán. Nó được theo dõi bằng phần mềm về thời gian để lập mô hình dữ liệu. Chúng tôi thu thập hàng ngàn thông tin từ những người kiểm duyệt và tìm ra cách sử dụng hiệu quả hơn để nâng cao chất lượng dự đoán là một lĩnh vực nghiên cứu”.
YouGov tiến hành cuộc thăm dò ý kiến lần thứ hai cho cuộc bầu cử năm 2017, sử dụng phương pháp truyền thống và dự đoán đa số phần thắng thuộc về Đảng Bảo thủ. Kết quả dự đoán theo mô hình MRP đã bị loại bỏ hầu hết sau khi được đưa ra, nhưng có vẻ như đây sẽ là phương pháp thay thế truyền thống trong tương lai.
Rivers nói: “Tôi nghĩ trong một thập kỷ chúng ta sẽ xem xét nó như một kiểu truyền thống và kiểu tiếp cận mới này sẽ được sử dụng như là một vấn đề tất nhiên”. “Đó là gia tăng, chúng ta không bỏ đi những gì đã làm trước đó, chúng ta đang bổ sung thêm những phương pháp mới”.
Công Hoan (lược dịch)
Nguồn: http://www.computerworlduk.com/data/how-yougov-correctly-predicted-uk-election-where-other-pollsters-failed-3661117/