Vấn đề Quy mô mẫu là gì?

Tiến sỹ Olena Kaminska[1]

Trong lĩnh vực thống kê xã hội, một phương pháp được sử dụng là thực hiện các cuộc điều tra xã hội với quy mô mẫu từ 1.000 đến 2.000 người trả lời. Không phụ thuộc vào phương thức thu thập dữ liệu (phỏng vấn qua điện thoại, phỏng vấn trực tiếp, điều tra qua bưu điện hoặc web), do đó cho dù có phân nhóm hoặc phân tầng liên quan, thì một quy mô mẫu trong phạm vi/ khoảng đã nói đến được chứng minh là rất thiết thực đối với khoa học xã hội. Nó cung cấp đủ độ mạnh cho nhiều ước tính cho toàn bộ dân số/ tổng thể chung, cũng như để so sánh đối với các phân nhóm chính.

Điều tra xã hội thường được thực hiện bằng cách đầu tiên là xác định tổng thể/ dân số quan tâm, và sau đó lựa chọn và phỏng vấn từ 1000-2000 người trả lời từ dân số. Trong khi về mặt lý thuyết việc làm này nghe có vẻ đơn giản, nhưng đối với một tổng thể nào đó sự quan tâm này trong thực tế không đơn giản. Ví dụ, khảo sát tiêm chủng quốc gia (National Immunization Survey – NIS) ở Mỹ quan tâm đến thông tin về trẻ em từ 19 – 35 tháng tuổi. Đây là một nhóm hiếm, và không có khung chọn mẫu tốt với một danh sách trẻ em ở độ tuổi này hoặc các hộ gia đình có trẻ em, thông tin liên lạc của họ. Trung tâm Quốc gia ​​nghiên cứu Ý kiến tại Đại học Chicago, trong đó thu thập số liệu điều tra cho nghiên cứu này, sử dụng phương pháp lọc để tìm ra các hộ gia đình có trẻ em trong độ tuổi quan tâm. Về cơ bản, việc gọi các số điện thoại ngẫu nhiên và hỏi từng hộ gia đình xem hộ có trẻ em từ 19 đến 35 tháng sống ở trong hộ không. Nếu hộ gia đình có trẻ thuộc độ tuổi  điều tra thì họ phỏng vấn cha/ mẹ của đứa trẻ. Nếu hộ gia đình không có trẻ trong độ tuổi liên quan, thì sẽ gọi số điện thoại khác. Theo báo cáo của NORC, năm 2011 đã thực hiện 1.141.212 cuộc gọi đến các hộ gia đình và kiểm tra qua điện thoại cố định. Trong số này, có tới 1.113.511 hộ không có trẻ trong độ tuổi quan tâm, và chỉ có 27.701 trẻ đủ điều kiện để phỏng vấn (NORC, 2011). Tỷ lệ đủ điều kiện để thực hiện phỏng vấn chỉ là 2,42% cho nên việc thu thập dữ liệu rất tốn kém. Ngay cả khi nghiên cứu nhằm vào 2.000 hộ gia đình được xác định có trẻ em trong độ tuổi, thì các đơn vị thu thập dữ liệu sẽ cần sàng lọc tới 82.645 hộ gia đình. Những khó khăn tương tự cũng gặp phải đối với các nghiên cứu quan tâm đến những người bị bệnh tiểu đường, các nhóm dân tộc thiểu số và trẻ sống với các bà mẹ đơn thân trong số nhiều nhóm của chính sách khác cần phải được tìm hiểu.

Một phương pháp khác thường được sử dụng trong tình hình ngân sách hạn chế là  thực hiện thu thập dữ liệu không theo phương pháp chọn mẫu ngẫu nhiên. Ví dụ, các bệnh nhân trong một bệnh viện cụ thể đã được chẩn đoán có thể được phỏng vấn và theo dõi để kiểm tra quá trình phục hồi. Ngoài ra, có thể yêu cầu một người nhập cư nói tên những người nhập cư khác mà họ biết, và những người di cư khác có thể được yêu cầu nêu tên nhiều người hơn, do đó sẽ đến được với nhiều thành viên của một nhóm cần nghiên cứu hơn (chọn mẫu theo phương pháp quả bóng tuyết).

Bản chất của các mẫu phi xác suất như vậy cung cấp những đặc tính không thể dự đoán đối với việc khái quát các kết quả liên quan đến tổng thể quan tâm.

Một giải pháp đáng quan tâm có thể được tìm ra khi chúng ta suy nghĩ vấn đề này từ góc độ rộng hơn. Nếu chính phủ muốn biết thông tin cụ thể về các phân nhóm hiếm, sẽ không thông minh nếu mở ra 20 nghiên cứu rất tốn kém, mỗi nghiên cứu tìm kiếm cho một nhóm duy nhất. Thay vào đó, có thể thực hiện một cuộc điều tra lớn bao gồm tổng thể chung với cỡ mẫu đủ lớn đại diện cho các nhóm hiếm gặp hơn. Ví dụ, một cuộc khảo sát với quy mô mẫu của 82.645 hộ gia đình Mỹ nói chung có khả năng rất tốt bao gồm 2.000 hộ gia đình có trẻ nhỏ từ 19 đến 35 tháng. Vì vậy, thay vì sự cản trở mỗi lần chúng ta gặp một hộ gia đình không đủ điều kiện, thì ta vẫn có thể phỏng vấn họ. Bằng cách này, chúng ta cũng có thể có được đủ số lượng các cuộc phỏng vấn từ những người mắc bệnh tiểu đường hoặc có bất kỳ thuộc tính hiếm có khác.

Mô hình này được sử dụng để thiết kế Nghiên cứu hộ gia đình theo thời gian ở Anh (UKHLS), theo dõi và phỏng vấn hơn 70.000 người mỗi năm. Nghiên cứu bao gồm người dân Anh nói chung, và quy mô mẫu được tăng lên để tạo sức mạnh thống kê tốt hơn cho việc phân tích ở Bắc Ai-len và năm nhóm dân tộc thiểu số. Vì đây là nghiên cứu theo thời gian, nên có khả năng mở rộng một số module câu hỏi qua các năm, do vậy tránh được sự hạn chế chỉ phỏng vấn một lần. Như vậy, với nhiều thông tin chi tiết về sức khỏe và hạnh phúc, tình hình tài chính, sự hài lòng về cuộc sống và nhiều khía cạnh khác về cuộc sống của những người trả lời, nghiên cứu này có thể cung cấp thông tin của rất nhiều nhóm hiếm mà không có kinh phí để thực hiện nghiên cứu riêng.

Bảng 1 thể hiện số người trả lời với các đặc điểm khác nhau. Xem xét phân bố tuổi, chúng ta thấy rằng nghiên cứu này có từ 700 đến 1.100 người sinh ra mỗi năm, từ năm 1945 đến năm 2009, và ít nhất 500 người sinh ra mỗi năm, từ năm 1936 và năm 1944. Điều này tạo sức mạnh thống kê tốt để nghiên cứu các đoàn hệ theo phạm vi tuổi hẹp hơn, bao gồm cả những người sinh ra trong một năm cụ thể. Nhờ tăng mẫu dân tộc thiểu số, nghiên cứu cũng đã phỏng vấn hơn 1000 người Ấn Độ, 1000 người Bangladesh, và hơn 800 người cho mỗi nước là Pakistan, Phi-Caribbeans và châu Phi.

Chúng ta không phải hạn chế sự quan tâm của đối với các vấn đề xã hội – một số nhóm hiếm khác cần quan tâm đã được xác định trong nghiên cứu.

Tuy nhiên, điều gì thú vị hơn là để khám phá các số lượng về các nhóm hiếm với chính sách riêng, nhưng ít được quan tâm nghiên cứu, nếu có, các nguồn khác nhau của dữ liệu. Ví dụ chúng ta thấy có 2.520 người trên 16 tuổi trả lời đã được chẩn đoán mắc bệnh tiểu đường, và 730 người trả lời được chẩn đoán mắc bệnh ung thư. Ngoài ra, có 1.385 người được hỏi gặp khó khăn cơ bản về việc nhìn. Mỗi người trong các nhóm này có thể được so sánh với những người khác trên một số khía cạnh để tìm hiểu các nguyên nhân và những yêu cầu về chính sách đối với các phân nhóm như vậy. Nghiên cứu cũng đã xác định 1160 người trả lời bắt đầu hút thuốc trước năm 12 tuổi, và có 2580 người trả lời hiện đang hút nhiều hơn 20 điếu thuốc/ngày. Ngoài ra còn có hơn 2000 người trả lời hàng ngày có uống một loại nước uống có cồn, trong vòng 7 ngày trước khi phỏng vấn.

Chúng tôi không phải hạn chế các mối quan tâm đối với các vấn đề xã hội – có một số nhóm hiếm cần quan tâm được xác định trong nghiên cứu. Ví dụ, trong số những người trả lời chúng tôi tìm thấy trong năm qua có trên 1.500 người xem ba lê, hơn 1000 người cưỡi ngựa, và số lượng tương tự người chơi bóng rổ. Thậm chí còn có 1.010 người đã viết nhạc riêng, và 466 người thực hành hoặc học kỹ năng xiếc trong năm qua. Người ta có thể dễ dàng quan sát mô hình: các quy mô mẫu lớn cho phép chúng ta nghiên cứu những nhóm hiếm và các nhóm cực đoan mà trước đây không được nghiên cứu nhiều. Và quan trọng là  suy luận sẽ đại diện của tổng thể nhóm đó.

Bảng1. Tính số người trả lời theo các phân nhóm khác nhau trong KHLS ở 2 bộ dữ liệu.

Tổng số

72320

England

55436

Wales

5134

Scotland

6334

Bắc Ireland

5416

1 tuổi

1016

2 tuổi

1057

3 tuổi

1089

Trên 85 tuổi

931

Ly thân nhưng kết hôn theo luật pháp

957

Không có Ti vi mầu tại nhà

917

Không có điện thoại cố định và không có thành viên nào
có điện thoại di động

638

Nhóm người: Ấn Độ

1445

Nhóm người: Bangladeshi

1147

Nhóm người: Pakistani

834

Nhóm người: Caribbean

823

Nhóm người: African

991

Chuẩn đoán bệnh tiểu đường

2520

Chuẩn đoán ung thư

730

Có những khó khăn cơ bản về thị lực

1385

Người làm việc tại nhà

1077

Hoàn toàn không bằng lòng với nghề nghiệp

554

Viết nhạc trong 12 tháng qua

1010

Học hoặc thực hành kỹ năng xiếc trong 12 tháng qua

466

Xem ba lê trong 12 tháng qua

1584

Cưỡi ngựa trong 12 tháng qua

1090

Chơi bóng rổ

1317

Uống nước ngọt có cồn hàng ngày trong tuần vừa qua

2162

Hút hơn 20 điếu thuốc lá một ngày

2580

Bắt đầu hút thuốc trước năm 12 tuổi

1160

Người trưởng thành (trên 15 tuổi)

Nhóm người: Ấn Độ

1445

Nhóm người: Bangladesh

1147

Nhóm người: Pakistan

834

Nhóm người: Caribê

823

Nhóm người: Châu Phi

991

Chuẩn đoán bệnh tiểu đường

2520

Chuẩn đoán ung thư

730

Có những khó khăn cơ bản về thị lực

1385

Người làm việc tại nhà

1077

Hoàn toàn không bằng lòng với nghề

554

Viết nhạc trong 12 tháng qua

1010

Học hoặc thực hành kỹ năng xiếc trong 12 tháng qua

466

Xem ba lê trong 12 tháng qua

1584

Cưỡi ngựa trong 12 tháng qua

1090

Chơi bóng rổ

1317

Uống nước ngọt có cồn hàng ngày trong tuần vừa qua

2162

Hút hơn 20 điếu thuốc lá một ngày

2580

Bắt đầu hút thuốc trước 12 tuổi

1160

*Thông tin trên là cơ sở các thành viên thuộc mẫu ban đầu của cuộc điều tra UKHLS.

NTH

Nguồn: Does sample size matter?
http://www.statisticsviews.com/details/feature/4617261/Does-sample-size-matter.html


[1] Viện nghiên cứu kinh tế xã hội, Đại học Essex, Vương quốc Anh