Những lưu ý thống kê về thiếu dữ liệu

Thiếu dữ liệu là vấn đề phổ biến trong tất cả các nghiên cứu nói chung. Dưới đây là những lưu ý thống kê về thiếu dữ liệu trong nghiên cứu y học, đăng trên Tạp chí Y học của Anh (British Medical Journalgồm lý do của việc thiếu dữ liệu và cách khắc phục.

Hầu như trong tất cả các nghiên cứu đều có một vài quan sát bị thiếu. Tuy nhiên, trong các giáo trình và các phần mềm thống kê thường giả định rằng số liệu đầy đủ, và chủ đề làm thế nào để xử lý dữ liệu bị thiếu thường không được thảo luận ngoài các tạp chí thống kê.

Có nhiều loại dữ liệu bị thiếu và có những lý do khác nhau của việc thiếu dữ liệu. Một số ví dụ về thiếu dữ liệu:

(1) Trong điều tra bằng thư qua đường bưu điện, không phải tất cả các cá nhân được lựa chọn đều trả lời;
(2) Trong thử nghiệm chọn ngẫu nhiên, một số bệnh nhân không được theo dõi đến khi kết thúc nghiên cứu;
(3) Trong nghiên cứu gồm nhiều trung tâm, có một số trung tâm không đo lường một biến cụ thể;
(4) Trong nghiên cứu, các bệnh nhân được theo dõi đánh giá thường xuyên, một số dữ liệu bị thiếu tại thời điểm nào đó mà không rõ lý do;
(5) Các giá trị số liệu đôi khi bị thiếu do thiết bị hỏng;
(6) Một số mẫu thực nghiệm bị mất trong quá trình thực nghiệm  hoặc không đạt yêu cầu kỹ thuật;
(7) Trong nghiên cứu hình ảnh cộng hưởng từ một số bệnh nhân béo phì bị loại ra vì họ quá to so với máy;
(8) Trong nghiên cứu đánh giá chất lượng sống một số bệnh nhân chết trong thời kỳ theo dõi.

Vấn đề cần quan tâm chính là luôn xem xét những dữ liệu có giá trị có bị sai lệch hay không. Nếu thực tế việc quan sát bị thiếu không liên quan đến giá trị không quan sát được (và do đó liên quan đến kết quả người bệnh) và các dữ liệu sẵn có, trường hợp này được gọi là thiếu dữ liệu hoàn toàn ngẫu nhiên. Ví dụ 5 và 6 ở trên sẽ là giả định an toàn. Đôi khi dữ liệu bị thiếu do cách dự đoán, không phụ thuộc vào giá trị của chính nó, nhưng có thể dự đoán được từ các dữ liệu khác như trong ví dụ 3. Gây nhầm lẫn, điều này được biết đến như là “thiếu dữ liệu ngẫu nhiên.” Trường hợp chung của ví dụ 1 và 2. Tuy nhiên, các dữ liệu bị thiếu có thể phụ thuộc vào giá trị không quan sát được, được gọi là “thiếu dữ liệu không ngẫu nhiên”, và do vậy việc thiếu các dữ liệu có thể dẫn đến sai lệch.

Nói chung, điều quan trọng là có thể kiểm tra những dữ liệu bị thiếu có sinh ra thành kiến hay không. Ví dụ, nếu ta không biết gì về những người không trả lời cuộc điều tra, thì việc tìm ra sự thành kiến không quan trọng. Vì vậy, tỷ lệ trả lời cao là cần thiết cho những trả lời tin cậy. Tuy nhiên, đôi khi một số thông tin có sẵn. Ví dụ nếu mẫu điều tra được lựa chọn từ danh sách trong đó có thông tin tuổi và giới tính, thì những người có trả lời và nhưng người không trả lời có thể được so sánh trên các biến này. Ít nhất việc so sánh này sẽ đưa ra những triển vọng về tính đại diện của mẫu. Những người không trả lời thường (nhưng không phải luôn như vậy) có tiên lượng sức khỏe xấu hơn hơn so với những người trả lời.

Một vài quan sát bị thiếu dẫn đến sự phiền toái nhỏ, nhưng một số lượng lớn các dữ liệu bị thiếu thì lại là mối đe dọa lớn đến tính toàn vẹn của nghiên cứu. Không trả lời là một vấn đề cụ thể trong các nghiên cứu ghép đôi, như các trường hợp nghiên cứu bệnh chứng, vì  không rõ làm thế nào để phân tích dữ liệu từ các cá nhân lẻ đôi. Mất bệnh nhân cũng làm giảm sức mạnh của thử nghiệm. Trong trường hợp mất bệnh nhân, sẽ là khôn ngoan nếu dự kiến tăng quy mô mẫu mục tiêu cho phép đối với các mẫu bị mất. Tuy nhiên, việc tăng quy mô mẫu mục tiêu không xóa bỏ được sai lệch tiềm năng.

Dữ liệu bị thiếu phổ biến hơn nhiều trong nghiên cứu bệnh chứng/ nghiên cứu hồi cứu, trong đó dữ liệu được thu thập thường xuyên, sau đó được sử dụng cho các mục đích khác nhau. Khi thông tin được tìm từ các phiếu theo dõi bệnh nhân, thường ghi bệnh nhân có hút thuốc hay không, hoặc đã thực hiện một thủ tục cụ thể. Dễ chấp nhận đối với giả định là không khi không chỉ ra rằng câu trả lời là có, nhưng điều này thường không thận trọng.

Không có giải pháp thực sự thỏa đáng cho dữ liệu bị thiếu đó là lý do tại sao điều quan trọng là phải thu thập dữ liệu tối đa. Những phương pháp cơ bản để xử lý các dữ liệu bị thiếu trong phân tích là: (a) bỏ qua các biến có nhiều giá trị thiếu, (b) bỏ qua những người không có dữ liệu đầy đủ, và (c) dự tính (ước tính) các giá trị bị thiếu.

Bỏ qua tất cả những người không có dữ liệu đầy đủ được xem như phân tích trường hợp đầy đủ (hoặc trường hợp có giá trị) và có lẽ là phương pháp phổ biến nhất. Khi chỉ có rất ít quan sát bị thiếu thì tác hại sẽ của việc thiếu dữ liệu sẽ nhỏ, nhưng khi có nhiều bệnh nhân bị bỏ qua do không có dữ liệu đầy đủ thì có thể dẫn đến một tỷ trọng lớn các dữ liệu bị loại bỏ, cùng với sự giảm lớn về ý nghĩa thống kê. Kết quả có thể bị sai lệch trừ khi các dữ liệu bị thiếu hoàn toàn do ngẫu nhiên. Nói chung là không nên đưa vào việc phân tích một biến bất kỳ khi dữ liệu thiếu chiếm tỷ trọng lớn của mẫu. Phương pháp tiếp cận thay thế chính để xóa bỏ trường hợp thiếu dữ liệu là ước tính, theo đó các giá trị bị thiếu được thay thế bằng một giá trị hợp lý ước tính từ các dữ liệu có giá trị của cá nhân. Việc ước tính đã trở thành chủ đề của nhiều công trình nghiên cứu về phương pháp.

NTH

Nguồn: BMJ | 24 february 2007 | Volume 334