Journal Information
Vol. 18. Issue 1.
Pages 58-63 (January - February 2004)
Vol. 18. Issue 1.
Pages 58-63 (January - February 2004)
Open Access
Datos incompletos: una mirada crítica para su manejo en estudios sanitarios
Methods for handling incomplete data in health research: a critical look
Visits
5352
Maylée Cañizares
Corresponding author
mcperez@yahoo.com

Correspondencia: Instituto Nacional de Higiene, Epidemiología y Microbiología (INHEM). Infanta 1158 entre Clavel y Llinás. Centro Habana. Ciudad de La Habana. Cuba.
, Isabel Barroso, Karen Alfonso
Instituto Nacional de Higiene, Epidemiología y Microbiología (INHEM). La Habana. Cuba
This item has received

Under a Creative Commons license
Article information
Resumen
Objetivo

Ilustrar los procedimientos para el manejo de datos incompletos en las investigaciones sanitarias.

Métodos

Se discuten dos estrategias para el manejo de los datos incompletos: a) análisis de casos completos, y b) imputaciones, que incluye asignar la media al valor ausente, predecir el valor ausente mediante modelos de regresión e imputaciones múltiples. Para ilustrar estos procedimientos, se elabora un ejemplo en el contexto de la regresión logística con datos procedentes de la «Segunda encuesta nacional de factores de riesgo y afecciones crónicas no trasmisibles», realizada en Cuba en el año 2001.

Resultados

Al imputar por las medias y por modelos de regresión, los resultados fueron similares y se obtuvo una odds ratio (OR) sobrestimada por encima del 10%. El análisis de casos completos obtuvo los resultados más alejados de las estimaciones de las OR de referencia, con una diferencia del 2 hasta el 65% de variación. Los 3 métodos invirtieron la relación entre la edad y la hipertensión. Las imputaciones múltiples fueron el método que proveyó las estimaciones más cercanas a las de referencia, con una variación menor al 16%. Éste fue el único procedimiento que preservó la relación entre la edad y la hipertensión.

Conclusiones

La elección de los procedimientos para el manejo de datos incompletos resulta una tarea compleja, pues en determinadas situaciones un mismo procedimiento puede producir estimaciones precisas y en otras no. El análisis de los datos completos debe realizarse con cautela por la pérdida sustancial de información que se genera. Las imputaciones por medias y modelos de regresión producen estimaciones poco fiables bajo mecanismos MAR (missing at random).

Palabras clave:
Valores ausentes
Datos incompletos
Imputaciones
Casos completos
Imputaciones múltiples
Abstract
Objective

To illustrate methods for handling incomplete data in health research.

Methods

Two strategies for handling missing data are presented: complete-case analysis and imputations. The imputations used were mean imputations, regression imputations, and multiple imputations. These strategies are illustrated in the context of logistic regression through an example using data from the «Second Cuban national survey on risk factors and non communicable disease», carried out in 2001.

Results

The results obtained via mean and regression imputation were similar. The odds ratios were overestimated by 10%. The results of complete-case analysis showed the greatest difference from the reference odds ratios, with a variation of between 2 and 65%. The three methods distorted the relationship between age and hypertension. Multiple imputations produced estimates closest to those of the reference estimates with a variation of less than 16%. This was the only procedure preserving the relationship between age and hypertension.

Conclusions

Selecting methods for handling missing data is difficult, since the same procedure can give precise estimations in certain circumstances and not in others. Completecase analysis should be used with caution due to the substantial loss of information it produces. Mean and regression imputations produce unreliable estimates under missing at random (MAR) mechanisms.

Key words:
Missing data
Incomplete data
Imputations
Casecomplete analysis
Multiple imputations
Full text is only aviable in PDF
Bibliografía
[1.]
D.B. Rubin.
Multiple imputation for nonresponse in surveys.
[2.]
J.L. Shaffer.
Analysis of incomplete multivariate data.
[3.]
M. Bonet, P. Mas, M. Chang, et al.
Segunda encuesta de factores de riesgo y afecciones no trasmisibles.
[4.]
R.J.A. Little, D.B. Rubin.
Statistical Analysis with missing data.
[5.]
G. Verbeke, G. Molenberghs.
Linear mixed models for longitudinal data.
[6.]
S.L. Crawford, S.L. Tennstedt, J.B. McKinlay.
A comparison of analytic methods for non-random missingness of outcome data.
J Clin Epidemiol, 48 (1995), pp. 209-219
[7.]
C.M. Musil, C.B. Warner, P.K. Yobas, S.L. Jones.
A comparison of imputation techniques for handling missing data.
West J Nursing Res, 24 (2002), pp. 815-829
[8.]
D.L. Streiner.
The case of the missing data: methods of dealing with dropout and other research vagaries.
Can J Psychiatry, 47 (2002), pp. 68-75
[9.]
S. Hunsberger, D. Murray, C.E. Davis, R.R. Fabsitz.
Imputation strategies for missing data in a school-based multi-centre study: the Pathway study.
Stat Med, 20 (2001), pp. 305-316
[10.]
X.H. Zhou, G.J. Eckert, W.M. Tierney.
Multiple imputation in public health research.
Stat Med, 20 (2001), pp. 1541-1549
[11.]
J.M. Taylor, K.L. Cooper, J.T. Wei, A.V. Sarma, T.E. Raghunathan, S.G. Heeringa.
Use of multiple imputation to correct for nonresponse bias in a survey of urology symptoms among African-American men.
Am J Epidemiol, 156 (2002), pp. 774-782
[12.]
R. Garfield, C.S. Leu.
A multivariate method for estimating mortality rates among children under 5 years from health and social indicators in Iraq.
Int J Epidemiol, 29 (2000), pp. 510-515
Copyright © 2004. Sociedad Española de Salud Pública y Administración Sanitaria
Download PDF
Idiomas
Gaceta Sanitaria
Article options
Tools
es en

¿Es usted profesional sanitario apto para prescribir o dispensar medicamentos?

Are you a health professional able to prescribe or dispense drugs?