VALIDEZ DE UN SISTEMA DE REGISTRO NO NOMINAL BASADO EN CODIGOS
J Castilla, L de la Fuente, F Sánchez, J Pérez de la Paz, S Cañellas, MJ Belza, I Noguer. Centro Nacional de Epidemiología, Instituto de Salud Carlos III; Secretaría del Plan Nacional sobre Sida.
J Castilla, Centro Nacional de Epidemiología. c/ Sinesio Delgado, 6. 28029 Madrid. Tfno.:913877802. Email: jcastill@isciii.es
Antecedentes: Ante la creciente sensibilidad social frente al uso de datos nominales en algunos sistemas de información epidemiológica, se ha evaluado la viabilidad y validez de un sistema basado en códigos.
Método. Se partió del Registro Nacional de Sida tras una depuración minuciosa de su contenido. La base de datos contenía 53.094 registros de personas diferentes con identificadores nominales. Para cada caso se obtuvo un código de trece dígitos formado por las dos primeras letras del nombre y de cada apellido, el sexo y la fecha de nacimiento completa. En un primer paso se analizó su capacidad discriminativa, calculando la frecuencia de repeticiones del código completo dentro de la misma base de datos. También se cuantificaron las repeticiones utilizando códigos incompletos por la falta de alguna parte del mismo. Se hicieron estas mismas comprobaciones en bases de datos de diferente número de efectivos obtenidos por selección aleatoria de la base de datos inicial. En un segundo paso se evaluó la sensibilidad y especificidad del código para la detección de duplicados, durante el proceso de incorporación de 1.114 nuevas notificaciones. Se tomó como gold standard el resultado de la detección de duplicados utilizando datos nominales completos. En todo momento se mantuvieron estrictas medidas de seguridad y confidencialidad.
Resultados: De los 53.094 casos, en 5 no constaba el sexo, en el 11,4% la fecha de nacimiento y en el 1,5% el segundo apellido (casi todos de origen extranjero). El código completo con 13 dígitos se pudo obtener en 46.593 casos. La capacidad discriminativa fue elevada, ya que sólo en el 0,12% de los casos coincidía el código completo siendo sujetos distintos. Las coincidencias se elevaron hasta el 2,9% cuando no se incluyó el día y mes de nacimiento, al 25,5% si faltaba la fecha de nacimiento completa y al 38,8% si sólo se incluía el sexo y la primera inicial del nombre y de cada apellido. Los porcentajes de falsos coincidentes se redujeron exponencialmente conforme disminuyó el tamaño de la base de datos. Al comparar la base de datos completa con la base de datos con 1.114 nuevas notificaciones utilizando toda la información disponible, incluidos el nombre y los apellidos completos, se identificaron 121 (10,9%) personas duplicadas. Esta clasificación se consideró como gold standard. Comparando las dos bases de datos con los códigos completos, hubo 64 casos en los que coincidió exactamente, y 63 de ellos eran realmente duplicados (sensibilidad=52,1% y especificidad=99,9%). Todos los duplicados no detectados se debieron a la ausencia de alguna parte del código (87%) o a errores en su contenido (13%). Utilizando únicamente las iniciales y el sexo se obtuvo una sensibilidad del 89,3% y una especificidad del 61,7%, y se eliminaron como duplicados 380 casos que en realidad no lo eran.
Conclusión: El código descrito proporciona buenos resultados siempre que esté totalmente completo y correcto en todos los casos, ya que todas las variables que lo componen aportan capacidad discriminativa. La proporción de registros con códigos incompletos o incorrectos es determinante para la validez global del sistema de información. La utilización de códigos diferentes limita las posibilidades de cruce entre distintas fuentes de información.