Síntomas, signos y estadística
Aplicaciones de la estadística en ciencias de la salud y de la vida
La determinación o constatación experimental de los mecanismos fisiológicos de las enfermedades suele ser una tarea muy compleja. Esto ha convertido a la epidemiología en la principal herramienta de generación de conocimiento en el ámbito médico. La epidemiología aprende sobre las enfermedades a partir de la observación de la salud en colectivos de personas, en lugar de la observación individual de éstas. Si la principal herramienta de generación de conocimiento médico se basa en la observación de colectivos de personas (muestras de una población) de las que querremos aprender (hacer inferencia), resulta claro el nexo entre la estadística y la medicina.
A lo largo de este artículo ilustramos dicho nexo presentando tres áreas de investigación estadística de especial utilidad para la investigación biomédica.
Palabras clave: bioestadística, ciencias de la salud y de la vida, ensayos clínicos, epidemiología, supervivencia.
Resulta muy habitual encontrar municipios en los que la población cree que su salud es peor que la de los municipios de su entorno. Por algún motivo sus habitantes creen tener mayor probabilidad de morir, por una o varias causas de mortalidad concretas, que los habitantes de los municipios vecinos. El dar una respuesta adecuada a este tipo de creencias entraña una gran complejidad estadística, difícil de prever, dada la simplicidad de la información a la que se desea dar respuesta.
«La epidemiología trata de establecer asociaciones entre la presencia de factores de riesgo y la de enfermedades en colectivos poblacionales»
La epidemiología trata de establecer asociaciones entre la presencia de factores de riesgo y la de enfermedades en colectivos poblacionales. Esta labor, a nivel poblacional, resulta «relativamente» sencilla, todo es cuestión de disponer de una muestra adecuada y suficiente. Sin embargo, el poner el foco de interés en muestras de la población, en lugar de personas individuales, ha hecho de la epidemiología una disciplina única dentro de la medicina y la ha convertido en la principal herramienta de generación de conocimiento sobre las enfermedades. Uno de los factores de riesgo históricamente más estudiados es la localización geográfica de las personas, es decir, si ésta puede alterar o no la presencia de cierta enfermedad. La determinación de dicha relación puede ser de gran utilidad para los profesionales de la medicina, ya que puede ofrecer indicios, posiblemente desconocidos, de que alguna característica propia de cierta región concreta podría influir sobre el riesgo de desarrollar cierta enfermedad.
«La estadística pone a disposición de la epidemiología herramientas de inferencia que permiten solventar problemas relacionados con cuestiones espaciales»
Sin embargo, al estudiar la relación entre localizaciones geográficas y la presencia de cierta enfermedad, por así decirlo, el tamaño de las unidades de estudio importa, y mucho. Evidentemente, alguien que sospeche que su municipio tiene una alta tasa de mortalidad por cierta enfermedad no se conformará con saber que en el conjunto de su comunidad autónoma la tasa correspondiente está dentro de lo que se podría considerar como razonable. Además, trabajar con unidades de estudio grandes hace posible que la elevación puntual del riesgo en una localización muy concreta de cierta unidad se pueda ver difuminada por un riesgo normal en el resto de dicha unidad. En consecuencia, resulta muy conveniente trabajar con unidades geográficas del menor tamaño posible al llevar a cabo estudios del tipo que estamos contemplando. Sin embargo, trabajar con unidades geográficas pequeñas hace que la información que dispongamos de cada una de éstas sea limitada y en consecuencia surjan problemas que requieran el uso de técnicas estadísticas adecuadas para este tipo concreto de situaciones.
Las tasas de mortalidad de las que hablamos, desde una perspectiva epidemiológica, se calcularían como el cociente entre las defunciones observadas y las esperadas en cada municipio en función de su tamaño y la composición de su población, multiplicado por 100. Este indicador se conoce como la razón (o tasa) de mortalidad estandarizada. Así, si dicha razón fuera mayor que 100 (respectivamente menor) en cierta localización geográfica, indicaría que se han observado más (respectivamente menos) defunciones de las que cabría esperar dada su población, es decir, dicha localización presenta un exceso de riesgo. Cuando trabajamos con unidades geográficas pequeñas, el número de defunciones esperadas será a su vez muy pequeño, por lo que el cociente anterior valdrá o bien 0, en el caso que no se haya dado ninguna muerte en dicha población, o bien un número bastante superior a 100, en caso contrario. Así, si utilizamos estas tasas, los municipios pequeños presentarán necesariamente valores de mortalidad extremos, simplemente a consecuencia de su tamaño e independientemente del riesgo que pudieran tener. Podemos visualizar este hecho en el mapa de la izquierda de la figura 1, correspondiente a la mortalidad por cáncer de cavidad bucal en la Comunidad Valenciana a nivel municipal. En esta figura se aprecia que los municipios del interior de las provincias de Castellón y Valencia (las zonas menos pobladas de la Comunidad Valenciana) presentan siempre valores extremos de las tasas sin que el riesgo de dichas regiones sea necesariamente alto o bajo.
Por suerte, la estadística pone a disposición de la epidemiología herramientas de inferencia que permiten solventar este problema. Se ha propuesto un gran número de modelos que consideran los riesgos de los municipios como valores dependientes entre sí, a diferencia de la razón de mortalidad estandarizada, que asume dichos valores como cantidades independientes. En concreto, se suele considerar que los riesgos de municipios próximos tienden a ser similares, a diferencia de los riesgos de aquellos municipios que están más alejados (Besag et al., 1991). Esta hipótesis hace posible que los riesgos de municipios próximos compartan información entre sí y, de esta forma, se puedan obtener estimaciones más sólidas de dichos riesgos basadas en una mayor cantidad de información (la de cada municipio y la de sus vecinos). Como prueba de ello, la parte derecha de la figura 1 muestra la distribución de la mortalidad estimada mediante un modelo estadístico del tipo que hemos comentado, para los mismos datos utilizados en la parte izquierda de la misma figura. Ahora los municipios más pequeños no parecen tener un comportamiento particular, pudiendo tomar valores más o menos neutros, y sólo destacan aquellos municipios donde la solidez estadística de sus cifras de mortalidad, y posiblemente las de su entorno, realmente evidencian un valor extremo de los riesgos.
«El mapeo de enfermedades es un claro ejemplo de la simbiosis que se puede producir entre estadística y medicina»
La aportación de la estadística ha hecho del estudio de la mortalidad, y otros indicadores de salud, en áreas pequeñas un área de investigación en sí misma que a día de hoy se conoce como «mapeo de enfermedades», o disease mapping siguiendo la terminología original en inglés. Esta área ha hecho posible que el estudio geográfico de la salud con un nivel de detalle muy minucioso sea a día de hoy una realidad y se publiquen un gran número de artículos constantemente sobre este asunto. Estos estudios ofrecen interesantes claves, hipótesis y conocimiento en sí sobre las enfermedades que son objeto de estos estudios. Sin duda el mapeo de enfermedades es un claro ejemplo de la simbiosis que se puede producir entre estadística y medicina en el que, por un lado, la medicina ofrece a la estadística un campo de aplicaciones en el que desarrollarse y cobrar sentido, mientras que, por el otro, la estadística ofrece a la medicina las herramientas técnicas para llevar a cabo sus objetivos concretos.
Ensayos clínicos y estadística
Un ensayo clínico es una investigación experimental que utiliza seres humanos como sus unidades experimentales, sobre los que interviene de manera activa con el objetivo de evaluar la seguridad y eficacia de dicha intervención. La intervención puede consistir en un nuevo tratamiento, vacuna, técnica diagnóstica o de diagnóstico precoz, etc. Al experimentar con seres humanos es preciso seguir estrictos criterios éticos desde la planificación del ensayo hasta su finalización, criterios recogidos en la Declaración de Helsinki de la Asociación Médica Mundial y en sus sucesivas enmiendas. Esos criterios éticos, en su mayor parte, han sido transpuestos a la legislación vigente, como por ejemplo la orden SCO/256/2007 de 5 de febrero sobre buenas prácticas clínicas. Como consecuencia, todo ensayo clínico sólo puede proponerse cuando ya existe cierta evidencia sobre la seguridad y eficacia de la intervención que pretende evaluar, evidencia basada en estudios observacionales o ensayos preclínicos; debe ser aprobado por un comité ético y los pacientes reclutados en el ensayo deben ser voluntarios, estar perfectamente informados de los eventuales riesgos del ensayo y pueden abandonarlo cuando lo deseen.
«Si un ensayo clínico es prospectivo, controlado, concurrente y aleatorizado, cumplirá las condiciones del modelo causal de Rubin, por lo que permitirá demostrar causalidad»
Los ensayos clínicos se han convertido en una herramienta básica en la investigación médica pues constituyen el método más eficaz para comparar la efectividad de un nuevo tratamiento con el actualmente utilizado (Cook y DeMets, 2008). Esto es así, pues los estudios observacionales permiten establecer asociaciones entre factores de riesgo y enfermedad pero difícilmente pueden demostrar causalidad; esto es, si el efecto observado puede ser directamente atribuible al nuevo tratamiento. Según el modelo causal de Rubin (Rubin, 1974; Holland, 1986) para demostrar causalidad se debería, en una situación ideal, observar la respuesta de cada paciente al nuevo tratamiento, YT, y al mismo tiempo su respuesta si no hubiese sido tratado o se le hubiese administrado el tratamiento convencional, YC. La diferencia entre ambos valores, YT – YC, es el efecto directamente atribuible al nuevo tratamiento en ese individuo y se conoce como «efecto causal de Rubin»; el efecto medio poblacional es el valor esperado de esa diferencia, E (YT – YC), que podría estimarse utilizando la media aritmética de las diferencias obtenidas en los pacientes observados. Sin embargo, es imposible observar a la vez, en el mismo periodo temporal y en el mismo paciente, su respuesta si ha sido tratado y si no ha sido tratado, YT e YC. Solo una de esas respuestas será observable: ese es el «problema fundamental de la inferencia causal».
«Uno de los factores de riesgo más estudiados es la localización geográfica de las personas, es decir, si ésta puede alterar o no la presencia de cierta enfermedad»
Un resultado importante de la teoría de la probabilidad, la linealidad del operador esperanza, permite soslayar el problema fundamental de la inferencia causal pues dice que E (YT – YC) = E (YT) – E (YC); esto es, el efecto medio poblacional es la respuesta media al tratamiento, E (YT), menos la respuesta media al no tratamiento, E (YC), y esas respuestas medias sí pueden estimarse por separado, utilizando dos grupos distintos de pacientes o el mismo grupo de pacientes en dos periodos temporales distintos. Sin embargo, la estimación por separado conlleva otras dificultades potenciales, posibles fuentes de sesgo, que hay que evitar. En concreto, es preciso garantizar que las dos muestras observadas para estimar por separado los efectos E (YT) y E (YC) sean representativas de la misma población; no puede permitirse que los pacientes tratados tengan alguna característica que los diferencie de los no tratados. La forma más sencilla de garantizar esa representatividad de la misma población es reclutar primero a los pacientes y, con posterioridad, asignar a cada paciente al grupo tratado o al no tratado mediante cualquier mecanismo aleatorio externo, el lanzamiento de una moneda por ejemplo. Esto sólo es posible llevarlo a cabo en un estudio en el que hay intervención activa por parte del equipo investigador, un ensayo clínico, pero no en un estudio observacional.
«Se aconseja que el ensayo clínico sea doble ciego: ni el paciente ni los profesionales sanitarios deben conocer el grupo al que ha sido asignado cada paciente»
El ensayo clínico es prospectivo si hace un seguimiento durante el próximo futuro de los pacientes reclutados, seguimiento que puede durar días, meses o incluso años. Es controlado si el nuevo tratamiento se aplica a un grupo de pacientes al que se denomina «grupo tratado» y otro tratamiento, con frecuencia el más utilizado en ese momento, se aplica a otro grupo de pacientes denominado «grupo control»; podría haber varios grupos tratados si se desea comparar varios tratamientos o procedimientos terapéuticos. Es concurrente si todos los grupos se reclutan y observan al mismo tiempo. Es aleatorizado si la asignación de cada paciente reclutado a uno de los grupos se hace al azar; podría ser lanzando una moneda, aunque suelen utilizarse procedimientos más sofisticados utilizando números pseudoaleatorios que permiten reproducir el proceso en una posible auditoría del mismo. Si el ensayo clínico es prospectivo, controlado, concurrente y aleatorizado cumplirá las condiciones del modelo causal de Rubin, por lo que permitirá demostrar causalidad. Ese tipo de ensayos clínicos es el que se debería utilizar siempre que fuera posible (Matthews, 2006). Además, para evitar sesgos en la apreciación que el propio paciente y los profesionales sanitarios puedan cometer al valorar el efecto del tratamiento, se aconseja encarecidamente que el ensayo sea doble ciego: ni el paciente ni los profesionales sanitarios que hacen el seguimiento y evaluación deben conocer el grupo al que ha sido asignado cada paciente.
El cálculo del tamaño muestral del ensayo clínico, número de pacientes que han de participar en el mismo, también debe determinarse de antemano por motivos éticos. Si el tamaño es demasiado pequeño, proporcionará poca información, por lo que serán escasas las posibilidades de obtener resultados interesantes, poniendo a los pacientes en riesgo con mínimas garantías sobre su utilidad: no está éticamente justificado. Por el contrario, si el tamaño muestral es demasiado grande, se expondrá a más pacientes de los necesarios a un tratamiento inferior, luego tampoco estará éticamente justificado. Para el cálculo de un tamaño muestral adecuado suele utilizarse la función de potencia.
La función de potencia proporciona las probabilidades de que los resultados del experimento permitan concluir que existen diferencias entre los grupos estudiados en función de la magnitud real de dicha diferencia. La función de potencia en el cero debe ser pequeña, pues es la probabilidad de obtener una conclusión equivocada al encontrar diferencias entre grupos cuando realmente no las hay, habitualmente se exige que sea inferior o igual a α = 0,05. En valores distintos de cero proporciona las probabilidades de concluir acertadamente que existen diferencias, por lo que en esos casos debe ser lo más grande posible. El tamaño muestral se obtiene estableciendo una distancia razonable entre los efectos de los grupos a comparar y la potencia a alcanzar a esa distancia.
La figura 2 muestra tres funciones de potencia del test estadístico habitual para la comparación de dos medias, el «contraste t de Student». Estas funciones son las correspondientes a un valor de significación α = 0,05 por lo que toman ese valor en el cero, que es el punto que representa a la hipótesis nula de igualdad de medias. La línea vertical discontinua marca una distancia entre medias de 0,5 desviaciones típicas; a esa distancia y con 40 datos, 20 en cada grupo, sólo se obtiene una potencia de 0,35, demasiado pequeña. Con 128 datos, 64 en cada grupo, ya se obtiene una potencia de 0,8. También con 128 datos pero repartidos en 28 en un grupo y 100 en el otro se observa una potencia más baja que si los dos grupos tuvieran el mismo tamaño muestral, por ello es aconsejable que los distintos grupos tengan el mismo tamaño muestral.
La estadística pone a disposición de la medicina métodos de inferencia estadística que permiten analizar los resultados finales del ensayo clínico y extraer conclusiones. Muchos de esos métodos también son ampliamente utilizados en otras áreas de conocimiento; otros han sido desarrollados específicamente en el contexto de las ciencias de la salud y de la vida, como los métodos de supervivencia estadística y los modelos longitudinales. Además, la estadística también proporciona metodología de diseño de experimentos que puede resultar muy útil durante la planificación del ensayo clínico, ayudando a evitar sesgos de selección o sesgos de asignación, y proporcionando herramientas para el cálculo del tamaño muestral.
Supervivencia estadística y estudios longitudinales
El análisis de supervivencia (Aalen et al., 2008) es la metodología estadística especializada en analizar datos correspondientes al tiempo transcurrido entre dos eventos, el evento inicial y el evento de interés, en estudios científicos de las ciencias de la salud y la biología. Dicho tiempo suele conocerse como tiempo de supervivencia, una nomenclatura heredada del evento de interés prototípico, la muerte, habitual en los primeros estudios sobre el tema y que utilizaremos de forma genérica en este trabajo.
El análisis de supervivencia aplicado a contextos no biológicos es conocido como análisis de fiabilidad. Así pues, cuando se trata de estudiar el tiempo de vida de una persona, desde su nacimiento hasta su muerte, el tiempo transcurrido desde la infección por el virus de inmunodeficiencia humana (VIH) hasta un diagnóstico de síndrome de inmunodeficiencia adquirida (sida) o la supervivencia de una palmera infestada por el picudo rojo, nos situamos en el territorio del análisis de supervivencia. Si, por el contrario, el objetivo es analizar el tiempo desde la puesta en marcha hasta un fallo del sistema de enfriado en una planta nuclear, el tiempo entre sucesivos terremotos en el Golfo de Valencia o la duración del revestimiento de trencadís de un edificio público nos moveremos al escenario del análisis de la fiabilidad.
Para poder observar un tiempo de supervivencia hay que esperar hasta que el evento de interés se produzca. Esta situación es difícilmente alcanzable en los estudios de supervivencia porque su duración es generalmente limitada y, en la mayoría de las ocasiones, el estudio finaliza sin que se haya producido el evento de interés en todos los individuos muestreados. De esta forma, los datos resultantes contendrán el tiempo completo de la supervivencia de aquellos individuos para los que se ha registrado el evento así como la supervivencia incompleta, censurada por la derecha, de aquellos individuos que «continúan con vida» al término del estudio. La existencia de datos censurados en un estudio de supervivencia inhabilita su análisis a través de los métodos estadísticos tradicionales (figura 3).
La función de supervivencia y la función de riesgo son conceptos básicos del análisis de supervivencia. La primera permite estimar probabilidades asociadas a instantes concretos de tiempo, como por ejemplo la supervivencia a más de cinco años en una persona diagnosticada de cáncer de colon. La función de riesgo es una tasa y cuantifica, por ejemplo, el riesgo de muerte en personas a las que se ha practicado una delicada operación quirúrgica, habitualmente decreciente según aumenta el postoperatorio.
No todas las personas nos comportamos de igual manera ante las mismas situaciones y mucho menos en temas de mortalidad y morbilidad. Los tiempos de supervivencia asociados a un evento suelen estar relacionados con un conjunto de variables de riesgo cuyos valores pueden ayudarnos a entender un poco mejor los diferentes tiempos de supervivencia de los individuos de una misma población. Por ejemplo, es conocido que una persona con niveles altos de colesterol tiene un riesgo más elevado de presentar problemas cardiovasculares que una «que no tiene colesterol». Los modelos de regresión de Cox y los llamados de tiempo de vida acelerada permiten modelizar la función de supervivencia y la función de riesgo a través de dichas variables, tanto en los casos en los que pueden ser observadas, como cuando, aun sabiendo que pueden generar heterogeneidad entre los diferentes individuos, no son o no han podido ser registradas. La inferencia estadística, y en particular la metodología bayesiana, permite cuantificar la importancia de todas ellas en términos probabilísticos, el lenguaje natural de la estadística.
Los estudios transversales recogen información de los individuos muestreados en un único instante de tiempo bien definido. Son de ejecución rápida y, en general, poco costosos. Los estudios longitudinales (Diggle et al., 2002), basados en medidas repetidas de un mismo individuo a lo largo del tiempo, son costosos y de ejecución lenta porque, al igual que los estudios de supervivencia, requieren periodos amplios de observación (figura 4). Son de especial relevancia en el estudio epidemiológico de las enfermedades crónicas (Alzheimer, asma, cáncer, diabetes, enfermedades cardiovasculares, renales, sida, etc.), principales causantes de la mortalidad en el mundo y responsables de alrededor del 60 % de todas las muertes.
Los orígenes de los modelos longitudinales se remontan a principios del siglo XIX con el trabajo pionero del matemático inglés George Biddel Airy (1801-1892) en el campo de la astronomía. Su popularización en el mundo estadístico ha venido de la mano de los grandes avances computacionales de mediados y finales del siglo XX, que han posibilitado su implementación práctica y consiguiente utilidad en el tratamiento estadístico de problemas científicos socialmente relevantes, como es el caso de la investigación de la progresión del número de células CD4 y la carga viral en su calidad de marcadores de la progresión de la infección por VIH.
i volvemos a los estudios de supervivencia, podemos pensar que mientras esperamos la ocurrencia del evento de interés podríamos realizar un seguimiento longitudinal de aquellas variables relevantes del estudio e incorporar su información al modelo de supervivencia. Esta idea es la génesis de los denominados modelos conjuntos de supervivencia y longitudinales (joint models). Cuando, como el caso descrito, el objetivo del estudio se centra exclusivamente en la supervivencia, los modelos longitudinales proporcionan información valiosa al modelo de supervivencia, como por ejemplo las medidas longitudinales del antígeno prostático específico (PSA) en estudios de cáncer de próstata. Pero los joint models son mucho más potentes porque también permiten un tratamiento de igual a igual entre ambos procesos e incluso la utilización de herramientas del análisis de supervivencia en estudios de carácter puramente longitudinal. En este sentido, los datos de la figura 5 corresponden a un estudio longitudinal sobre la progresión de la insuficiencia renal crónica en niños valencianos. La variable de interés es la tasa de filtrado glomerular estimada (eGFR), que decrece conforme la función renal empeora y proporciona los valores protocolizados que marcan los diferentes estadios de la enfermedad. Durante el periodo de seguimiento algunos niños abandonan el estudio antes de que acabe y no se dispone de su información longitudinal completa. Si el motivo del abandono está relacionado con la progresión de la enfermedad es conveniente añadir esta información al modelo longitudinal. En nuestro caso, son los niños que se curan temporalmente (su eGFR aumenta progresivamente hasta su alta médica) o los que sufren un empeoramiento crítico de su función renal y necesitan terapia renal sustitutiva (diálisis o trasplante). Los joint models permiten incorporar esta información al análisis longitudinal a través de un modelo de supervivencia que considera la necesidad de terapia renal sustitutiva y curación como eventos de interés, naturalmente incompatibles.
Agradecimientos
Este artículo está parcialmente financiado por el proyecto MTM2013-42323 del Programa Estatal de Fomento de la Investigación Científica y Técnica de Excelencia del Ministerio de Economía y Competitividad del Gobierno de España.
Referencias
Aalen, O. O.; Borgan, Ø. y H. K. Gjessing, 2008. Survival and Event History Analysis: A Process Point of View. Springer. Nueva York.
Besag, J.; York, J. y A. Mollié, 1991. «Bayesian Image Restoration, with Two Applications in Spatial Statistics». Annals of the Institute of Statistical Mathematics, 43(1): 1-20. DOI: <10.1007/BF00116466>.
Cook, T. D. y D. L. DeMets, 2008. Introduction to Statistical Methods for Clinical Trials. Chapman & Hall/CRC. Boca Ratón, EE UU.
Diggle, P. J.; Heagerty, P. J.; Liang, K.-Y. y S. Zeger, 2002. Analysis of Longitudinal Data. Oxford University Press. Oxford.
Holland, P. W., 1986. «Statistics and Causal Inference». Journal of the American Statistical Association, 81(396): 945–960. DOI: <10.2307/2289064>.
Matthews, J. N. S., 2006. Introduction to Randomized Controlled Clinical Trials. Chapman & Hall/CRC. Boca Ratón, EE UU.
Rubin, D. B., 1974. «Estimating Causal Effects of Treatments in Randomized and Non-Randomized Studies». Journal of Educational Psychology, 66 (5): 688-701. DOI: <10.1037/h0037350>.