Un resultado compuesto de particular influencia se produjo en un famoso ensayo clínico británico llamado UKPDS, cuyo propósito era comprobar si la vigilancia intensiva de los niveles de azúcar en sangre de pacientes diabéticos representaba una diferencia con sus proyecciones en la vida real. Se obtuvieron tres resultados: no se observó beneficio en los dos primeros —la muerte y la muerte relacionada con la diabetes—, pero sí se observó un 12% de reducción en la consecuencia compuesta. En tal consecuencia compuesta intervenían muchos factores:
Es una lista bastante larga, y el 12% de reducción aplicada a la misma y globalizada suena, desde luego, a «pruebas fundamentales centradas en el paciente» como decimos en la profesión (o si prefieren, «POEMS», por sus siglas en inglés). Pero la mayoría de las mejoras de esta conclusión compuesta fue producto de una reducción del número de personas remitidas para tratamiento con láser por lesiones de arterias oculares. Está muy bien, pero difícilmente es lo más importante de la lista, siendo más bien un resultado procesado que un resultado concreto del mundo real. Si lo que cuentan son los resultados del mundo real, no se produjo siquiera un cambio en el número de pacientes afectados por pérdida visual; pero, en cualquier caso, es evidente que se trata de una consecuencia de mucha menor importancia que los infartos, muertes, apoplejías o amputaciones. De igual modo, se observó en el ensayo un beneficio en algunos indicadores sanguíneos significativos de problemas renales, pero ningún cambio en la auténtica enfermedad renal terminal.
El único interés de este caso es que el UKPDS goza de un estatus legendario entre los médicos como exponente de numerosos resultados beneficiosos en el campo del control intensivo del azúcar en sangre de enfermos diabéticos. ¿Cómo se originó este convencimiento generalizado? Un emprendedor grupo de investigadores decidió localizar los treinta y cinco trabajos de revisión sobre la diabetes en que se citaba el estudio UKPDS para comprobar qué decían sobre él[22]. En veintiocho trabajos se afirmaba que en el ensayo se observó beneficios en las consecuencias compuestas; solo en uno se mencionaba que en su mayor parte era debido a mejoras en consecuencias más triviales, y solo en seis se señalaba que no existía beneficio en cuanto a muertes, que es desde luego el único resultado que importa. Este estudio pone al descubierto una aterradora realidad: rumores, simplificaciones y deseos que no se corresponden con la realidad se difunden en la bibliografía académica con la misma facilidad que en una discusión entre tertulianos.
ENSAYOS EN LOS QUE SE IGNORAN LAS BAJAS DE PARTICIPANTES
A veces los pacientes abandonan los ensayos clínicos, a menudo porque no les gusta el medicamento que les dan, pero si se analizan los dos grupos de un ensayo hay que asegurarse de que se analizan todos los pacientes a los que se aplica un tratamiento para no exagerar los beneficios del fármaco.
Un defecto clásico en la fase de análisis que distorsiona fatalmente los datos es analizar a los pacientes con arreglo al tratamiento que recibieron, en vez del tratamiento asignado en la fase de distribución aleatoria del ensayo. A primera vista parece perfectamente razonable: si el 30% de los pacientes abandona el ensayo y no ha tomado el nuevo fármaco, no habrán experimentado el beneficio y no debe incluírseles en el grupo del «nuevo fármaco» del análisis.
Pero si se considera por qué los pacientes abandonan el tratamiento en los ensayos, los inconvenientes de este método son evidentes. Tal vez dejaron de tomar el fármaco porque experimentaban efectos secundarios horribles; tal vez dejaron de tomarlo porque pensaron que no funcionaba, y lo tiraron a la papelera. Tal vez dejaron de tomarlo y no acudieron a las citas de seguimiento porque estaban muertos por efecto del fármaco. Considerar a los pacientes únicamente en función del tratamiento que se les aplicó se denomina análisis «per-protocolo», y se ha demostrado que con él se exageran espectacularmente los beneficios del tratamiento, por lo que no debe aplicarse.
Si se incluye en el grupo del epígrafe «nuevo tratamiento» a todos los pacientes a quienes se prescribió el nuevo tratamiento —contando también los que dejan de tomarlo—, al hacer el cálculo definitivo se incurre en lo que se llama análisis «de la intención de tratamiento». Además de ser más precavido, este análisis tiene mucha mayor amplitud de miras. El objeto de los resultados de un ensayo es utilizar esos resultados para fundamentar la decisión de si «recetar a alguien unas pastillas» y no la de «hacerles tragar a la fuerza unas pastillas», por consiguiente, es deseable que los resultados procedan de un análisis en el que se considera a las personas con arreglo a lo que les dio el médico y no lo que realmente tragaron.
Yo he tenido el placer de poner nota a sesenta trabajos de exámenes —una experiencia no menos apasionante que el día de la marmota— en los que un quinto de la nota se obtenía por explicar qué es el «análisis de la intención de tratamiento», que es el núcleo irrefutable de la medicina basada en pruebas, por lo que es sumamente extraño que la industria farmacéutica siga notificando sin parar análisis «per-protocolo». En una revisión sistemática, se examinaron los informes sobre ensayos clínicos entregados por las farmacéuticas al organismo sueco regulador de medicamentos así como los trabajos académicos relacionados con esos ensayos (cuando los hubo)[23]. En todas las entregas remitidas al organismo regulador, menos una, aparecían los dos tipos de análisis: el de «intención de tratamiento» y el de «per-protocolo», porque los reguladores, pese a sus defectos y obsesivo secretismo, afinan algo más, al menos en cuanto a rigor metodológico, que muchos trabajos académicos. En todos los trabajos académicos, menos dos, solo se señalaba un análisis, generalmente el «per-protocolo», que exagera los beneficios. Estos trabajos son la versión que leen los médicos. En el próximo capítulo analizaremos otro ejemplo de cómo las publicaciones académicas entran en el juego de exagerar resultados. Con frecuencia, pese a que afirman que velan por la investigación de buena calidad, dichas revistas no cumplen bien su cometido.
ENSAYOS CLÍNICOS EN LOS QUE SE CAMBIA EL RESULTADO PRINCIPAL UNA VEZ CONCLUIDOS
Si en un ensayo se miden una docena de posibles efectos y se cita una mejora en uno de ellos como resultado positivo, los resultados de ese ensayo no son válidos. La prueba concluyente de que un resultado es estadísticamente significativo implica medir sólo la incidencia de ese resultado. Si se miden doce posibles efectos, se da opción a doce posibilidades, en vez de a una sola, de obtener un resultado positivo sin exponerlo claramente. El ensayo sufre un sesgo de diseño y existe mayor probabilidad de que arroje más resultados positivos de los que realmente hay.
Supongan que jugamos a los dados y estipulamos algo (lamentablemente de forma unilateral): si yo saco un doble seis me tienen que dar 10 libras. Tiro los dos dados y sale un doble tres y yo reclamo mis 10 libras alegando que el acuerdo era que me diesen 10 libras si sacaba un doble tres; y me pagan entre los aplausos de la concurrencia. Es exactamente lo que ocurre en la investigación clínica académica, por rutina y a diario, cuando se tolera que se practique lo que se llama «cambiar el resultado principal».
Antes de iniciar un ensayo clínico se redacta el protocolo, un documento en el que se describe lo que se va a hacer: el número de participantes que se van a reclutar, dónde y cómo se van a reclutar, tratamiento que se va a aplicar a cada grupo y qué resultados se van a medir. En los ensayos se miden todo tipo de fenómenos como posibles resultados, quizá con varios grados de «dolor», o «depresión» o lo que interese; tal vez la «calidad de vida» o la «movilidad», que se evaluarán con algún tipo de cuestionario; posiblemente la «muerte por todas las causas», y también la muerte por cada cifra de causas específicas, y muchas otras cosas.
Entre todas esas consecuencias se especificará una (o quizá dos o tres, si se van a tener en cuenta en el análisis), que es el resultado principal. Esto se hace antes de iniciar el ensayo, por mor de evitar un problema: si se miden muchas cosas, algunas, por simple variación natural aleatoria, aparecerán potenciadas como estadísticamente significativas en los datos del ensayo.
Recuerden que se trata de personas reales, del mundo real, y que sus dolores, depresiones, movilidad, calidad de vida, etcétera varían por una infinidad de causas, muchas de las cuales nada tienen que ver con lo que se trata de verificar en el ensayo.
Si uno es un investigador honrado, aplicará test estadísticos específicos para discernir los auténticos beneficios del tratamiento que verifica. Se trata de diferenciar los cambios reales de la variación normal aleatoria del ruido de fondo que pueda observarse en los resultados sobre los pacientes en los diversos test. Y, sobre todo, habrá que evitar los falsos positivos.
El indicador tradicional de significación estadística es «uno sobre veinte». En términos generales, una vez alcanzado este indicador, si se repite e mismo ensayo una y otra vez, con los mismos métodos, con participante: reclutados entre la misma población, cabe esperar obtener el mismo hallazgo positivo resultante de una vez de cada veinte, por simple coincidencia, aunque el fármaco no sea realmente beneficioso. Si se introduce una taza en un tarro con alubias blancas y rojas, de vez en cuando, por puro azar, se sacará un número extraordinariamente bajo de alubias rojas una vez, y un número extraordinariamente alto de alubias rojas en otra. Lo mismo es aplicable a las mediciones que se realizan con los pacientes: habrá cierta variación aleatoria, y a veces parece que un tratamiento es mejor que el otro con el mismo método de puntuación, por puro azar. El propósito de los test estadísticos es evitar caer en el engaño de esa clase de variación aleatoria.
Bien. Imaginen ahora que llevan a cabo un ensayo en el que se miden diez resultados distintos, independientes. Si fijamos el indicador de significación estadística en «uno entre veinte», incluso si el fármaco es ineficaz, en el ensayo se incurrirá en una probabilidad del 50/50 de detectar un beneficio en al menos uno de los resultados por simple variación aleatoria en los datos. Si no se ha especificado previamente cuál de los diversos resultados es el principal, se puede hacer trampa y notificar cualquier resultado positivo de los obtenidos entre los diez como el resultado positivo del ensayo.
Se puede ir uno de rositas haciéndolo abiertamente y diciendo: «Escuche, medimos diez cosas y una de ellas resultó una mejora, ¿qué tiene de malo el fármaco?». Seguramente en ciertos sectores se puede uno salir con la suya porque no todos los consumidores de bibliografía científica están en la onda de este cambio tramposo, pero, en general, cualquiera lo captará, porque lo que se esperaría es ver un «resultado principal» señalado y notificado, ya que saben que si se miden diez cosas, es probable que por casualidad una de ellas aparezca como una mejora.
El problema es el siguiente: aunque se sabe que hay que especificar un resultado principal, esos resultados principales muchas veces se cambian en el paréntesis entre el protocolo y el trabajo publicado, cuando quienes han realizado la investigación ven los resultados. Usted mismo —un cliente al azar que ha comprado este libro en el quiosco de una estación sin ser ningún profesor de estadística ni de medicina— puede ver lo absurdo que es. Es completamente absurdo que el resultado principal que figura en el trabajo publicado sea distinto al especificado antes de comenzar el ensayo porque el propósito del resultado principal es que sea exactamente el resultado principal especificado antes de iniciar el ensayo, pero los resultados principales se cambian, y no es un problema casual, sino desgraciadamente una práctica habitual.
En 2009, un grupo de investigadores reunió todos los ensayos que pudieron localizar sobre los diversos usos de un fármaco llamado gabapentina[24], y examinaron todos aquellos en los que pudieron obtener documentación interna, lo que les permitió saber el resultado principal previamente especificado. A continuación, examinaron los trabajos académicos publicados en que se mencionaban esos ensayos; naturalmente, casi la mitad de los ensayos no estaban publicados (es un escándalo que no nos cansaremos de repetir). En los doce ensayos publicados verificaron si lo notificado como resultado principal en los trabajos académicos era realmente el resultado principal reseñado en la documentación interna antes de iniciar los ensayos.
Lo que descubrieron fue un desbarajuste. De los veintiún resultados principales especificados previamente en el protocolo, que habrían debido ser notificados, solo se publicaron once; seis no aparecieron, y cuatro fueron notificados, pero como resultados secundarios. Pueden mirarlo también desde el otro extremo del telescopio: veintiocho resultados principales fueron notificados en los doce ensayos publicados, pero de estos, casi la mitad fueron incorporados a posteriori, sin que fuesen los resultados principales del protocolo. No deja de ser absurdo: no hay excusa, ni para los investigadores por dar el cambiazo, ni para las publicaciones académicas por no haberlo comprobado. Y se trata de un solo fármaco. ¿Fue una extraña coincidencia?
No. En 2004 unos investigadores publicaron un trabajo sobre verificación en todos los sectores de la medicina; recopilaron todos los ensayos aprobados por los comités deontológicos de dos ciudades a lo largo de dos años, y localizaron los trabajos publicados[25]. La mitad aproximadamente de los resultados aparecían incorrectamente notificados; en casi dos tercios de los trabajos publicados aparecía al menos un resultado principal previamente especificado que había sido cambiado, y no al azar, sino tal como pueden imaginarse: los resultados favorables presentaban más del doble de probabilidad de ser notificados. En otros estudios sobre resultados principales cambiados se llega a la misma conclusión.
Hablando claro: si se cambian los resultados principales previamente especificados entre el principio y el final del ensayo, sin una explicación transparente del porqué, no se está haciendo auténtica ciencia. Se trata de un ensayo degradado en su metodología. Debería ser un requisito universal que en todos los informes sobre ensayos se señalara el resultado principal previamente especificado; deberían exigirlo todas las revistas, y habría debido hacerse desde que comenzaron a implantarse los ensayos clínicos. No es tan difícil. Pero se ha incurrido en una dejación generalizada a gran escala de este requisito sencillo pero fundamental.
Como ejemplo final de sus consecuencias prácticas, volveré a la paroxetina y a los ensayos realizados en niños. Recordarán que cuando un sector de la medicina es objeto de litigio, los investigadores suelen tener acceso a documentación que está bien guardada, lo que les permite descubrir problemas, discrepancias y pautas de actuación que normalmente no se llegan a saber. En su mayoría, esta documentación debería ser de dominio público, pero no lo es. Bien, puede que el caso de la paroxetina no sea peor que el de otro fármaco en esta modalidad de mala conducta (en realidad, como hemos visto por el estudio anterior, cambiar los resultados es algo generalizado), pero es simplemente uno de los casos en que disponemos de más pormenores.
En 2008, un grupo de investigadores decidió revisar la documentación desvelada por el pleito de la paroxetina y examinar cómo se habían publicado los resultados[26] de un ensayo clínico —«ensayo 329»—. Todavía en 2007 las revisiones sistemáticas seguían considerando que este ensayo arrojaba resultados positivos, cuando en realidad era totalmente falso: en los protocolos originales se especificaban dos resultados principales y seis secundarios; al término del ensayo no existía diferencia alguna entre la paroxetina y el placebo en relación con ninguno de dichos resultados. Con otros diecinueve resultados que se midieron, el total era de veintisiete. De estos, solo cuatro fueron favorables a la paroxetina, y fueron esos hallazgos positivos los que se notificaron como si fuesen los principales resultados.
Uno se siente tentado a considerar la comunicación del ensayo 329 como un caso excepcional, algo singular en el universo, por otra parte sano, de la medicina, pero, desgraciadamente, como demuestra todo lo expuesto, es una conducta generalizada.
Tan generalizada, en realidad, que hay campo para una pequeña industria artesanal, si existen académicos con ánimo de emprender el proyecto. Alguien en alguna parte debe localizar los estudios en los que se han cambiado los resultados principales, solicitar acceso a los datos en bruto y, con suerte, por fin, realizar los análisis correctos omitidos por los investigadores iniciales. Si uno opta por realizar esta tarea, los trabajos que publique se convertirán de inmediato en la referencia definitiva sobre esos ensayos, porque serán los únicos en los que aparezcan correctamente los resultados principales previamente especificados. Las publicaciones de los primitivos investigadores quedarán simplemente como una distracción marginal irrelevante.
Yo estoy seguro de que no faltará quien eche una mano.
ANÁLISIS DE SUBGRUPOS POCO FIABLES
Si el fármaco no es ganador absoluto en el ensayo, se pueden manipular los datos de distintas maneras para ver si gana en algún subgrupo: a lo mejor funciona de maravilla con varones chinos de entre 56 y 71 años. Esto es tan estúpido como jugar a «El mejor resultado de tres [tiradas]… El mejor resultado de cinco [tiradas]». Y, sin embargo, es frecuente.
Es necesario volver una y otra vez en este capítulo al mismo principio: si uno se otorga a sí mismo numerosas posibilidades de encontrar un resultado positivo, pero aplica los test estadísticos en virtud de los cuales, en principio, solo se ha hecho un intento, las posibilidades de obtener el resultado que se quiere aumentan extraordinariamente; si una moneda se lanza muchas veces, acabarán saliendo cuatro caras seguidas.
Otra manera de conseguirlo es el análisis de subgrupos. El truco es fácil: ha concluido el ensayo y el resultado ha sido negativo; no se observaron diferencias: los pacientes con placebo reaccionaron igual que los pacientes medicados con el nuevo fármaco. El medicamento no funciona. Pero se escarba un poco más, se hacen ciertos análisis y se descubre que el fármaco hizo maravillas en varones hispanos no fumadores entre 55 y 70 años.
Si no resulta obvio sin más que aquí hay un problema, tendremos que retroceder y pensar en la variación aleatoria de datos de cualquier ensayo. Pongamos que está previsto que el fármaco sirva para prevenir la muerte a lo largo del ensayo. Sabemos que la muerte ocurre por toda clase de motivos, y muchas veces en momentos muy arbitrarios, que es —desgraciadamente— previsible basándonos en lo que sabemos respecto al estado de salud de las personas. Se espera que al realizar el ensayo el fármaco sea capaz de posponer algunas de esas muertes aleatorias imprevisibles (aunque no todas, ¡porque no hay ningún medicamento que prevenga todas las causas de muerte!), y se logra detectar ese cambio en la tasa de muertes si se dispone de un número suficientemente alto de pacientes en el ensayo.
Pero si después del ensayo se toman los resultados para trazar un círculo alrededor de un grupo de muertes constatadas, o alrededor de un grupo de pacientes supervivientes, no puede pretenderse que sea un subgrupo elegido al azar.
Si no acaban de entender por qué esto es un problema, piensen en un pudín de Navidad con monedas distribuidas al azar. Quieren saber cuántas monedas hay, se corta una porción al azar —la décima parte del pudín—, se cuentan las monedas que tiene, se multiplican por diez y se obtiene el cálculo de las que puede haber. Es un estudio lógico en el que se elige una muestra lógica a ciegas del campo de distribución de las monedas. Si hiciéramos una radiografía del pudín se vería que hay zonas en que, por simple acumulación aleatoria, hay más monedas que en otras. Y si se emprendiera una exploración muy complicada y laboriosa, se podría recortar con el cuchillo un trozo del pudín con más monedas que en la primera muestra. Si se multiplican las monedas de esta última muestra por diez, parecerá que en el pudín hay muchas más monedas, porque se ha hecho trampa. Las monedas siguen en él distribuidas al azar, pero el trozo elegido después de radiografiarlo y ver dónde había monedas no es informativo de lo que realmente contiene el pudín.
Sin embargo, este tipo de análisis excesivamente optimista resuena en las presentaciones comerciales por todo el país y todos los días de la semana. Se dice, por ejemplo: «Ya ven que en general los resultados no son nada del otro mundo, pero curiosamente nuestra campaña nacional de anuncios causó un aumento masivo de las ventas de portátiles a precio reducido en la región de Bognor». Si no hay un motivo previo para creer que Bognor es distinto al resto de las tiendas, ni motivos para creer que los portátiles son distintos al resto de los productos, este resultado no es más que una selección caprichosa, espuria e irracional.
En términos generales, podemos afirmar: si se han examinado los resultados, siempre se puede acomodar en ellos la hipótesis que interese. Pero una hipótesis debe establecerse antes de ver los resultados que se analizan. Por tanto, los análisis de subgrupos, salvo que se especifique antes de empezar, no son más que otra manera de incrementar las posibilidades de obtener un falso positivo. Sin embargo, es un método muy generalizado y muy atractivo, porque parece plausible a primera vista.
Es un problema tan arraigado que ha motivado algunos trabajos en broma por parte de especialistas en metodología de la investigación, en un intento desesperado de exponer sus razones a investigadores excesivamente optimistas que no ven los defectos en los que incurren. Hace treinta años, Lee y sus colaboradores publicaron un trabajo clásico recomendando precaución en este tema, que apareció en la revista Circulation[27]. Reclutaron 1073 pacientes con arteriopatía coronaria y los distribuyeron al azar para aplicarles el Tratamiento 1 o el Tratamiento 2. No existían tales tratamientos porque era un falso ensayo clínico, un simulacro, pero los investigadores hicieron un seguimiento de los datos reales en esos pacientes reales para ver qué hallaban en medio del ruido de fondo de su evolución.
En general, como era de esperar, no hubo diferencia de supervivencia entre los dos grupos, pues en ambos el tratamiento fue idéntico, pero en un subgrupo de 397 pacientes (caracterizados por «cardiopatía de los tres vasos» y «contracción anormal del ventrículo izquierdo») la supervivencia en los pacientes del Tratamiento 1 fue significativamente distinta a la de los pacientes del Tratamiento 2, por puro azar. De ahí se deduce que se pueden reivindicar beneficios significativos mediante un análisis de subgrupo, incluso en un ensayo falso en el que la intervención consistió en no hacer absolutamente nada.
Se encuentran igualmente efectos espurios en subgrupos en ensayos auténticos si se realiza un número muy elevado de análisis falaces[28]. Unos investigadores que estudiaron un ensayo para medir la eficacia de un procedimiento quirúrgico llamado endarteriectomía, decidieron examinar hasta qué extremo podían poner en práctica esta idea —en broma— dividiendo a los pacientes en la mayor cantidad de subgrupos imaginables y comprobando los resultados. En primer lugar, observaron que el beneficio de la cirugía dependía del día de la semana en que había nacido el paciente (véase a continuación)[29]: sería de imbéciles basar las decisiones clínicas en ese dato. Observaron igualmente una maravillosa relación casi lineal entre el mes del nacimiento y el resultado clínico: en los pacientes nacidos en mayo y junio se observó un extraordinario beneficio, pero a medida que corría el calendario el efecto se diluía más y más, hasta que en marzo la intervención tenía visos de ser casi perjudicial. Si estos descubrimientos hubieran sido en relación con una variable biológica plausible, como la edad, el análisis de ese subgrupo habría sido difícil de ignorar.
Finalmente, en el ensayo ISIS-2 se compararon los beneficios de administrar aspirina o un placebo a pacientes que se sospechaba que acababan de sufrir un infarto. Se observó que la aspirina mejoraba los resultados, pero los investigadores decidieron hacer en broma un análisis de subgrupo que reveló que, aunque la aspirina es muy eficaz en general, no da resultado en los pacientes nacidos bajo el signo de libra y géminis, signos que ni siquiera son adyacentes. Insisto, si se discriminan los datos de muy diversas maneras, se pueden seleccionar conjuntos de subgrupos y hallar datos extraños a voluntad.
¿Habría que privar de tratamiento a los pacientes nacidos bajos los signos de libra y géminis? Ustedes contestarán que no, naturalmente, con lo que demostrarían ser más listos que los profesionales médicos: en el ensayo CCSG se demostró que la aspirina era eficaz para prevenir la apoplejía y la muerte en varones, pero no en mujeres[30]; como consecuencia de ello, durante una década se aplicó un tratamiento con dosis menores a las mujeres hasta que se demostró en otros ensayos y en revisiones posteriores que la aspirina era igualmente beneficiosa para hombres que para mujeres.