CAPÍTULO
4

Malos ensayos clínicos

Hasta ahora he dado por sentado el concepto de ensayo clínico, como si no fuese algo complicado: se congrega a unos cuantos pacientes, se les reparte en dos grupos para administrar un tratamiento a uno y otro tratamiento al otro, y, transcurrido un tiempo, se comprueba si hay diferencias en los resultados de ambos grupos.

A continuación, vamos a ver cómo en los ensayos clínicos se incurre en irregularidades básicas, tanto de metodología como de análisis, y tanto por exagerar los beneficios como por restar importancia a los efectos adversos observados. Algunos de esos trucos y distorsiones son incalificables atropellos; el fraude, por ejemplo, es imperdonable e inmoral, pero algunos de ellos caen dentro de una zona imprecisa, y se dan casos de datos cogidos por los pelos en situaciones difíciles por ahorrar gastos o para conseguir resultados más rápidos, cuando la única apreciación válida sobre un ensayo es su mérito implícito. Pero yo creo que es evidente que en muchas ocasiones se omiten pasos por incentivos perversos.

Cabe también recordar que muchos malos ensayos (entre ellos algunos de los que vamos a hablar a continuación) los dirigen académicos independientes. De hecho, en general, como hace gala de señalar la industria, cuando se han comparado los métodos en ensayos dirigidos independientemente con ensayos financiados por la industria, estos últimos suelen quedar mejor parados. Puede que sea cierto, pero no deja de ser prácticamente irrelevante por una simple razón: los académicos independientes en este ámbito se pueden contar con los dedos de una mano. El 90% de los ensayos clínicos publicados los promueve la industria farmacéutica y su predominio es absoluto en este terreno; las farmacéuticas imponen el tono y las normas.

Finalmente, antes de entrar en materia, debo hacer una advertencia. Parte de lo que sigue es arduo: es ciencia y no es fácil, pero cualquiera puede entenderlo, aunque haya ejemplos que requerirán más esfuerzo mental que otros. Los que son más complicados van precedidos de un breve resumen antes de desarrollar el tema. Si les parecen difíciles, pueden saltarse la explicación pormenorizada y guiarse por el resumen. No voy a ofenderme. Sin embargo, el último capítulo sobre comercialización engañosa contiene horrores que no deben perderse.

Hablemos de los malos ensayos.

FRAUDE DESCARADO

El fraude es un insulto. Analizaremos en este capítulo los trucos arteros, las artimañas y los datos traídos por los pelos, y tergiversaciones elegantes casi aceptables. A mí personalmente el fraude me desalienta profundamente por ser algo burdo; no es metodológicamente rebuscado, no hay posibilidad de negarlo ni de refutar que se tergiversan los datos: alguien ha amañado los resultados y punto. Lo que supone anularlo todo y volver a empezar.

Afortunadamente —para mí y para los pacientes—, y por lo que sabemos, el fraude no es tan frecuente. El cálculo más aproximado sobre su prevalencia procede de una revisión sistemática de 2009, que recoge las conclusiones de una encuesta de datos de 21 estudios en los que se preguntó a los investigadores de todos los campos de la ciencia a propósito de malas prácticas. No es de extrañar que la gente conteste de modo distinto sobre el fraude en función del modo en que se planteen las preguntas. El 2% reconoció haber amañado, falsificado o modificado datos al menos una vez, pero la cifra aumentó al 14% cuando se les preguntó a propósito de la conducta de otros colegas. Un tercio reconoció algún otro tipo de prácticas cuestionables, y la cifra alcanzó el 70% cuando se les preguntó sobre otros colegas.

Puede explicarse en cierto modo esta disparidad entre las cifras de «yo» y «los demás» por el hecho de que uno es único aunque conoce a mucha gente, pero como son cuestiones sensibles, probablemente lo mejor sea asumir que todas las respuestas están subestimadas. También cabe afirmar que todas las ciencias, como lo son la medicina o la psicología, pueden manipularse debido a la diversidad de factores que diferencian unos estudios de otros, lo que significa que una perfecta replicación es poco frecuente y, como consecuencia, nadie abrigará grandes sospechas si los resultados contrastan con los de otra persona. En un campo de la ciencia en el que los resultados de un experimento son más taxativamente «sí» o «no», la replicación fallida pone más rápidamente en evidencia al falsario.

Pero ningún campo está exento de la existencia de informes selectivos, y ha habido científicos famosos que han manipulado resultados según esa pauta. El físico estadounidense Robert Millikan ganó el premio Nobel en 1923 por la demostración con su experimento de la gota de aceite de que la electricidad se propaga en unidades discretas, los electrones. Millikan estaba a la mitad de su carrera (el período máximo de fraude) y no era muy conocido. En su célebre trabajo publicado en Physical Review escribió: «No se trata de un grupo seleccionado de gotas, sino que representa todas las gotas experimentadas durante sesenta días consecutivos». La afirmación era totalmente falsa: en el trabajo publicado había 58 gotas, pero en sus notas figuraban 175, con comentarios como «publicar este tan maravilloso» y «mala concordancia, no dará resultado». En la bibliografía científica se dio durante años un encarnizado debate sobre si esto es fraude, y Millikan tuvo suerte hasta cierto punto de que sus resultados pudieran ser replicados. Pero, en cualquier caso, su informe selectivo se enmarca dentro de un continuo de toda clase de actividades de investigación que pueden parecer totalmente inocentes si no se examinan minuciosamente. ¿Qué debe hacer un investigador con un gráfico en el que hay datos que desentonan y que es lo único que rompe su perfecta regularidad? ¿Quizá porque se le cayó algo al suelo? ¿Porque el funcionamiento de la máquina estaba seguramente contaminado? Por esta razón, en muchos experimentos rigen reglas claras sobre la exclusión de datos.

Está también la manipulación pura y simple. El doctor Scott Reuben era un anestesista estadounidense especialista en dolor que realizó no menos de 20 ensayos clínicos publicados en la década precedente[1]. Hubo ciertos casos en que ni siquiera pidió autorización para llevar a cabo ensayos con los pacientes de su institución, y simplemente se contentó con presentar los resultados de ensayos sacados de la nada. No hay que olvidar que, en medicina, los datos no son abstractos ni académicos. Reuben afirmaba haber descubierto que la medicación no opiácea era tan eficaz como los opiáceos en el tratamiento del dolor postoperatorio, lo cual fue una conclusión que complació a la comunidad científica en general porque los opiáceos suelen ser adictivos y presentan mayores efectos secundarios. En muchos centros se modificó la práctica habitual en el uso de opiáceos, y es un campo de la especialidad que ahora anda revuelto. De todos los sectores de la medicina en los que se puede perpetrar fraude haciendo que cambien las decisiones conjuntas de médicos y pacientes, el dolor es uno que reviste la máxima importancia.

Hay varias maneras de descubrir a los defraudadores, pero una de ellas no es precisamente la constante vigilancia por parte de entidades médicas y académicas, cuyos resultados no están a la altura de su cometido. Muchas veces la detección es fortuita, casual o consecuencia de sospechas in situ. Malcolm Pearce, por ejemplo, era un cirujano obstétrico británico que publicó un informe sobre un caso en el que afirmaba que había reimplantado un embarazo ectópico, y que después había tenido lugar el parto normal de un niño sano. Un anestesista y un ayudante de quirófano de su hospital no lo creyeron, porque se habrían enterado de haberse producido un hecho tan notable; consultaron los archivos y no encontraron rastro de semejante acontecimiento. A partir de ahí todo se vino abajo[2]. Lo asombroso es que en el mismo número de esa revista, Pearce publicó un trabajo notificando un ensayo clínico con 200 mujeres con síndrome del ovario poliquístico a las que trató por recurrente aborto espontáneo; un ensayo que no tuvo lugar, y del que Pearce no solo se inventó los resultados y las pacientes, sino que también inventó el nombre ficticio de una farmacéutica promotora del mismo, una empresa inexistente. En la era de Google una mentira de esta índole no habría llegado muy lejos.

Pero existen otros métodos de detección. El cerebro humano, por ejemplo, es un generador bastante imperfecto de números al azar, y muchas veces se han descubierto simples fraudes examinando estadísticas forenses y comprobando la frecuencia del último dígito: apuntando números al azar en una columna, puede darse una coincidencia inconsciente por el número siete. Para evitarlo se emplea un generador de números al azar, aunque con ello se incurrirá en el viejo problema de una sospechosa uniformidad en la aleatoriedad. El físico alemán Jan Hendrik Schön fue coautor en 2001 de un trabajo prácticamente cada semana, pero los resultados eran demasiado exactos, y, finalmente, alguien advirtió que dos trabajos presentaban la misma cantidad de «ruido» superimpuesto en un resultado perfectamente prototípico; resultó que muchas cifras se habían generado por ordenador utilizando la misma ecuación que se trataba de verificar, incorporando al modelo una variación aleatoria realista.

Debería hacerse lo indecible para descubrir el fraude: mejores investigaciones, mejor vigilancia rutinaria, mejor comunicación entre los editores de publicaciones relativa a los trabajos sospechosos que rechazan, mejor protección de denunciantes, comprobaciones al azar de datos importantes por parte de las publicaciones especializadas, etc. Se habla de estas medidas, pero rara vez se aplican porque la responsabilidad del problema es difusa y poco clara.

Así que el fraude ocurre, es burdo, es un simple delito y lo llevan a cabo malas personas, pero su contribución real a errores en la bibliografía médica es marginal comparado con la distorsión metodológica habitual, sofisticada y —sobre todo— plausiblemente refutable que llena este libro. Sin embargo, el fraude descarado es casi exclusivamente la única fuente de distorsión que recibe cobertura en los medios de comunicación habituales, por la sencilla razón de que no encierra ningún misterio. Por eso lo obviaré y abordaré lo realmente importante.

VERIFIQUE SU TRATAMIENTO CON PACIENTES «IDEALES» EXTRAÑAMENTE PERFECTOS

Como hemos visto, los pacientes de los ensayos no suelen tener nada que ver con los pacientes reales que ven los médicos en la práctica clínica diaria. Como en esos pacientes «ideales» existe mayor probabilidad de que mejoren, se exageran los efectos beneficiosos de los fármacos, lo cual contribuye a que los nuevos medicamentos caros parezcan mejores de lo que son en función de la relación coste/eficacia.

En el mundo real los pacientes suelen ser complicados: pueden presentar diversos problemas médicos o tomar muchos medicamentos que interfieren entre sí de modo imprevisible; pueden beber a la semana más alcohol de lo que es aconsejable, o presentar algún trastorno renal leve. Así son los pacientes en la vida real. Pero en la mayoría de los ensayos clínicos en que nos basamos para adoptar decisiones en el mundo real se estudian fármacos en pacientes no representativos, pacientes extrañamente ideales, que suelen ser jóvenes, con un solo diagnóstico inequívoco, pocos problemas de salud, etc[3].

¿Los ensayos realizados con esos pacientes atípicos son realmente aplicables a los pacientes cotidianos? Es harto conocido que distintos grupos de pacientes reaccionan de modo diferente a los medicamentos. En los ensayos sobre una población ideal se exageran los beneficios de un tratamiento, por ejemplo, y se ven beneficios que en realidad no existen. A veces, en casos de muy mala suerte, el balance entre riesgo y beneficio puede incluso sufrir una total desviación si pasamos de una población a otra. Se demostró, por ejemplo, que los fármacos antiarrítmicos eran eficaces para prolongar la vida en pacientes con arritmias anormales severas, pero se recetaban también de forma generalizada a pacientes que habían sufrido infarto y que solo padecían arritmias leves. Cuando finalmente se probaron esos medicamentos en esta segunda población, se comprobó —ante el horror general— que aumentaban activamente el riesgo de muerte[4].

Los médicos y los académicos ignoran muchas veces este problema, pero al recopilar y comparar las diferencias entre pacientes de ensayos clínicos y pacientes reales, la magnitud del problema resulta pasmosa.

En un estudio de 2007, se reunió a 179 pacientes asmáticos representativos de la población general para examinar cuántos habrían sido candidatos a participar en un grupo de ensayos para el tratamiento del asma[5]. El resultado fue una media del 6%, y no los habían rechazado en antiguos ensayos, sino en los ensayos que constituyen el fundamento de las directrices internacionales de consenso para el tratamiento del asma en clínicas de práctica general y en hospitales. Esas directrices se aplican en todo el mundo y, sin embargo, como muestra dicho estudio, se basan en ensayos clínicos en los que se habría excluido prácticamente a todos los pacientes del mundo real en quienes se aplican.

En otro estudio se reunió a 600 pacientes que estaban en tratamiento por depresión en un ambulatorio y se observó que solo un tercio de los mismos habrían sido candidatos a participar en 39 ensayos clínicos recientemente publicados sobre la depresión[6]. Suele hablarse de las dificultades para reclutar pacientes para la investigación, pero en un estudio se describió el modo en que 186 pacientes con depresión solicitaron participar en dos ensayos sobre depresión, y más de siete de cada ocho fueron rechazados por no cumplir los requisitos[7].

Para ver lo que esto significa realmente podemos seguir a un grupo de pacientes con un problema médico concreto. En 2011, unos investigadores finlandeses reunieron a pacientes que habían sufrido una fractura de cadera y examinaron si habrían cumplido los requisitos para participar en los ensayos realizados con bifosfonatos de uso generalizado en la prevención de fracturas[8]. Iniciaron el estudio con 7411 pacientes, pero 2314 quedaron excluidos de entrada por ser varones, y los ensayos clínicos se hicieron solo con mujeres. ¿Se deben esas diferencias al modo en que hombres y mujeres reaccionan al medicamento? A veces sí. De los 5097 pacientes restantes, 3596 quedaron excluidos por no tener la edad adecuada, ya que los seleccionados debían tener entre 65 y 79 años. Finalmente, otros 609 pacientes fueron excluidos por no padecer osteoporosis, lo que arroja una cifra final de 892 pacientes. Por tanto, los datos de los ensayos sobre esos fármacos que previenen las fracturas solo son en rigor aplicables a aproximadamente uno de cada siete pacientes con fractura. Tal vez den resultado en los pacientes excluidos, pero esto es potestativo; e incluso en el caso de que no dieran resultado, el beneficio de tomar ese medicamento puede ser diferente en distintas personas.

El problema desborda la estricta medición de la eficacia de fármacos y distorsiona los cálculos sobre la relación coste/eficacia (en esta época de notable aumento de los costes en la sanidad pública, hay que preocuparse por el gasto). Un ejemplo de ello son los nuevos analgésicos «coxib» que se venden sobre la base de que causan menos hemorragias gastrointestinales («GI») comparados con los más antiguos y más baratos, como el muy corriente ibuprofeno.

Parece, efectivamente, que los coxibs reducen el riesgo de hemorragias GI, lo que está bien, dada su extrema gravedad. De hecho, los coxibs disminuyeron el riesgo en aproximadamente la mitad de los ensayos realizados en pacientes ideales —por supuesto— con mucho mayor riesgo de sufrir esa clase de hemorragia. A quienes dirigieron los ensayos les pareció perfectamente lógico: si se desea demostrar que un fármaco reduce el riesgo de hemorragia, es mucho más fácil y barato con esa clase de pacientes que en una población que padece muchas hemorragias (porque, de lo contrario, si los resultados son realmente escasos, se necesitará hacer el ensayo con un número enorme de pacientes).

Pero el problema surge si se utilizan esas cifras sobre un cambio en la tasa de hemorragias GI en esos pacientes ideales tan poco representativos de los ensayos para calcular el coste de prevenir una hemorragia en el mundo real. NICE estimó ese coste en 20 000 dólares por hemorragia prevenida, pero el cálculo correcto es superior a 100 000 dólares[9]. Se aprecia fácilmente el error de NICE con un simple cálculo aritmético de las cifras redondeadas, aunque estas son casi exactamente las mismas que las reales (hay que hacer los cálculos en dólares porque el análisis en el que se expone el problema se publicó en una revista académica de Estados Unidos).

Los pacientes del ensayo presentaban un alto riesgo de hemorragia: en el plazo de un año, 50 de entre 1000 habían sufrido una hemorragia. La cifra quedó reducida a 25 de esos 1000 si se medicaban con un coxib, porque este medicamento reduce a la mitad el riesgo de hemorragia. El coste de un medicamento de esta clase es de 550 dólares extra al año por paciente. Por tanto, gastando 500 000 dólares en 1000 pacientes se logran 25 hemorragias menos, y 500 000 dólares divididos por 25 significa que cada prevención de hemorragia costó 20 000 dólares.

Pero si consideramos los pacientes reales medicados con coxibs en el banco de datos de la base de los médicos de cabecera, vemos que estos presentan mucho menor riesgo de hemorragias: en el plazo de un año solo diez de entre 1000 sufrieron una. La cifra desciende a cinco de entre 1000 si se les administraba un coxib, porque este tipo de medicamento reduce a la mitad el riesgo de hemorragia. Así pues, se sigue pagando 500 000 dólares anualmente por 1000 pacientes que tomen coxib, pero solo se obtienen cinco hemorragias menos, y 500 000 dólares divididos por 5 significa que cada una de esas hemorragias evitadas cuesta 100 000 dólares, un coste muy superior a los 20 000 dólares calculados.

El problema de los pacientes no representativos en ensayos clínicos se denomina «validez externa» o «generalisabilidad» (por si quieren documentarse más), circunstancia que puede convertir en totalmente irrelevante un ensayo en relación con poblaciones del mundo real, y que, sin embargo, es una práctica habitual en la investigación realizada con poco presupuesto y plazos breves para obtener resultados rápidos, por personas a quienes no les importa si esos resultados son irrelevantes para la problemática clínica del mundo real. Es un escándalo descorazonador del que no se habla. No genera ningún titular de prensa espectacular porque no se trata de un medicamento asesino; es solo una contaminación lenta e inútil en casi todas las pruebas básicas de la medicina.

PRUEBE EL FÁRMACO CONTRASTÁNDOLO CON CUALQUIER PORQUERÍA

Muchas veces se comparan los fármacos con algo que no es muy eficaz. Ya hemos visto que hay empresas que optan por comprobar sus fármacos comparándolos con un placebo, una píldora azucarada sin principio activo, lo cual es situar el listón muy bajo. Pero también es frecuente encontrarse con ensayos clínicos en los que un nuevo medicamento se compara con algo reconocidamente inútil, o con otro fármaco de la competencia pero en dosis ridículamente bajas o estúpidamente altas.

Una manera para que el nuevo tratamiento parezca bueno es compararlo con algo que no da buen resultado. Esto puede parecer absurdo, incluso cruel, pero por fortuna Daniel Safer recopiló numerosos ensayos en los que se emplearon dosis muy extrañas, precisamente para ilustrar este problema[10]. En uno de los ensayos que analizó, por ejemplo, se comparó la paroxetina con la amitriptilina. La paroxetina es uno de los nuevos antidepresivos casi exento de efectos secundarios, como la somnolencia. La amitriptilina es un fármaco muy antiguo, que causa somnolencia, por lo que en la práctica clínica conviene recomendar a los pacientes que lo tomen únicamente por la noche, ya que la somnolencia no tiene tanta importancia cuando se duerme. Pero en este ensayo se administró la amitriptilina dos veces al día, por la mañana y por la noche, y los pacientes notificaron mucha somnolencia diurna, lo que hizo que la paroxetina pareciese mucho mejor.

Por otro lado, hay ensayos en los que se compara un nuevo medicamento caro con otro más antiguo administrado en una dosis alta poco corriente, lo que se traduce en peores efectos secundarios. El campo de la medicación antipsicótica nos aporta un interesante ejemplo de ello que abarca además varias épocas de la investigación.

La esquizofrenia es, como el cáncer, una enfermedad para la que no existen tratamientos definitivos, y en la que los beneficios de la medicación muchas veces deben ponderarse con los inconvenientes. Cada paciente esquizofrénico se marca objetivos distintos. Unos prefieren tolerar un riesgo mayor de recaídas por su profundo deseo de evitar los efectos secundarios a toda costa y optan por una dosis más baja; otros consideran que las recidivas graves deterioran su vida, haciéndoles perder su casa, su empleo y las amistades, y optan por tolerar los efectos secundarios a cambio de los beneficios que les confiere la medicación.

Es una decisión generalmente difícil, porque los efectos secundarios son frecuentes en la medicación para la esquizofrenia, sobre todo los trastornos de movilidad (un tanto parecidos a los síntomas del Parkinson) y el aumento de peso. Por tanto, el propósito de la innovación farmacéutica en este campo ha sido formular pastillas que traten los síntomas sin provocar efectos secundarios. Hace veinte años se produjo una innovación en este sentido y salió al mercado un nuevo tipo de fármacos, los «atípicos», de los que se esperaba eso precisamente, y se organizó una serie de ensayos para compararlos con otros fármacos antiguos.

Safer encontró seis ensayos en que se comparaban antipsicóticos de nueva generación con el anticuado haloperidol —un fármaco bien conocido por sus efectos secundarios— en una dosis diaria de 20 mg. No es una dosis descabelladamente alta de haloperidol, no le expulsarán del colegio de médicos y no sobrepasa la dosis máxima permitida en el British National Formulary (BNF), el manual de referencia para prescripción de medicamentos, pero es una dosis poco corriente y es inevitable que los pacientes que la tomen notifiquen efectos secundarios.

Curiosamente, diez años después, la historia se repetía: la risperidona era uno de los primeros de esta nueva generación de antipsicóticos y su patente expiró antes, e inmediatamente se volvió tan barato como los fármacos más antiguos. Como consecuencia, muchas farmacéuticas quisieron demostrar que sus medicamentos antipsicóticos caros de nueva generación eran mejores que la risperidona, ahora barata y anticuada, y surgieron ensayos para comparar los nuevos fármacos con la risperidona tomada en una dosis de 8 mg. Tampoco en este caso, 8 mg es una dosis increíblemente alta, aunque no sea baja, pero en los pacientes medicados con tal dosis de risperidona existe mayor probabilidad de que notifiquen efectos secundarios, lo que repercute en el aparente beneficio del medicamento con el que se la compara.

Lo que acabo de describir también es un escándalo del que no se habla, pero que está generalizado. Ello no significa que todos estos fármacos tengan que aparecer en titulares de prensa, pero sí que las pruebas de su eficacia están generalmente distorsionadas.

ENSAYOS QUE SON DEMASIADO BREVES

Los ensayos suelen ser breves porque las farmacéuticas necesitan resultados lo antes posible para que los medicamentos sigan pareciendo buenos y sigan siendo de su propiedad antes de expirar la patente. Esto plantea varios problemas, algunos delos cuales hemos tratado ya, sobre todo el de que se recurra a «indicadores secundarios», como son los cambios en análisis de sangre, en vez de tomar como referencia «consecuencias del mundo real», como son, por ejemplo, cambios en la tasa de infartos, que tardan más en evidenciarse. Por otro lado, los ensayos breves distorsionan los beneficios de un fármaco por el solo hecho de su brevedad, al ser los efectos a corto plazo distintos a los efectos a largo plazo.

Una operación para extirpar un cáncer, por ejemplo, tiene factores de riesgo a corto plazo —el paciente puede quedarse en la mesa de operaciones o morir a causa de una infección en el plazo de un semana—, pero se espera que estos riesgos a corto plazo se compensen por beneficios a largo plazo. Si se lleva a cabo un ensayo clínico para comparar pacientes que han sido operados y pacientes no intervenidos, y solo se miden los resultados al cabo de una semana, podría parecer que los operados murieron antes que los no operados. Ello se debe a que los pacientes a quienes se les extirpa el cáncer tardan meses o años en morir, por lo que los beneficios de la operación tardan meses o años en manifestarse, mientras que los riesgos, el reducido número de personas que mueren en la mesa de operaciones, aparecen sin dilación.

El mismo problema se plantea en los ensayos clínicos de fármacos. Puede haber un beneficio súbito, inmediato, que ejerza, por ejemplo, un fármaco para adelgazar que se desvanece a medida que pasa el tiempo. O puede haber un beneficio a corto plazo y efectos secundarios a largo plazo que solo se evidencian en ensayos clínicos más prolongados. El tratamiento Fenphen para perder peso, por ejemplo, ayudó a la pérdida de peso en ensayos a corto plazo favorables, pero cuando se observó a los pacientes medicados durante períodos más largos, resultó que además desarrollaban defectos valvulares cardíacos[11]. Los fármacos tipo benzodiacepina como el Valium son eficaces para paliar la ansiedad a corto plazo, y un ensayo que dure seis semanas arrojará enormes beneficios; pero si el medicamento se toma meses y años, esos efectos beneficiosos disminuyen y el paciente desarrolla adicción. Estos resultados adversos a largo plazo de los fármacos únicamente son detectables en un ensayo prolongado.

No obstante, los ensayos prolongados no son automáticamente mejores siempre, sino que están en función de la problemática clínica que se investiga o que quizá se trata de evitar. Con un fármaco anticancerígeno caro como el Herceptin, por ejemplo, lo que interesa averiguar es si su administración en plazos cortos es tan eficaz como la administración a largo plazo para así evitar pagar inútilmente grandes dosis del fármaco —y exponer además a los pacientes a una mayor duración de los efectos secundarios asociados—. Para ello son necesarios ensayos cortos, o, al menos, ensayos con el conjunto de efectos durante un período largo y a raíz de un período corto de tratamiento. Roche solicitó licencias para tratamientos de doce meses con Herceptin y presentó datos de ensayos de doce meses. En Finlandia se llevó a cabo un ensayo con un tratamiento de nueve semanas en el que se observó importantes beneficios, y el gobierno de Nueva Zelanda decidió autorizar el tratamiento de nueve semanas. Roche desechó ese breve ensayo y encargó nuevos ensayos para un tratamiento de dos años. Como pueden imaginar, si queremos averiguar si nueve semanas de medicación con Herceptin son tan eficaces como doce meses, tendremos que efectuar ensayos comparando las dos pautas de tratamiento, y subvencionar esta clase de ensayos clínicos suele ser difícil.

ENSAYOS CLÍNICOS QUE SE INTERRUMPEN ANTES DE TIEMPO

Si un ensayo se termina antes de tiempo, o más tarde de lo debido, porque se van mirando los resultados sobre la marcha, aumenta la posibilidad de obtener resultados favorables. Esto se debe a que se aprovecha uno de la variación al azar inherente a los datos. Es una versión refinada del modo en que una persona aumenta sus posibilidades de ganar a cara o cruz en las tiradas diciendo: «¡Maldita sea! Bueno, las mejores de tres tiradas… ¡Maldita sea! Las mejores de cinco tiradas… ¡Maldita sea! Las mejores de siete tiradas…».

Como ven, en este libro volvemos una y otra vez al mismo principio: si uno se concede numerosas posibilidades de encontrar un resultado positivo, y se recurre a test estadísticos por los que se supone que solo se hizo un análisis, aumentan extraordinariamente las posibilidades de obtener un falso positivo engañoso. Es lo que ocurre cuando se ocultan resultados desfavorables, pero es un problema que se traslada subrepticiamente al modo de analizar los estudios en que no se han ocultado datos.

Si, por ejemplo, se lanza una moneda varias veces seguidas no se tardará mucho en hacer que salgan varias caras seguidas, que no es lo mismo que decir: «Voy a sacar cuatro caras seguidas ahora mismo», y hacerlo. Sabemos que el marco temporal que se atribuye a ciertos datos permite elegir un conjunto de datos favorables; y sabemos que eso es una fuente de engaño.

En el ensayo CLASS se comparó durante seis meses un nuevo analgésico llamado celecoxib con dos más antiguos. El nuevo fármaco mostró menos complicaciones gastrointestinales, por lo que muchos médicos lo prescribieron. Un año más tarde resultó que la intención de partida del ensayo era llevarlo a cabo más de un año; el ensayo no habría arrojado efectos beneficiosos del celecoxib si se hubiera cumplido ese plazo de prueba, pero notificando solo los resultados de seis meses, el fármaco sacó matrícula. Y ese fue el trabajo que se publicó.

Antes de seguir, vamos a hacer una pausa para considerar que a veces puede ser legítimo detener un ensayo clínico antes de tiempo: si hay, por ejemplo, una diferencia aplastante en los beneficios constatados entre dos grupos de tratamiento; una diferencia específica de tal magnitud, tan segura e informativa, que, aun a pesar del factor de riesgo en cuanto a efectos secundarios, a ningún médico en su sano juicio se le ocurrirá continuar recetando el tratamiento antiguo.

Pero hay que andarse con cautela en estos casos, porque a muchos que aceptaron de buena fe ese criterio se les pasaron por alto terribles resultados erróneos. Por ejemplo, un ensayo sobre el fármaco bisoprolol durante cirugías vasculares se interrumpió antes de tiempo cuando dos de los pacientes medicados con el nuevo fármaco sufrieron un episodio cardíaco significativo, frente a 18 que lo sufrieron y a quienes se administró un placebo. Parecía que el fármaco era eficaz para salvar vidas y se modificaron las indicaciones de tratamiento, pero cuando se comenzó a caer en la cuenta de que se habían exagerado los beneficios del tratamiento, se realizaron dos ensayos más amplios en los que se observó que el bisoprolol no ofrecía realmente beneficio alguno[12]. El hallazgo de partida era incorrecto como consecuencia de haber interrumpido el ensayo antes de tiempo al recoger un conjunto de muertes falsas.

Revisar los datos durante el desarrollo de un ensayo plantea un inquietante interrogante ético. Si a uno le da la impresión de que detecta un efecto adverso en uno u otro tratamiento antes de finalizar el plazo programado, ¿hay que continuar exponiendo a los pacientes a lo que puede ser un riesgo en interés de ir hasta el final para comprobar algo que puede ser un simple hallazgo casual? ¿O debe uno interrumpirlo todo, poniendo fin al ensayo y posibilitando que el hallazgo causal contamine la bibliografía médica, dando falsas orientaciones en decisiones sobre tratamientos para un mayor número de futuros pacientes? Que esto ocurra es particularmente inquietante teniendo en cuenta que tras un ensayo clínico incompleto, casi siempre, y de todos modos, hay que hacer otro más amplio, con lo que se expone a un riesgo potencial a un mayor número de personas, únicamente para descubrir que el primer hallazgo era una anomalía.

Una manera de restringir el perjuicio que puede causar la interrupción de un ensayo antes de tiempo es establecer «reglas de interrupción», especificadas antes de su comienzo, calculando cuidadosamente que sean lo bastante estrictas para que no haya posibilidad de que las provoque la variación casual previsible en cualquier ensayo a medida que transcurre el tiempo. La utilidad de estas reglas es que limitan la intrusión del juicio humano que pueda causar un sesgo sistemático.

Siempre que se interrumpa antes de tiempo una intervención médica, lo más probable es que se contaminen los datos. En una revisión de 2010 se recogieron casi 100 ensayos inconclusos y 400 de la misma índole que continuaron su curso natural; en los inconclusos se recogían beneficios mucho mayores y se exageraba la utilidad de los tratamientos en aproximadamente la cuarta parte de ellos[13]. Otra revisión reciente arrojó el resultado de que el número de ensayos interrumpidos antes de tiempo se había duplicado desde 1990[14], lo cual es lamentable. Hay que considerar los resultados de ensayos interrumpidos antes de tiempo con una gran dosis de escepticismo cuando menos, visto, sobre todo, que esas revisiones sistemáticas demuestran que en los ensayos que se interrumpen antes de tiempo muchas veces no se comunican debidamente los motivos.

Y en última instancia, todo esto es más preocupante aún si examinamos qué ensayos se interrumpen antes de tiempo, quiénes los dirigen y para qué se utilizan.

En 2008, cuatro académicos italianos recopilaron todos los ensayos de distribución aleatoria sobre tratamientos de cáncer publicados en los últimos once años, interrumpidos por obtener datos que eran beneficiosos[15]; más de la mitad se habían publicado en los tres años anteriores, lo que daba a entender una vez más que esta modalidad cobra cada vez mayor relevancia. El cáncer es un campo de la medicina rápido y de alta visibilidad, en el que el tiempo es oro y donde los nuevos fármacos consiguen ganancias rápidas. El 86% de los ensayos interrumpidos antes de tiempo se utilizaron para promocionar una aplicación y poner a la venta un nuevo medicamento.

ENSAYOS CLÍNICOS QUE SE PROLONGAN

Sería un error pensar que todos estos casos ilustran transgresiones de simples reglas que deben seguirse sin cuestionarlas, porque un ensayo puede interrumpirse demasiado pronto de forma absurda, pero también puede interrumpirse por razones lógicas. A veces también ocurre lo contrario, y hay casos en que un ensayo se prorroga por motivos completamente válidos, aunque otras, prolongarlo —o incluir en él los resultados de un seguimiento ulterior— diluye importantes hallazgos y los enmascara.

El salmeterol es un inhalador para el tratamiento del asma y del enfisema. Lo que viene a continuación[16] es —si pueden seguir los pormenores técnicos— muy inquietante, así que, como siempre, recuerden que no están leyendo un libro de autoayuda y que en general no contiene consejos sobre si un fármaco es bueno o malo. Estamos examinando métodos erróneos que surgen en los ensayos de toda clase de medicamentos.

El salmeterol es un broncodilatador cuya acción es abrir las vías respiratorias de los pulmones para facilitar la respiración. En 1996 comenzaron a aparecer informes sueltos sobre «broncoespasmo paradójico» por efecto del salmeterol —cuando habría debido ocurrir todo lo contrario—, lo que afectaba gravemente a los pacientes, claro. Los críticos aficionados suelen desdeñar los casos anecdóticos tildándolos de «acientíficos»; craso error, porque los sucesos son una prueba más débil que los ensayos clínicos, pero no dejan de ser útiles y muchas veces constituyen el primer indicio de que algo va mal.

El fabricante del salmeterol, GSK, decidió prudentemente investigar aquellos primeros informes organizando un ensayo aleatorizado en el que se comparó a pacientes medicados con salmeterol inhalado con otros a quienes se les dio un placebo sin principio activo. La principal consecuencia que se pretendía analizar se especificó previa y cuidadosamente como «muertes respiratorias y episodios con riesgo para la vida». Los resultados secundarios fueron muertes relacionadas con el asma (que es un subconjunto de las muertes respiratorias), muertes por todas las causas y «muertes relacionadas con el asma o episodios de riesgo para la vida», también todas reunidas.

Estaba previsto reclutar para el ensayo a 60 000 personas y hacer un seguimiento intensivo durante veintiocho semanas, reconociendo a todos los participantes cada cuatro semanas para comprobar el progreso o los inconvenientes de la medicación. Los seis primeros meses después de ese período de veintiocho semanas se pidió a los investigadores que notificaran cualquier episodio adverso de gravedad del que tuvieran constancia, pero no se esforzaron mucho.

Lo que ocurrió a continuación es deprimente, y quedó expuesto años después en la revista Lancet en un trabajo de Peter Lurie y Sidney Wolfe, basado en documentación de la FDA. En septiembre de 2002 se reunió el comité de vigilancia del ensayo para hacer una valoración de los 26 000 pacientes reclutados hasta entonces, y juzgaron por los resultados obtenidos —«muertes respiratorias y episodios con riesgo para la vida»— que el salmeterol era peor que el placebo, aunque la diferencia no era del todo estadísticamente significativa. Lo mismo ocurrió en el caso de las «muertes relacionadas con el asma». El dictamen que el comité entregó a GSK aconsejaba realizar otro ensayo con 10 000 pacientes para confirmar el preocupante dato, o poner fin al ensayo «con difusión de los resultados lo antes posible». GSK optó por esto último y presentó su análisis provisional en un congreso (comentando que «no eran datos concluyentes»). La FDA, alarmada, cambió el prospecto del fármaco añadiendo: «un aumento modesto pero significativo de muertes relacionadas con el asma».

Y ahora viene lo interesante. GSK envió a la FDA el expediente estadístico del ensayo, pero con cifras no calculadas según el método especificado en el protocolo redactado previo al ensayo, en el que se estipulaba que las cifras resultantes de los episodios adversos deberían computarse del período de veintiocho semanas del ensayo durante el cual, como pueden imaginarse, se vigilaban cuidadosamente tales episodios. Lo que hizo GSK fue entregar las cifras del período de doce meses: no se entregaron ni las veintiocho semanas en que los episodios adversos fueron estrechamente vigilados, ni los seis meses una vez concluido el ensayo en que los episodios adversos se comprobaban aunque no tan rigurosamente. Esto significa que la elevada tasa de episodios adversos de las primeras veintiocho semanas del ensayo quedó diluida en el período ulterior y se enmascaró el problema.

Si observan la tabla adjunta del trabajo de la Lancet advertirán la diferencia que existe. No se preocupen si no lo entienden al dedillo; les doy una explicación fácil sobre el fundamento y otra difícil. «Riesgo relativo» indica la probabilidad existente de sufrir un episodio (como muerte) estando en el grupo medicado con salmeterol, en comparación con el grupo placebo: por tanto, un riesgo relativo de 1,31 significa que existía un 31% más de posibilidades de que se produjese tal episodio (es decir, la «muerte»).

Las cifras entre paréntesis que siguen, el «95% IC», es el «95% del intervalo de confianza», y la cifra simple de riesgo relativo es la «estimación puntual» de la diferencia en riesgo entre los dos grupos (salmeterol y placebo), el 95% de IC nos indica la certidumbre respecto a ese hallazgo. Los especialistas en estadística se pelearían por torpedearme si simplifico la resultante, pero, básicamente, si se lleva a cabo 100 veces el mismo experimento en pacientes de una misma población, se obtendrían resultados ligeramente distintos cada vez por simple azar. Pero en 95 veces de cada 100 el riesgo relativo se sitúa aproximadamente en la mitad de los dos extremos del intervalo de confianza del 95%. Si conocen una manera de explicarlo en cincuenta y cuatro palabras, mi dirección de correo electrónico figura al final del libro.

GSK no notificó a la FDA de qué conjunto de resultados hacía entrega. Solo en 2004, cuando la FDA se lo requirió, contestó diciendo que correspondía a los datos de los doce meses. A la FDA no le pilló por sorpresa, aunque lo expresó en una frase suave: «Esta Sección suponía que los datos representaban [solo] el período de veintiocho semanas, ya que ese período es el plazo clínicamente de interés». Les requirió los datos de las veintiocho semanas y dijo que el prospecto iban a redactarlo de acuerdo con los mismos. Esos datos, como ven, daban una imagen mucho más preocupante sobre el fármaco.

Se tardó un par de años una vez concluido el ensayo en publicar los resultados en una revista académica que leen los médicos. E igualmente se tardó mucho tiempo en incluir en el prospecto del medicamento las conclusiones de ese estudio.

De este caso se extraen dos interesantes lecciones —como señalaron Lurie y Wolfe—. En primer lugar, una empresa tuvo poder para retrasar que llegara a los médicos y a los pacientes la notificación de efectos adversos comprobados, a pesar de que el tratamiento se estaba utilizando ya de forma generalizada y hacía bastante tiempo. Ya hemos visto otros casos. En segundo lugar, nunca se habrían sabido las intervenciones de los comités asesores de la FDA si no se hubieran abierto al menos parcialmente al escrutinio público, porque suelen ser necesarios «muchos ojos» para detectar errores en los datos. Insisto también en que no es el primer caso que vemos.