GSK replicó en Lancet que los datos del período de doce meses eran los únicos analizados por el comité rector del ensayo clínico, una entidad independiente (el ensayo lo dirigió una CRO)[17], y alegó que había comunicado urgentemente los riesgos en una carta enviada a los médicos que prescribían el salmeterol en enero de 2003, en el momento de interrumpir el ensayo, y que en los portales de GSK y de la FDA aparecía una nota similar indicando que había un problema.
ENSAYOS DEMASIADO REDUCIDOS
Un ensayo reducido es aceptable si se demuestra que el fármaco tiene calidad para salvar vidas en una enfermedad decididamente mortal, pero para detectar pequeñas diferencias entre dos tratamientos es imprescindible un ensayo clínico con numerosos participantes, y un ensayo más amplio aún para estar seguro de que dos fármacos tienen la misma eficacia.
Si hay algo que todo el mundo cree saber a propósito de la investigación es que cuanto mayor es el número de participantes mejor es el ensayo clínico. Esto es cierto, pero no es el único factor que debe tenerse en cuenta. Un mayor número de participantes iguala la variación al azar entre ellos. Si se lleva a cabo un pequeño ensayo sobre un fármaco de concentración muy potente con dos grupos de diez personas, si una sola en uno de los grupos ha estado de fiesta la noche anterior antes de la prueba de concentración, su reacción puede alterar los resultados, mientras que si los participantes son muchos, este tipo de discrepancia se disipa solo.
Vale la pena recordar que un ensayo con pocos participantes a veces es adecuado, ya que la magnitud de muestreo necesaria en un ensayo depende de una serie de factores. Por ejemplo, si se trata de una enfermedad en la que cada paciente muere al cabo de un día, y se ensaya un fármaco que se presume que cura esa enfermedad de inmediato, no harán falta muchos participantes para demostrar que el fármaco funciona, mientras que si la diferencia que se intenta detectar entre dos grupos con distinto tratamiento es muy sutil, harán falta muchos más participantes para poder detectar esa pequeña diferencia en contraste con el plano natural cotidiano de la imprevisible variación de salud de cada individuo del ensayo clínico.
En ocasiones aparece un elevado número de ensayos sospechosos publicados sobre un solo fármaco, en cuyo caso es razonable presumir que son simples instrumentos comerciales —un bombardeo publicitario— más que auténticos productos de investigación científica. Veremos un ejemplo aún más atroz de técnicas de mercado en el capítulo correspondiente.
Pero aquí también hay un interesante problema metodológico oculto. Cuando se planea un ensayo para detectar una diferencia entre dos grupos de pacientes, con dos tratamientos distintos, se hace lo que se llama un «cálculo potencial», con el que se obtiene el número de pacientes que serán necesarios para obtener —digamos— un 80% de probabilidades de detectar un auténtico 20% de diferencia en las muertes, dada la frecuencia prevista de muertes entre los participantes. Si finalizados los ensayos no se observa diferencia en las muertes entre los dos tratamientos, quiere decir que no se pueden encontrar pruebas de que uno sea mejor que el otro, lo cual no es lo mismo que demostrar que son equivalentes. Si se quiere poder afirmar que dos tratamientos son equivalentes, por lamentables razones técnicas complicadas de explicar (no tengo más remedio que refrenarme un tanto), se requerirá un número mucho mayor de participantes.
Es algo que suele olvidarse. Por ejemplo, el ensayo IN SIGHT se organizó para comprobar si la nifedipina era mejor que el coamilozide para el tratamiento de la hipertensión. No se pudo demostrar. En su momento, se afirmó que se había observado equivalencia entre los dos fármacos, pero no la había[18]. Muchos académicos y médicos se complacieron en manifestarlo en las cartas que siguieron a aquel estudio.
ENSAYOS EN QUE SE MIDEN RESULTADOS POCO INFORMATIVOS
Los análisis de sangre son un parámetro fácil de medir, y muchas veces reaccionan muy claramente a la dosis de un fármaco, pero a los pacientes les importa más lo que padecen, o la muerte, que los números impresos de un informe de laboratorio.
Esto ya lo hemos tratado en el capítulo anterior, pero vale la pena repetirlo porque no nos cansaremos de insistir sobre las lagunas que ha dejado en nuestro conocimiento clínico la fe ciega en indicadores secundarios injustificados. Se han llevado a cabo ensayos clínicos comparando una estatina con un placebo, demostrándose que efectivamente salvan vidas, y se han realizado también ensayos comparando dos estatinas entre si en los que sin excepción se recurre al colesterol como indicador indirecto; pero nadie ha comparado las estatinas entre sí para medir cuál es la mejor para prevenir la muerte, lo que es una negligencia realmente asombrosa teniendo en cuenta que decenas de millones de personas del planeta han tomado esos fármacos, y durante muchos, muchos años. Con que una de ellas sea solo el 2% mejor que los otros fármacos para prevenir los infartos, ya se evitaría un gran número de muertes cada día de la semana, y se expone a esas decenas de millones de pacientes a un riesgo innecesario por no haber comparado adecuadamente entre sí los fármacos que se les administran. Sin embargo, cada uno de esos pacientes aportaría datos que podrían utilizarse para compilar nuevos conocimientos sobre qué medicamento es el mejor, junto con otros, si se aplicara una distribución aleatoria sistemática y se hiciera un seguimiento de los resultados. Hablaremos más ampliamente de ello al tratar sobre la necesidad de ensayos más amplios y sencillos en el próximo capítulo, ya que no se trata de un problema académico: se pierden vidas por nuestra acrítica aceptación de ensayos en los que no se miden las consecuencias sobre el mundo real.
ENSAYOS QUE AGRUPAN RESULTADOS DE MANERA EXTRAÑA
A veces, la manera en que se reúnen los datos de los resultados obtenidos procura cifras engañosas[19]. Por ejemplo, modificando los umbrales, se transforma un modesto beneficio en algo falsamente espectacular; juntar muchos resultados diversos para obtener un «efecto compuesto» diluye los efectos adversos, y permitir que resultados insólitos sobre consecuencias sin importancia aparezcan consigue a veces mejorar los resultados del estudio.
Aun recopilando datos de resultados totalmente legítimos, el modo en que se agrupan durante el ensayo clínico puede ser engañoso. De ello hay ejemplos sencillos y otros más complicados.
Un burdo ejemplo es el de muchos trabajos (afortunadamente, la mayoría de ellos antiguos) en los que se utilizaba el «método de puntuación de los peores efectos secundarios», que puede ser muy engañoso, ya que se seleccionan los peores efectos secundarios que se han observado en un paciente durante un ensayo, en lugar de la suma de todos los efectos secundarios a lo largo del mismo. En las siguientes gráficas observarán por qué esto plantea un problema, ya que en la gráfica superior se ha hecho que el fármaco parezca tan bueno como el de la gráfica inferior, utilizando ese método de «puntuación del peor efecto secundario», a pesar de que el fármaco de abajo es con toda evidencia mejor en cuanto a efectos secundarios.
También se pueden presentar los datos de forma engañosa eligiendo un segmento de éxitos y coligiendo a partir de ahí el auténtico beneficio del tratamiento, cuando en realidad no es cierto. Por ejemplo, un 10% de reducción en la severidad de síntomas puede definirse como un éxito del ensayo, a pesar de que haya pacientes profundamente discapacitados[20]. Esto es particularmente engañoso si con un tratamiento se logra un beneficio espectacular cuando funciona, y con otro un resultado modesto cuando funciona; si ambos rebasan el arbitrario y modesto umbral de beneficio del 10% en el mismo número de pacientes, de pronto, a un fármaco muy inferior se le hace parecer tan bueno como el mejor de su clase.
También se pueden mezclar muchos resultados distintos para obtener un «resultado compuesto»[21]. Muchas veces es legítimo, pero en ocasiones se sobrestiman los beneficios. Por ejemplo, los infartos, en general, son episodios bastante infrecuentes en la vida real, e igualmente en la mayoría de ensayos con fármacos cardiovasculares, que es la razón de que estos muchas veces tengan que ser estudios de gran amplitud para permitir detectar una diferencia en la tasa de infartos entre los dos grupos. Y por ello es muy corriente observar «resultados importantes cardiovasculares» agrupados. En este «resultado compuesto» se incluyen muertes, infartos y angina de pecho (la angina de pecho, por si no lo saben, es dolor torácico causado por una cardiopatía; es preocupante pero no tanto como un infarto y la muerte). Una impresionante mejora en esa puntuación global puede parecer una notable innovación en cuanto a infartos y muertes, hasta que, bien examinados los datos en bruto, se descubre que apenas hubo infartos ni muertes a lo largo del ensayo, y que lo que realmente se recoge es cierta mejora en la angina de pecho.