Las dudas sobre la relacion del SIDA y el VIH


Damos como verdad aceptada la relacion entre SIDA y la infeccion por VIH. Para algunos investigadores, los menos, esto ya constituye un dogma de fe, algo que atenta contra los principios de la ciencia. Ciertamente el SIDA existe. Pero es el VIH la causa unica del mismo? Los metodos diagnosticos parecen no ser los adecuados, y menos aun los criterios de su interpretacion. Kits de laboratorios que por cierto tambien son producidos por laboratorios que tambien producen medicamentos contra este problema. Africa esta muriendo, pero esta muriendo por VIH, o muere de hambre? Y los datos en paises desarrollados muestran una menor mortalidad por SIDA de la que inicialmente se reporto en EE.UU. Demasiadas dudas. Dudas que si bien para quienes vean este video pueden resultar provocadoras, no lo es si pensamos que solo con la duda podremos obtener la verdad. Quizas sea este el mayor valor que tiene este video.

Las dudas sobre la relacion del SIDA y el VIH


Damos como verdad aceptada la relacion entre SIDA y la infeccion por VIH. Para algunos investigadores, los menos, esto ya constituye un dogma de fe, algo que atenta contra los principios de la ciencia. Ciertamente el SIDA existe. Pero es el VIH la causa unica del mismo? Los metodos diagnosticos parecen no ser los adecuados, y menos aun los criterios de su interpretacion. Kits de laboratorios que por cierto tambien son producidos por laboratorios que tambien producen medicamentos contra este problema. Africa esta muriendo, pero esta muriendo por VIH, o muere de hambre? Y los datos en paises desarrollados muestran una menor mortalidad por SIDA de la que inicialmente se reporto en EE.UU. Demasiadas dudas. Dudas que si bien para quienes vean este video pueden resultar provocadoras, no lo es si pensamos que solo con la duda podremos obtener la verdad. Quizas sea este el mayor valor que tiene este video.

Apuntes sobre subjetividad y estadistica en la investigacion en salud


Luis Carlos Silva Ayçaguer1 y Alina Benavides Rodríguez

Resumen

La tarea más importante de la estadística es proporcionar alternativas cuantitativas objetivas al mero juicio personal, de manera que nos proteja de la subjetividad y los sesgos en el proceso de obtención de nuevos conocimientos. Las pruebas de significación se consideran la expresión más encumbrada de ese afán de objetividad, pues se cree que pueden generar conclusiones independientemente de las personas que las emplean. Este trabajo procura fundamentar que esta es una falsa ilusión y que, en realidad, este enfoque tiene serias limitaciones conceptuales y prácticas que le impiden cumplir cabalmente la tarea que le dio origen, las cuales se tornan cada día más difíciles de soslayar. Lo cierto es que la subjetividad no es enteramente evitable, por lo que resulta mucho más útil contar con un método que combine las evidencias subjetivamente acumuladas, con la información objetiva obtenida de un experimento en particular. Los métodos bayesianos ofrecen esta posibilidad.

DeCS: ESTADÍSTICAS DE SALUD; TEOREMA DE BAYES.

Introducción

La estadística ha sufrido un proceso que pudiéramos llamar de tránsito: de la marginalidad a la cima. Si bien 50 años atrás prácticamente no se utilizaba en las investigaciones médicas, en estos momentos muchos investigadores del ámbito sociológico, salubrista, epidemiológico o clínico sienten que sus trabajos no tienen suficiente rigor científico si no vienen avalados por al menos un proceder estadístico.1 Por su carácter mecanicista, tal doctrina es insostenible, aunque sin duda esta disciplina puede muchas veces ocupar un importante espacio como recurso instrumental para operar en el mundo de la investigación médico-social.

Dicho de manera general, la tarea más importante de la estadística es proporcionar alternativas cuantitativas objetivas al mero juicio personal, que permitan una interpretación adecuada de los datos producidos por los estudios.Este recurso no demoró en resultar extremadamente útil para los editores de revistas y responsables administrativos, pues a principios de siglo la ausencia de una herramienta que aquilatara cuantitativamente el significado de los hallazgos propició que las anécdotas clínicas poblaran las revistas médicas. Se hacía necesario, por tanto, usar procedimientos que cuantificaran el peso probatorio de los resultados y que complementaran los razonamientos verbales, de modo que los protegiera de la subjetividad (Silva LC. La crisis de las pruebas de significación y la alternativa bayesiana. Memorias del XI Congreso de la Sociedad Gallega de Estadística e Investigación Operativa, 1999. Santiago de Compostela).

Lo cierto es que, aunque la objetividad es un deseo natural y legítimo, lamentablemente resulta inalcanzable en estado puro. La estadística no puede resolver este conflicto, pues todo proceso inferencial, incluso cuando se lleva adelante con el concurso de esta disciplina, tendrá siempre un componente subjetivo. Si bien las técnicas estadísticas pueden ser muy útiles, suelen generar una ilusión que es perniciosa en la medida que inyectan una convicción que conspira contra la obligación de examinar la realidad a través de un pensamiento integral. Nuestro propósito es desarrollar algunas ideas en la línea de fundamentarlo.

Inevitabilidad de lo subjetivo

En la investigación médico-social el componente subjetivo es ineludible, y en cierto sentido conveniente. Se supone que, al aplicar cierto procedimiento estadístico a un conjunto de datos, lo que se procura es que el análisis gane en objetividad; es decir, que los puntos de vista del investigador no puedan modificar sustancialmente las conclusiones, pero la verdad es que los métodos estadísticos están lejos de garantizar automáticamente tal desideratum.

Todos sabemos que la forma de operacionalizar las variables, los puntos de corte que se eligen, el nivel de significación empleado, las escalas de medición adoptadas, las pruebas de significación utilizadas, son solo algunos ejemplos de la larga lista de instrumentos estadísticos que no hay más remedio que elegir según un punto de vista que varía entre investigadores. Tal carencia de pautas uniformes es especialmente acusada en el punto culminante del proceso: a la hora de realizar inferencias una vez examinados los resultados. De hecho, cuando un paquete estadístico concluye su tarea, muchos investigadores creen que también ha terminado la suya. Se trata de un error esencial: en ese punto comienza la zona más importante de la tarea del investigador, quien no podrá eludir dar una impronta subjetiva a su análisis.

La creencia en la capacidad de la estadística para inyectar objetividad (e incluso, para garantizarla) tiene sus raíces en los procedimientos de pruebas de significación, ampliamente usados en la investigación médico-social. Sin embargo, como señalan Berger y Berry3 en un revelador artículo publicado hace ya algunos años en una prominente revista especializada, “…el uso común de la estadística parece haberse fosilizado, principalmente debido a la visión de que la estadística clásica es la forma objetiva de analizar datos”.
La prueba de significación ¿paradigma de objetividad?

Sin dudas, su aparición en escena representó un cambio importante con respecto a los métodos anteriores, ya que se trata de un proceder que esencialmente dictaba las acciones del investigador. De hecho, se convirtió en una estrategia ampliamente promovida y aceptada en el ámbito investigativo; tal acogida se debió, probablemente a que, como señala Goudman,4 tanto para los investigadores como para los editores de revistas y responsables administrativos, resulta muy atractivo contar con procedimientos cuantitativos capaces de generar conclusiones independientemente de las personas que realizan el estudio.

Sin embargo, en realidad la prueba de significación actual procede de la unión de dos perspectivas originalmente divergentes, lo cual ha dado lugar a un procedimiento con serias limitaciones conceptuales y prácticas. Como apunta el importante estadístico y epistemólogo norteamericano Richard Royall,2 ni la literatura general ni los programas docentes de estadística informan de sus contradicciones. Tampoco se da cuenta del intenso debate que estas han animado durante casi 70 años entre muchos estadísticos que se cuestionan (o defienden) la “solidez” de las pruebas de significación.5-6

Este escamoteo ha contribuido a abonar en la mayoría de los profesionales sanitarios la errónea convicción de que sus resultados tendrán más rigor científico por el solo hecho de venir acompañados de “valores p”.

El debate en torno a las pruebas de significación en sociología data de la década del 50, pero sus raíces se remontan a un artículo de Margaret Hagood publicado en 1941 bajo el título “Estadística para sociólogos”.7 Desde entonces, muchas observaciones críticas se han venido acumulando, hasta conformar hoy un reclamo metodológico de tal magnitud que cada día se torna más difícil soslayar.

Entre las diversas objeciones que se le hacen al método,8 la que mejor viene al caso es que no toma en cuenta de manera formal en el modelo de análisis, la información anterior a los datos actuales, la que proviene de estudios previos, o de la experiencia empírica informalmente acumulada que siempre se tiene sobre el problema que se examina. Esto supone un vacío de opiniones, una orfandad total de información, que es irreal en la práctica.9

El precio que tenemos que pagar para disfrutar los beneficios de la “objetividad” inherente a estas pruebas es abandonar nuestra capacidad para juzgar presuntas verdades en un estudio individual. En la práctica esto significa que lo único que puede hacerse es comunicar si los resultados son estadísticamente significativos o no, y actuar de acuerdo con ese veredicto. Para algunos, se trata de un hecho profundamente anticientífico y contrario a la intuición. Ello explica que no sea infrecuente hallar trabajos en que el texto analítico que subsigue a la aplicación de la prueba parece desentenderse de las propias reglas que esta impone. Por eso no es extraño leer frases del tipo “aunque la diferencia no es significativa, nótese que…”, o del tipo “no hemos hallado significación, pero con una muestra más grande…”. A este último caso destinamos el siguiente párrafo.

Otras críticas están relacionadas con el procedimiento per se y cuestionan seriamente el carácter objetivo que se les atribuye. La endeblez más grave en este sentido es que, dada la naturaleza de los valores p, el rechazo o la aceptación de una hipótesis resulta ser, simplemente, un reflejo del tamaño de la muestra: si esta es suficientemente grande, siempre se rechazará la hipótesis nula. Esto nos coloca en una aparente paradoja: cuando operamos con una parte muy pequeña de la realidad (una muestra muy pequeña), entonces no podemos obtener conclusión alguna, como es lógico e intuitivo, lo cual conduce a que muchos investigadores, cuyos resultados no alcanzan la esperada significación estadística, proclamen que con un tamaño de muestra mayor casi seguramente lo hubieran logrado. Lamentablemente, y esto es lo realmente grave, tienen razón; pero eso significa que tampoco se puede sacar nada en claro cuando se trabaja con una muestra muy grande, puesto que en tal caso el rechazo de la hipótesis nula queda virtualmente asegurado.10

Por otra parte, para ilustrar el mal uso que se hace del procedimiento, baste reparar en la confusión que se ha establecido entre significación estadística y significación clínica o social. A pesar de que muchos han argüido que la decisión no debe basarse exclusivamente en la significación estadística sino que ha de atenderse también a la significación sustantiva clínica o social, este error se continúa cometiendo. Según Hagood,en la prisa por aplicar las pruebas de significación, los investigadores olvidaron que “significación estadística” es simplemente la base para el rechazo de una hipótesis nula En este sentido, hace más de 15 años Feinstein11 apuntaba:

“Si la demanda crítica hubiera sido que la investigación produjese ambos tipos de significación (la que concierne al área estocástica y la que se vincula con los atributos cualitativos) entonces la alienación intelectual de hoy no hubiera ocurrido. Sin embargo, desafortunadamente la palabra significación fue reservada sólo en su connotación estocástica, y la palabra estadística le fue adjuntada para crear la significación estadística como paradigma de calidad e importancia en la investigación médica…”.

Cohen,12 en un artículo cuyo ingenioso título resume una patética realidad cotidiana, escribía cáusticamente:

“Después de cuatro décadas de duras críticas, el ritual de probar la significación de hipótesis nulas -decisiones dicotómicas mecánicas alrededor del sacralizado criterio de 0,05 -aún persiste. […] ¿Cuál es el problema con las pruebas de significación? Bueno, que entre otras cosas, no nos dicen lo que queremos saber, y deseamos tanto saber que lo que queremos saber es esto, que por desesperación, sin embargo, creemos que lo hace”.

La situación ha llegado a tal punto que en sus recomendaciones de octubre del 2001, el Comité Internacional de Directores de Revistas Médicas (Grupo de Vancouver)13 llega a establecer que: “Se evitará la dependencia exclusiva de las pruebas estadísticas de verificación de hipótesis, tal como el uso de los valores p, que no aportan ninguna información cuantitativa importante” (Comité Internacional de Directores de Revistas Médicas. Octubre, 2001. Requisitos uniformes de los manuscritos enviados a revistas biomédicas).

Pero si la significación estadística no aporta nada cuando no se involucra en el análisis a la significación clínica, entonces el componente subjetivo que se asocia inexorablemente a esta última, mediatiza automáticamente a la primera.

El procedimiento de prueba de significación actual supuso un cambio en materia de autoridad médica, que pasó de estar en manos de aquellos con conocimiento de las bases biológicas y sociales de la medicina a las de quienes dominan los métodos cuantitativos, o hacia los resultados cuantitativos solamente, como si los números pudieran hablar por ellos mismos.14

Lo inquietante en el procedimiento clásico no radica en que la subjetividad desempeñe un papel en el proceso; sino que en lugar de reducir la influencia del componente subjetivo, las pruebas de hipótesis puedan servir en realidad solamente para ocultar su participación.
Métodos bayesianos: una nota final

Lo cierto es que la subjetividad (algo bien diferente a la arbitrariedad o al capricho) es un fenómeno inevitable, especialmente en un marco de incertidumbre como el de las ciencias biológicas y sociales; siempre aparecerá en una u otra medida, e independientemente del recurso estadístico que se emplee. Por tanto, resultaría mucho más útil, además de ser consistente con las demandas de la intuición, contar con un método que combine las evidencias subjetivamente acumuladas con la información objetiva obtenida de un experimento en particular. Los métodos bayesianos ofrecen esta posibilidad.

Si bien la exposición de este recurso exige un nivel teórico que desborda el que consideramos oportuno para estas reflexiones, procede destacar que se trata de una aproximación metodológica que está a salvo de casi todas las impugnaciones que se le hacen a las pruebas de significación y que goza del atractivo de incorporar formal y explícitamente los conocimientos aportados por experiencias previas dentro del proceso analítico y los contempla, por tanto, en las conclusiones.15 Tiene sus propios conflictos, pero ahora interesa subrayar uno de sus méritos indiscutibles: asume sin ambages la existencia de un marco subjetivo ineludible en el análisis y, en lugar de actuar como si no existiera, obligan al investigador a expresar probabilísticamente sus puntos de vista apriorísticos y luego incorpora ese resultado en el análisis formal de los datos. Tal es el planteamiento esencial del ya citado trabajo de Berger y Berrycuando llaman a descartar la noción de que la estadística puede ser incontaminadamente objetiva, y a “abrazar la necesidad de la subjetividad a través del análisis bayesiano, el cual puede conducir a un análisis de datos más flexible, poderoso y comprensible”.

Según nuestro juicio, el proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento natural del científico que el que se vincula con las pruebas clásicas de hipótesis. Estos procedimientos constituyen una tecnología emergente de procesamiento y análisis de la información para la que cabe esperar una presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación empírica contemporánea. Para tener una idea de en qué medida tal expectativa dista de ser un afiebrado deseo, basta detenerse en el elocuente resumen de sus aplicaciones recientemente publicado por David Malakoff15en la prestigiosa revista Science.

Summary

The most important task of statistics is to provide the mere personal judgement with quantitative objective alternatives in order to protect us from subjectivity and the sesgos in the process of obtention of new knowledge. The significance tests are considered the highest expression of this eagerness of objectivity, since it is believed that they may generate conclusions independently of the persons using them. This paper intends to establish that it is a false illusion and that, in reality, this approach has serious conceptual and practical limitations preventing it from fulfilling precisely the task that gave origin to it and which are more difficult every day to be ignored. It is true that subjectivity cannot be completely avoided and that’s why it is more useful to have a method combining the subjectively accumulated evidences with the objective information obtained from an experiment in particular. Bayes’ methods offer this possibility.

Subject headings: HEALTH STATISTICS; BAYES THEOREM.

Referencias bibliográcas

  1. Silva LC. Cultura estadística e investigaciones en el campo de la salud: una mirada critica. Madrid: Díaz de Santos; 1997.         [ Links ]
  2. Royall RM. Statistical evidence: a likelihood paradigm. Boca Raton: Chapman & Hall/CRC; 1997.         [ Links ]
  3. Berger JO, Berry DA. Statistical analysis and the illusion of objectivity. Am Scientist 1988;76:159-65.         [ Links ]
  4. Goodman SN. Toward evidence-based medical statistics (I): The p value fallacy”. Ann Int Med 1999;130:995-1004.         [ Links ]
  5. Morrison DE, Henkel RE. The Significance test controversy -A Reader. Chicago: Aldine Publishing Company; 1970.         [ Links ]
  6. Nickerson RS. Null hypothesis significance testing: a review of an old and continuing controversy. Psychol Methods 2000;5:241-301.         [ Links ]
  7. Hagood MJ. Statistics for sociologists. New York: Reynal and Hitchcock; 1941.         [ Links ]
  8. Silva LC. La alternativa bayesiana. Brotes 2000;1:1-4.         [ Links ]
  9. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gaceta Sanit 2001;15:341-6.         [ Links ]
  10. Benavides A, Silva LC. Contra la sumisión estadística: un apunte sobre las pruebas de significación. Metas Enferm 2000;3:35-40.         [ Links]
  11. Feinstein AR. Clinical epidemiology: The architecture of clinical research. Philadelphia: W.B. Saunders Company; 1985.         [ Links ]
  12. Cohen J. The earth is round (p<.05). Am Psychol 1994;49:997-1003.         [ Links ]
  13. Silva LC. Hacia una cultura epidemiológica revitalizada. Dimensión Hum 1997;1(5):23-33.         [ Links ]
  14. Silva LC, Suárez P. ¿Qué es la inferencia bayesiana?. JANO, Med Hum 2000;58(1338):65-6.         [ Links ]
  15. Malakoff D. Bayes offers a ‘new’ way to make sense of numbers. Science 1999;286:1460-4.
  16. Links ]

Recibido: 8 de enero del 2003. Aprobado: 29 de enero del 2003.
Luis Carlos Silva Ayzaguer. Vicerrectoría de Investigación y Posgrado, Instituto Superior de Ciencias Médicas de La Habana. E-mail:lcsilva@infomed.sld.cu

Doctor en Ciencias. Investigador Titular, Profesor Auxiliar. Vicerrectoría de Investigación y Posgrado.
Especialista de I Grado en Bioestadística. Hospital Universitario “Arnaldo Milián Castro”, Villa Clara. 

Apuntes sobre subjetividad y estadistica en la investigacion en salud


Luis Carlos Silva Ayçaguer1 y Alina Benavides Rodríguez

Resumen

La tarea más importante de la estadística es proporcionar alternativas cuantitativas objetivas al mero juicio personal, de manera que nos proteja de la subjetividad y los sesgos en el proceso de obtención de nuevos conocimientos. Las pruebas de significación se consideran la expresión más encumbrada de ese afán de objetividad, pues se cree que pueden generar conclusiones independientemente de las personas que las emplean. Este trabajo procura fundamentar que esta es una falsa ilusión y que, en realidad, este enfoque tiene serias limitaciones conceptuales y prácticas que le impiden cumplir cabalmente la tarea que le dio origen, las cuales se tornan cada día más difíciles de soslayar. Lo cierto es que la subjetividad no es enteramente evitable, por lo que resulta mucho más útil contar con un método que combine las evidencias subjetivamente acumuladas, con la información objetiva obtenida de un experimento en particular. Los métodos bayesianos ofrecen esta posibilidad.

DeCS: ESTADÍSTICAS DE SALUD; TEOREMA DE BAYES.

Introducción

La estadística ha sufrido un proceso que pudiéramos llamar de tránsito: de la marginalidad a la cima. Si bien 50 años atrás prácticamente no se utilizaba en las investigaciones médicas, en estos momentos muchos investigadores del ámbito sociológico, salubrista, epidemiológico o clínico sienten que sus trabajos no tienen suficiente rigor científico si no vienen avalados por al menos un proceder estadístico.1 Por su carácter mecanicista, tal doctrina es insostenible, aunque sin duda esta disciplina puede muchas veces ocupar un importante espacio como recurso instrumental para operar en el mundo de la investigación médico-social.

Dicho de manera general, la tarea más importante de la estadística es proporcionar alternativas cuantitativas objetivas al mero juicio personal, que permitan una interpretación adecuada de los datos producidos por los estudios.Este recurso no demoró en resultar extremadamente útil para los editores de revistas y responsables administrativos, pues a principios de siglo la ausencia de una herramienta que aquilatara cuantitativamente el significado de los hallazgos propició que las anécdotas clínicas poblaran las revistas médicas. Se hacía necesario, por tanto, usar procedimientos que cuantificaran el peso probatorio de los resultados y que complementaran los razonamientos verbales, de modo que los protegiera de la subjetividad (Silva LC. La crisis de las pruebas de significación y la alternativa bayesiana. Memorias del XI Congreso de la Sociedad Gallega de Estadística e Investigación Operativa, 1999. Santiago de Compostela).

Lo cierto es que, aunque la objetividad es un deseo natural y legítimo, lamentablemente resulta inalcanzable en estado puro. La estadística no puede resolver este conflicto, pues todo proceso inferencial, incluso cuando se lleva adelante con el concurso de esta disciplina, tendrá siempre un componente subjetivo. Si bien las técnicas estadísticas pueden ser muy útiles, suelen generar una ilusión que es perniciosa en la medida que inyectan una convicción que conspira contra la obligación de examinar la realidad a través de un pensamiento integral. Nuestro propósito es desarrollar algunas ideas en la línea de fundamentarlo.

Inevitabilidad de lo subjetivo

En la investigación médico-social el componente subjetivo es ineludible, y en cierto sentido conveniente. Se supone que, al aplicar cierto procedimiento estadístico a un conjunto de datos, lo que se procura es que el análisis gane en objetividad; es decir, que los puntos de vista del investigador no puedan modificar sustancialmente las conclusiones, pero la verdad es que los métodos estadísticos están lejos de garantizar automáticamente tal desideratum.

Todos sabemos que la forma de operacionalizar las variables, los puntos de corte que se eligen, el nivel de significación empleado, las escalas de medición adoptadas, las pruebas de significación utilizadas, son solo algunos ejemplos de la larga lista de instrumentos estadísticos que no hay más remedio que elegir según un punto de vista que varía entre investigadores. Tal carencia de pautas uniformes es especialmente acusada en el punto culminante del proceso: a la hora de realizar inferencias una vez examinados los resultados. De hecho, cuando un paquete estadístico concluye su tarea, muchos investigadores creen que también ha terminado la suya. Se trata de un error esencial: en ese punto comienza la zona más importante de la tarea del investigador, quien no podrá eludir dar una impronta subjetiva a su análisis.

La creencia en la capacidad de la estadística para inyectar objetividad (e incluso, para garantizarla) tiene sus raíces en los procedimientos de pruebas de significación, ampliamente usados en la investigación médico-social. Sin embargo, como señalan Berger y Berry3 en un revelador artículo publicado hace ya algunos años en una prominente revista especializada, “…el uso común de la estadística parece haberse fosilizado, principalmente debido a la visión de que la estadística clásica es la forma objetiva de analizar datos”.
La prueba de significación ¿paradigma de objetividad?

Sin dudas, su aparición en escena representó un cambio importante con respecto a los métodos anteriores, ya que se trata de un proceder que esencialmente dictaba las acciones del investigador. De hecho, se convirtió en una estrategia ampliamente promovida y aceptada en el ámbito investigativo; tal acogida se debió, probablemente a que, como señala Goudman,4 tanto para los investigadores como para los editores de revistas y responsables administrativos, resulta muy atractivo contar con procedimientos cuantitativos capaces de generar conclusiones independientemente de las personas que realizan el estudio.

Sin embargo, en realidad la prueba de significación actual procede de la unión de dos perspectivas originalmente divergentes, lo cual ha dado lugar a un procedimiento con serias limitaciones conceptuales y prácticas. Como apunta el importante estadístico y epistemólogo norteamericano Richard Royall,2 ni la literatura general ni los programas docentes de estadística informan de sus contradicciones. Tampoco se da cuenta del intenso debate que estas han animado durante casi 70 años entre muchos estadísticos que se cuestionan (o defienden) la “solidez” de las pruebas de significación.5-6

Este escamoteo ha contribuido a abonar en la mayoría de los profesionales sanitarios la errónea convicción de que sus resultados tendrán más rigor científico por el solo hecho de venir acompañados de “valores p”.

El debate en torno a las pruebas de significación en sociología data de la década del 50, pero sus raíces se remontan a un artículo de Margaret Hagood publicado en 1941 bajo el título “Estadística para sociólogos”.7 Desde entonces, muchas observaciones críticas se han venido acumulando, hasta conformar hoy un reclamo metodológico de tal magnitud que cada día se torna más difícil soslayar.

Entre las diversas objeciones que se le hacen al método,8 la que mejor viene al caso es que no toma en cuenta de manera formal en el modelo de análisis, la información anterior a los datos actuales, la que proviene de estudios previos, o de la experiencia empírica informalmente acumulada que siempre se tiene sobre el problema que se examina. Esto supone un vacío de opiniones, una orfandad total de información, que es irreal en la práctica.9

El precio que tenemos que pagar para disfrutar los beneficios de la “objetividad” inherente a estas pruebas es abandonar nuestra capacidad para juzgar presuntas verdades en un estudio individual. En la práctica esto significa que lo único que puede hacerse es comunicar si los resultados son estadísticamente significativos o no, y actuar de acuerdo con ese veredicto. Para algunos, se trata de un hecho profundamente anticientífico y contrario a la intuición. Ello explica que no sea infrecuente hallar trabajos en que el texto analítico que subsigue a la aplicación de la prueba parece desentenderse de las propias reglas que esta impone. Por eso no es extraño leer frases del tipo “aunque la diferencia no es significativa, nótese que…”, o del tipo “no hemos hallado significación, pero con una muestra más grande…”. A este último caso destinamos el siguiente párrafo.

Otras críticas están relacionadas con el procedimiento per se y cuestionan seriamente el carácter objetivo que se les atribuye. La endeblez más grave en este sentido es que, dada la naturaleza de los valores p, el rechazo o la aceptación de una hipótesis resulta ser, simplemente, un reflejo del tamaño de la muestra: si esta es suficientemente grande, siempre se rechazará la hipótesis nula. Esto nos coloca en una aparente paradoja: cuando operamos con una parte muy pequeña de la realidad (una muestra muy pequeña), entonces no podemos obtener conclusión alguna, como es lógico e intuitivo, lo cual conduce a que muchos investigadores, cuyos resultados no alcanzan la esperada significación estadística, proclamen que con un tamaño de muestra mayor casi seguramente lo hubieran logrado. Lamentablemente, y esto es lo realmente grave, tienen razón; pero eso significa que tampoco se puede sacar nada en claro cuando se trabaja con una muestra muy grande, puesto que en tal caso el rechazo de la hipótesis nula queda virtualmente asegurado.10

Por otra parte, para ilustrar el mal uso que se hace del procedimiento, baste reparar en la confusión que se ha establecido entre significación estadística y significación clínica o social. A pesar de que muchos han argüido que la decisión no debe basarse exclusivamente en la significación estadística sino que ha de atenderse también a la significación sustantiva clínica o social, este error se continúa cometiendo. Según Hagood,en la prisa por aplicar las pruebas de significación, los investigadores olvidaron que “significación estadística” es simplemente la base para el rechazo de una hipótesis nula En este sentido, hace más de 15 años Feinstein11 apuntaba:

“Si la demanda crítica hubiera sido que la investigación produjese ambos tipos de significación (la que concierne al área estocástica y la que se vincula con los atributos cualitativos) entonces la alienación intelectual de hoy no hubiera ocurrido. Sin embargo, desafortunadamente la palabra significación fue reservada sólo en su connotación estocástica, y la palabra estadística le fue adjuntada para crear la significación estadística como paradigma de calidad e importancia en la investigación médica…”.

Cohen,12 en un artículo cuyo ingenioso título resume una patética realidad cotidiana, escribía cáusticamente:

“Después de cuatro décadas de duras críticas, el ritual de probar la significación de hipótesis nulas -decisiones dicotómicas mecánicas alrededor del sacralizado criterio de 0,05 -aún persiste. […] ¿Cuál es el problema con las pruebas de significación? Bueno, que entre otras cosas, no nos dicen lo que queremos saber, y deseamos tanto saber que lo que queremos saber es esto, que por desesperación, sin embargo, creemos que lo hace”.

La situación ha llegado a tal punto que en sus recomendaciones de octubre del 2001, el Comité Internacional de Directores de Revistas Médicas (Grupo de Vancouver)13 llega a establecer que: “Se evitará la dependencia exclusiva de las pruebas estadísticas de verificación de hipótesis, tal como el uso de los valores p, que no aportan ninguna información cuantitativa importante” (Comité Internacional de Directores de Revistas Médicas. Octubre, 2001. Requisitos uniformes de los manuscritos enviados a revistas biomédicas).

Pero si la significación estadística no aporta nada cuando no se involucra en el análisis a la significación clínica, entonces el componente subjetivo que se asocia inexorablemente a esta última, mediatiza automáticamente a la primera.

El procedimiento de prueba de significación actual supuso un cambio en materia de autoridad médica, que pasó de estar en manos de aquellos con conocimiento de las bases biológicas y sociales de la medicina a las de quienes dominan los métodos cuantitativos, o hacia los resultados cuantitativos solamente, como si los números pudieran hablar por ellos mismos.14

Lo inquietante en el procedimiento clásico no radica en que la subjetividad desempeñe un papel en el proceso; sino que en lugar de reducir la influencia del componente subjetivo, las pruebas de hipótesis puedan servir en realidad solamente para ocultar su participación.
Métodos bayesianos: una nota final

Lo cierto es que la subjetividad (algo bien diferente a la arbitrariedad o al capricho) es un fenómeno inevitable, especialmente en un marco de incertidumbre como el de las ciencias biológicas y sociales; siempre aparecerá en una u otra medida, e independientemente del recurso estadístico que se emplee. Por tanto, resultaría mucho más útil, además de ser consistente con las demandas de la intuición, contar con un método que combine las evidencias subjetivamente acumuladas con la información objetiva obtenida de un experimento en particular. Los métodos bayesianos ofrecen esta posibilidad.

Si bien la exposición de este recurso exige un nivel teórico que desborda el que consideramos oportuno para estas reflexiones, procede destacar que se trata de una aproximación metodológica que está a salvo de casi todas las impugnaciones que se le hacen a las pruebas de significación y que goza del atractivo de incorporar formal y explícitamente los conocimientos aportados por experiencias previas dentro del proceso analítico y los contempla, por tanto, en las conclusiones.15 Tiene sus propios conflictos, pero ahora interesa subrayar uno de sus méritos indiscutibles: asume sin ambages la existencia de un marco subjetivo ineludible en el análisis y, en lugar de actuar como si no existiera, obligan al investigador a expresar probabilísticamente sus puntos de vista apriorísticos y luego incorpora ese resultado en el análisis formal de los datos. Tal es el planteamiento esencial del ya citado trabajo de Berger y Berrycuando llaman a descartar la noción de que la estadística puede ser incontaminadamente objetiva, y a “abrazar la necesidad de la subjetividad a través del análisis bayesiano, el cual puede conducir a un análisis de datos más flexible, poderoso y comprensible”.

Según nuestro juicio, el proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento natural del científico que el que se vincula con las pruebas clásicas de hipótesis. Estos procedimientos constituyen una tecnología emergente de procesamiento y análisis de la información para la que cabe esperar una presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación empírica contemporánea. Para tener una idea de en qué medida tal expectativa dista de ser un afiebrado deseo, basta detenerse en el elocuente resumen de sus aplicaciones recientemente publicado por David Malakoff15en la prestigiosa revista Science.

Summary

The most important task of statistics is to provide the mere personal judgement with quantitative objective alternatives in order to protect us from subjectivity and the sesgos in the process of obtention of new knowledge. The significance tests are considered the highest expression of this eagerness of objectivity, since it is believed that they may generate conclusions independently of the persons using them. This paper intends to establish that it is a false illusion and that, in reality, this approach has serious conceptual and practical limitations preventing it from fulfilling precisely the task that gave origin to it and which are more difficult every day to be ignored. It is true that subjectivity cannot be completely avoided and that’s why it is more useful to have a method combining the subjectively accumulated evidences with the objective information obtained from an experiment in particular. Bayes’ methods offer this possibility.

Subject headings: HEALTH STATISTICS; BAYES THEOREM.

Referencias bibliográcas

  1. Silva LC. Cultura estadística e investigaciones en el campo de la salud: una mirada critica. Madrid: Díaz de Santos; 1997.         [ Links ]
  2. Royall RM. Statistical evidence: a likelihood paradigm. Boca Raton: Chapman & Hall/CRC; 1997.         [ Links ]
  3. Berger JO, Berry DA. Statistical analysis and the illusion of objectivity. Am Scientist 1988;76:159-65.         [ Links ]
  4. Goodman SN. Toward evidence-based medical statistics (I): The p value fallacy”. Ann Int Med 1999;130:995-1004.         [ Links ]
  5. Morrison DE, Henkel RE. The Significance test controversy -A Reader. Chicago: Aldine Publishing Company; 1970.         [ Links ]
  6. Nickerson RS. Null hypothesis significance testing: a review of an old and continuing controversy. Psychol Methods 2000;5:241-301.         [ Links ]
  7. Hagood MJ. Statistics for sociologists. New York: Reynal and Hitchcock; 1941.         [ Links ]
  8. Silva LC. La alternativa bayesiana. Brotes 2000;1:1-4.         [ Links ]
  9. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gaceta Sanit 2001;15:341-6.         [ Links ]
  10. Benavides A, Silva LC. Contra la sumisión estadística: un apunte sobre las pruebas de significación. Metas Enferm 2000;3:35-40.         [ Links]
  11. Feinstein AR. Clinical epidemiology: The architecture of clinical research. Philadelphia: W.B. Saunders Company; 1985.         [ Links ]
  12. Cohen J. The earth is round (p<.05). Am Psychol 1994;49:997-1003.         [ Links ]
  13. Silva LC. Hacia una cultura epidemiológica revitalizada. Dimensión Hum 1997;1(5):23-33.         [ Links ]
  14. Silva LC, Suárez P. ¿Qué es la inferencia bayesiana?. JANO, Med Hum 2000;58(1338):65-6.         [ Links ]
  15. Malakoff D. Bayes offers a ‘new’ way to make sense of numbers. Science 1999;286:1460-4.
  16. Links ]

Recibido: 8 de enero del 2003. Aprobado: 29 de enero del 2003.
Luis Carlos Silva Ayzaguer. Vicerrectoría de Investigación y Posgrado, Instituto Superior de Ciencias Médicas de La Habana. E-mail:lcsilva@infomed.sld.cu

Doctor en Ciencias. Investigador Titular, Profesor Auxiliar. Vicerrectoría de Investigación y Posgrado.
Especialista de I Grado en Bioestadística. Hospital Universitario “Arnaldo Milián Castro”, Villa Clara. 

Principios Basicos de la Investigacion Clinica


En la barra lateral podemos acceder a un excelente documento sobre principios basicos de la investigacion clinica de Joan Ramon Laporte, Instituto Catalan de Farmacologia: http://www.icf.uab.es/llibre/llibre.htm

Sin desperdicios y aprovecharlo!!!!!! 

Principios Basicos de la Investigacion Clinica


En la barra lateral podemos acceder a un excelente documento sobre principios basicos de la investigacion clinica de Joan Ramon Laporte, Instituto Catalan de Farmacologia: http://www.icf.uab.es/llibre/llibre.htm

Sin desperdicios y aprovecharlo!!!!!! 

Curso de introducción a la investigación clínica. Capítulo 5: Seleccion de la muestra: tecnicas de muestreo y tamaño muestral


Curso de introducción a la investigación clínica. Capítulo 5: Selección de la muestra: técnicas de muestreo y tamaño muestral

T Seoanea JLR Martínb E Martín-Sánchezc S Lurueña-Segoviad FJ Alonso Morenoe

aÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo.
bÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. Unidad de Investigación Aplicada. Hospital Nacional de Parapléjicos. Toledo.
cÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo.
dÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. FENNSI Group. Fundación Hospital Nacional de Parapléjicos. Toledo.
eCentro de Salud Sillería. Toledo. Responsable de Investigación de Semergen.

Para realizar un proyecto de investigación debemos obtener datos de la población objetivo, que se define como el conjunto de elementos del cual se quiere conocer cierto aspecto. En algunos estudios cada elemento de la población puede ser medido realmente, lo cual es posible solamente si la población no es muy numerosa y si todos los elementos son accesibles. Pero lo habitual es que el estudio completo de la población sea inviable, ya que el trabajo empírico necesario es costoso e implica mucho tiempo y recursos.

Para obtener resultados confiables no es necesario obtener los datos de todos los elementos poblacionales, es suficiente recoger las variables de un subconjunto de elementos denominado muestra. El estudio tendrá la validez y la fiabilidad necesarias si este subconjunto es representativo de la población objetivo y los resultados obtenidos son extrapolables a la misma.

Existen distintas técnicas o procedimientos para seleccionar la muestra, dependiendo del tiempo, de los recursos económicos y de la naturaleza de los elementos poblacionales. El conjunto de estas técnicas se denomina muestreo.

En el diseño del estudio se debe definir el tamaño muestral necesario; su cálculo está relacionado con ciertos problemas que estudia la Inferencia Estadística y que permitirán extraer conclusiones científicamente válidas a la población.

Palabras clave: población, muestra, muestreo, tamaño muestral, estimación.

Fuente: Rev. SEMERGEN – Miércoles 1 Agosto 2007. Volumen 33 – Número 07 p. 356 – 361 Continue reading Curso de introducción a la investigación clínica. Capítulo 5: Seleccion de la muestra: tecnicas de muestreo y tamaño muestral

Dictionary for Clinical Trials


Book Description:

As a result of the expansion in the area of pharmaceutical medicine there is an ever-increasing need for educational resources. The Dictionary of Clinical Trials, Second Edition comprehensively explains the 3000 words and short phrases commonly used when designing, running, analysing and reporting clinical trials.
This book is a quick, pocket reference tool to understand the common and less well-used terms within the discipline of clinical trials, and provides an alternative to the textbooks available. Terms are heavily cross-referenced, which helps the reader to understand how terms fit into the broad picture of clinical trials.
Wide ranging, brief, pragmatic explanations of clinical trial terminology Scope includes medical, statistical, epidemiological, ethical, regulatory and data management terminology Thoroughly revised and expanded – increase of 280 terms from First Edition, reference to Cochrane included

# Publisher: Wiley
# Number Of Pages: 262
# Publication Date: 2007-06-11
# ISBN / ASIN: 0470058161
# EAN: 9780470058169

Format: PDF
1.8 MB rar

Download

Ensayos clinicos


Click here to read
Assessing the quality of reports of randomized clinical trials: is blinding necessary?

Jadad AR, Moore RA, Carroll D, Jenkinson C, Reynolds DJ, Gavaghan DJ, McQuay HJ.

Oxford Regional Pain Relief Unit, University of Oxford, UK.

It has been suggested that the quality of clinical trials should be assessed by blinded raters to limit the risk of introducing bias into meta-analyses and systematic reviews, and into the peer-review process. There is very little evidence in the literature to substantiate this. This study describes the development of an instrument to assess the quality of reports of randomized clinical trials (RCTs) in pain research and its use to determine the effect of rater blinding on the assessments of quality. A multidisciplinary panel of six judges produced an initial version of the instrument. Fourteen raters from three different backgrounds assessed the quality of 36 research reports in pain research, selected from three different samples. Seven were allocated randomly to perform the assessments under blind conditions. The final version of the instrument included three items. These items were scored consistently by all the raters regardless of background and could discriminate between reports from the different samples. Blind assessments produced significantly lower and more consistent scores than open assessments. The implications of this finding for systematic reviews, meta-analytic research and the peer-review process are discussed.

Publication Types:

PMID: 8721797 [PubMed – indexed for MEDLINE]

Calidad de un estudio: escala de Jadad


Quality of Study:
A numerical score between 0-5 is assigned as a rough measure of study design/reporting quality (0 being weakest and 5 being strongest). This number is based on a well-established, validated scale developed by Jadad et al. (Jadad AR, Moore RA, Carroll D, et al. Assessing the quality of reports of randomized clinical trials: is blinding necessary? Controlled Clinical Trials 1996;17[1]:1-12). This calculation does not account for all study elements that may be used to assess quality (other aspects of study design/reporting are addressed in the “Evidence Discussion” sections of monographs).

  • A Jadad score is calculated using the seven items in the table below. The first five items are indications of good quality, and each counts as one point towards an overall quality score. The final two items indicate poor quality, and a point is subtracted for each if its criteria are met. The range of possible scores is 0 to 5.

Jadad Score Calculation  
Item Score
Was the study described as randomized (this includes words such as randomly, random, and randomization)?
0/1
Was the method used to generate the sequence of randomization described and appropriate (table of random numbers, computer-generated, etc)?
0/1
Was the study described as double blind?
0/1
Was the method of double blinding described and appropriate (identical placebo, active placebo, dummy, etc)?
0/1
Was there a description of withdrawals and dropouts?
0/1
Deduct one point if the method used to generate the sequence of randomization was described and it was inappropriate (patients were allocated alternately, or according to date of birth, hospital number, etc).
0/-1
Deduct one point if the study was described as double blind but the method of blinding was inappropriate (e.g., comparison of tablet vs. injection with no double dummy).
0/-1

P = pending verification.

Magnitude of Benefit:
This summarizes how strong a benefit is: small, medium, large, or none. If results are not statistically significant “NA” for “not applicable” is entered. In order to be consistent in defining small, medium, and large benefits across different studies and monographs,
Natural Standard defines the magnitude of benefit in terms of the standard deviation (SD) of the outcome measure. Specifically, the benefit is considered:

  • Large: if >1 SD
  • Medium: if 0.5 to 0.9 SD
  • Small: if 0.2 to 0.4 SD

P = pending verification.In many cases, studies do not report the standard deviation of change of the outcome measure. However, the change in the standard deviation of the outcome measure (also known as effect size) can be calculated, and is derived by subtracting the mean (or mean difference) in the placebo/control group from the mean (or mean difference) in the treatment group, and dividing that quantity by the pooled standard deviation (Effect size=[Mean Treatment – Mean Placebo]/SDp).

Pruebas autenticas de los tratamientos en la atencion medica


Fuente: James Lind Library

Enlace publicado en la lista MEDFAM-APS. Altamente recomendable su lectura. Gracias Vicente Baigorria Rubio.
Pruebas auténticas de los tratamientos en la atención médica

Durante el último medio siglo, la atención médica ha tenido un impacto substancial sobre las oportunidades que la gente tiene para vivir más tiempo sin padecer graves problemas de salud. Se ha calculado que la atención médica ha sido responsable de un tercio a la mitad del aumento producido en la expectativa de vida y de cinco años más de vida libres de problemas crónicos de salud (Bunker et al. 1994). Aún así, el público podría haber obtenido —y aún puede obtener— un valor muy superior por los recursos substanciales invertidos en la investigación orientada a mejorar la salud. Agreguemos, también, que podrían haberse prevenido algunos de los desastres causados por los tratamientos en el pasado y que otros podrían prevenirse en el futuro.

The James Lind Library ha sido creada para mejorar el entendimiento general de las pruebas auténticas de los tratamientos que atañen a la atención médica y de cómo estos tratamientos han evolucionado con el tiempo.

Son frecuentes las reivindicaciones engañosas respecto de los efectos de los tratamientos, por lo tanto, todos deberíamos entender de qué manera se generan afirmaciones válidas respecto de esos efectos. Sin este conocimiento, corremos el riesgo de llegar a la conclusión de que los tratamientos inútiles son provechosos o que los tratamientos útiles son infructuosos.

Las pruebas auténticas de los tratamientos son pruebas que, al reducir las influencias engañosas de los prejuicios y de la obra de la casualidad, toman las medidas necesarias para obtener información confiable sobre los efectos del tratamiento. Cuando esta necesidad de pruebas auténticas de los tratamientos se deja de lado, las personas sufren y mueren innecesariamente.

Los ensayos explicativos con que cuenta The James Lind Library se han escrito para que se comprenda mejor el por qué de la necesidad de pruebas auténticas de los tratamientos y en qué consisten dichas pruebas. Usted puede acceder a cada ensayo haciendo clic en las palabras subrayadas, abajo, o puede seleccionarlas de la pantalla de Contenido. Si desea bajar todos los ensayos, de manera que pueda imprimirlos para leerlos fuera de la pantalla, haga clic aquí.

Es necesario realizar pruebas auténticas porque existen muchos ejemplos de personas que han resultado dañadas, sin intención, cuando las decisiones que atañen al tratamiento no tomaron en cuenta evidencia confiable.

Los principios que gobiernan las pruebas auténticas han ido evolucionando durante al menos un milenio, y continúan haciéndolo.

Para trabajar sobre una genuina incertidumbre sobre los efectos de un tratamiento es esencial hacer comparaciones. Las comparaciones auténticas de los tratamientos deben evitar los prejuicios o sesgos, ya sea que provengan de diferencias entre las personas que se comparan o de las diferencias en la forma en que se evalúan los resultados del tratamiento. La identificación confiable de efectos no previstos de los tratamientos presenta particulares desafíos.

Interpretar las comparaciones no prejuiciosas no siempre es sencillo. En ocasiones los efectos del tratamiento se pasan por alto porque existen diferencias entre el tratamiento que se pretende administrar y el tratamiento recibido. La obra de la casualidad también puede engañarnos.

Las pruebas auténticas de los tratamientos deben tener en cuenta toda la evidencia pertinente. Preparar revisiones sistemáticas de toda la evidencia pertinente significa minimizar el impacto de los informes prejuiciosos y minimizar también los sesgos en la selección de la evidencia disponible. Un proceso estadístico denominado metanálisis puede ayudarnos a impedir que la obra de la casualidad nos engañe al hacer las revisiones sistemáticas .

Para realizar pruebas auténticas de los tratamientos en la atención médica se necesitan revisiones sistemáticas actualizadas de toda la evidencia pertinente y confiable. No obstante, aún con revisiones sistemáticas actualizadas, es importante estar atento a las tendencias y a los “giros” que pueden hacer que distintas revisiones del mismo tema lleguen a conclusiones conflictivas.

En resumen, The James Lind Library contiene los siguientes ensayos:

Por qué se necesitan pruebas auténticas

Por qué son esenciales las comparaciones

Por qué las comparaciones deben abordar una incertidumbre genuina

Cómo evitar los sesgos en las comparaciones

Diferencias entre las personas comparadas

Diferencias en la manera en que se evalúan los resultados de los tratamientos

Interpretación de comparaciones no prejuiciosas

Diferencias entre el tratamiento que se pretende administrar y el que realmente se recibe

Cómo considerar la obra de la casualidad

Identificación de los efectos no previstos de los tratamientos

Revisiones sistemáticas de toda la evidencia pertinente

Cómo manejar los sesgos en los informes de la evidencia disponible

Cómo evitar los sesgos en la selección de la evidencia disponible

Cómo reducir la obra de la casualidad a través del metanálisis

Revisiones sistemáticas actualizadas de toda la evidencia pertinente y confiable

Estos ensayos explicativos se basan en un valioso material ilustrativo incluido en The James Lind Library, al que se puede acceder haciendo clic en los enlaces subrayados o en las imágenes de los ensayos.

El texto incluido en estos ensayos puede copiarse y utilizarse con fines no comerciales, con la condición de que se haga un reconocimiento explícito a “The James Lind Library (www.jameslindlibrary.org)”.

El material que contienen estos ensayos también se ha incorporado en Testing Treatments: better research for better health care’ (Prueba de los tratamientos: mejor investigación para una salud mejor), de Evans, Thornton y Chalmers, un libro de 100 páginas que la British Library publicó en 2006. ISBN 0-7123-4909-X.

better research for better health care

Cita: Editorial commentary (2007). Pruebas auténticas de los tratamientos en la atención médica. The James Lind Library (www.jameslindlibrary.org).

Siguiente ensayo:

Por qué se necesitan pruebas auténticas
Seleccione un ensayo:
Por qué se necesitan pruebas auténticas Por qué son esenciales las comparaciones Por qué las comparaciones deben abordar una incertidumbre genuina Cómo evitar los sesgos en las comparaciones Diferencias entre las personas comparadas Diferencias en la manera en que se evalúan los resultados de los tratamientos Interpretación de comparaciones no prejuiciosas Diferencias entre el tratamiento que se pretende administrar y el que realmente se recibe Cómo considerar la obra de la casualidad Identificación de los efectos no previstos de los tratamientos Revisiones sistemáticas de toda la evidencia pertinente Cómo manejar los sesgos en los informes de la evidencia disponible Cómo evitar los sesgos en la selección de la evidencia disponible Cómo reducir la obra de la casualidad a través del metanálisis Revisiones sistemáticas actualizadas de toda la evidencia pertinente y confiable  

Curso de introducción a la investigación clínica. Capítulo 4: El ensayo clínico. Metodología de calidad y bioética


Curso de introducción a la investigación clínica. Capítulo 4: El ensayo clínico. Metodología de calidad y bioética

E Martín-Sáncheza JL R Martínb T Seoanec S Lurueña-Segoviad FJ Alonso Morenoe

aÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. España.
bÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. España. Unidad de Investigación Aplicada. Hospital Nacional de Parapléjicos. Toledo. España.
cÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. España. FENNSI Group. Fundación Hospital Nacional de Parapléjicos. Toledo. España.
dÁrea de Investigación Clínica. Fundación para la Investigación Sanitaria en Castilla-La Mancha (FISCAM). Toledo. España.
eCentro de Salud Sillería. Toledo. España. Responsable de Investigación de Semergen.

Los estudios analíticos permiten estudiar y verificar hipótesis causales, y los ensayos clínicos, en particular, aportan el mayor nivel de evidencia en la comprobación de estas hipótesis. Un ensayo clínico aleatorio (ECA) es un experimento planificado en el que, de forma prospectiva, se comparan dos o más intervenciones preventivas, curativas o rehabilitadoras, que son asignadas de forma individualizada y aleatoria a un grupo de pacientes para estudiar el efecto de estas intervenciones en el hombre. Para su realización es necesario tener en cuenta una serie de aspectos metodológicos, como la elección de la muestra de sujetos a partir de unos adecuados criterios de selección, asignación aleatoria de los sujetos a los diferentes grupos de intervención, elección del grupo control, enmascaramiento o cegamiento de algunos o todos los sujetos que intervienen en el estudio, y descripción de pérdidas y abandonos para un correcto análisis de los datos. Las características de este tipo de estudios, realizados sobre humanos, implican la necesidad del cumplimiento de unos requisitos éticos y legales que protejan a los participantes, motivo por el cual es imprescindible la obtención de un consentimiento informado, así como el informe favorable de un Comité Ético de Investigación Clínica para su realización.

Palabras clave: estudios experimentales, ensayos clínicos, Atención Primaria.

Los ensayos clinicos no siempre son representativos de la poblacion general


Published: December 25, 2007

The randomized clinical trial, widely considered the most reliable biomedical research method, can have significant drawbacks, a new study suggests, because patients included may not be representative of the broader population.

The scientists, writing in the December issue of The Annals of Surgical Oncology, reviewed 29 clinical trials of surgical procedures in prostate, colon, breast and lung cancer involving 13,991 patients. Although 62 percent of those cancers occur in people over 65, just 27 percent of the participants in the trials were that old. Although patients younger than 55 account for 16 percent of cancer cases, they made up 44 percent of the participants. More than 86 percent of the participants were white, and fewer than 8 percent African-American.

Thirty percent of the cases were breast cancers, but nearly 75 percent of the participants had that disease. Although prostate cancer accounted for 27 percent of the cancers, fewer than 2 percent of the patients were in prostate cancer studies.

In colon and lung cancer trials, women were less likely to be enrolled than men, and at all study sites, the rates of participation in trials was extremely low, from 0.04 to 1.7 percent.

Dr. John H. Stewart IV, the lead author and an assistant professor of surgery at Wake Forest University, said the disparities could call the results into question. “Our ability to generalize the findings of surgical trials,” he said, “is directly dependent on having equitable participation in trials by underrepresented groups.”

Metanalisis: analisis para su comprension


Monografía de Dr C. Rafael Avilés Merens, Dr C. Melvyn Morales Morejón, Lic. Augusto Sao Avilés y Lic. Rubén Cañedo Andalia – 28 de Diciembre de 2005

Se realizó una búsqueda bibliográfica sobre la metodología metanalítica en diversas bases de datos: Medline, Science Citation Index, entre otras. Para la búsqueda en Medline, se utilizó el descriptor Meta-analysis que indica el MeSH, el tesauro de la Biblioteca Nacional de Medicina de los Estados Unidos. Se emplearon, también, términos afines utilizados por el Institute of Scientific Information, asi como sinónimos o cuasi-sinónimos, obtenidos a partir de las estrategias probadas por los propios autores en las diferentes búsquedas realizadas y del intercambio con otros autores en el tema. Se emplearon diversas técnicas para la localización y posterior recuperación de la información. La participación de los autores en los colegios/académias invisibles, contituyó una fuente esencial para la obtención de información actualizada y, en no pocas ocasiones, información inédita.

« Anterior | Inicio | Siguiente »

1 – Aproximaciones útiles para la comprensión de los metanálisis
2 – Métodos
3 – Antecedentes
4 – Las revisiones cualitativas y cuantitativas
5 – Metanalisis: Definición
6 – Clasificación
7 – Etapas
8 – Criterios de selección
9 – Características metodológicas – variables moderadoras
10 – Características sustantivas
11 – Características extrínsecas
12 – Consideraciones finales
13 – Anexo. Procesamiento documental e informacional: interrelaciones y distinci
14 – Anexo. El metanalisis por etapas
15 – Anexo. Problemas pertinentes a cada una de las etapas de una revisió
16 – Anexo. Informe propuesto por autores, editores y críticos del metan&
17 – Anexo. Protocolo de control de calidad en la presentación de resulta
18 – Anexo. Tipos principales de sesgos en la elaboración de la revisión
19 – Anexo. La estadística en la revisión metanalítica
20 – Referencias bibliograficas

Recursos para la investigacion clinica


Aproximaciones útiles para la comprensión de los metanálisis


Un rasgo distintivo del desarrollo alcanzado por la humanidad en los procesos cognoscitivos, investigativos y de toma de decisión frente a la incertidumbre informacional es la velocidad siempre creciente de la transmisión de la información, que genera:

  • Una sobrecarga de información.
  • Una polución informacional – hiperinflación (con su efecto de infoxicación).
  • Una desigual calidad de la información publicada o inédita.
  • Una acumulación de la información y el conocimiento.

Ello, en conjunto, origina, en los marcos de la llamada Sociedad de la Información, un reto formidable: extraer el conocimiento relevante de la información existente.

En tal sentido, y en el entorno clínico, CD Mulrow planteó: “En esta era de proliferación y abundancia de las publicaciones …, la capacidad personal de lectura y absorción de información sigue siendo la misma. Reducir la gran masa de información a piezas masticables es asunto esencial para la digestión”.1

Y sentenció más adelante: “Necesitamos revisiones sistemáticas para integrar eficientemente toda la información válida y proporcionar una base para tomar decisiones de manera racional”.2

“En estos tiempos, el poder no lo determina la posesión de grandes volúmenes de información, sino poseer información de valor, es decir, información evaluada y analizada, precisa, relevante, confiable, simple y válida. La ignorancia de la existencia de información de valor o la forma de obtener dicha información y, además, la información tardía, lejos de proporcionar poder a una organización, puede conducirla a caminos marcadamente erróneos”.3

Tanto el empleo de las nuevas tecnologías de la información y la comunicación ofrece, como resultado directo, la posibilidad de acceder a grandes volúmenes de información, que rebasan las posibilidades de análisis y asimilación de los individuos, como el hecho de que la información no se ensamble (y presente) en forma útil para aquellas personas que toman decisiones (a cualquier nivel), mediante una adecuada síntesis, evaluación y resumen de las opciones disponibles ha generado la búsqueda de métodos para analizar, sintetizar e integrar sinérgicamente la información recuperada.4

Las revisiones cuantitativas, sistemáticas y metanalíticas constituyen una respuesta relevante y significativa a esta situación en los marcos de la atención sanitaria.

Los metanálisis no representan sólo un cambio cuantitativo, ellos, a partir de la acumulación, evaluación e integración de la información disponible, generan un cambio cualitativo en los acervos de conocimientos existentes sobre determinado objeto de estudio.

La generalización de las investigaciones metanalíticas tiene lugar dentro de la tendencia mundial que concede al desarrollo de la ciencia y de la tecnología, una función decisiva en el logro del bienestar de la sociedad, como vía para solucionar los problemas actuales y futuros y el desarrollo de la sociedad en su conjunto.

Inicio | Siguiente »

Statistics in Medicine — Reporting of Subgroup Analyses in Clinical Trials


Medical research relies on clinical trials to assess therapeutic benefits. Because of the effort and cost involved in these studies, investigators frequently use analyses of subgroups of study participants to extract as much information as possible. Such analyses, which assess the heterogeneity of treatment effects in subgroups of patients, may provide useful information for the care of patients and for future research. However, subgroup analyses also introduce analytic challenges and can lead to overstated and misleading results.1,2,3,4,5,6,7 This report outlines the challenges associated with conducting and reporting subgroup analyses, and it sets forth guidelines for their use in the Journal. Although this report focuses on the reporting of clinical trials, many of the issues discussed also apply to observational studies. Subgroup Analyses and Related Concepts

Subgroup Analysis

By “subgroup analysis,” we mean any evaluation of treatment effects for a specific end point in subgroups of patients defined by baseline characteristics. The end point may be a measure of treatment efficacy or safety. For a given end point, the treatment effect — a comparison between the treatment groups — is typically measured by a relative risk, odds ratio, or arithmetic difference. The research question usually posed is this: Do the treatment effects vary among the levels of a baseline factor?

A subgroup analysis is sometimes undertaken to assess treatment effects for a specific patient characteristic; this assessment is often listed as a primary or secondary study objective. For example, Sacks et al.8 conducted a placebo-controlled trial in which the reduction in the incidence of coronary events with the use of pravastatin was examined in a diverse population of persons who had survived a myocardial infarction. In subgroup analyses, the investigators further examined whether the efficacy of pravastatin relative to placebo in preventing coronary events varied according to the patients’ baseline low-density lipoprotein (LDL) levels.

Subgroup analyses are also undertaken to investigate the consistency of the trial conclusions among different subpopulations defined by each of multiple baseline characteristics of the patients. For example, Jackson et al.9 reported the outcomes of a study in which 36,282 postmenopausal women 50 to 79 years of age were randomly assigned to receive 1000 mg of elemental calcium with 400 IU of vitamin D3 daily or placebo. Fractures, the primary outcome, were ascertained over an average follow-up period of 7.0 years; bone density was a secondary outcome. Overall, no treatment effect was found for the primary outcome; that is, the active treatment was not shown to prevent fractures. The effect of calcium plus vitamin D supplementation relative to placebo on the risk of each of four fracture outcomes was further analyzed for consistency in subgroups defined by 15 characteristics of the participants.

Heterogeneity and Statistical Interactions

The heterogeneity of treatment effects across the levels of a baseline variable refers to the circumstance in which the treatment effects vary across the levels of the baseline characteristic. Heterogeneity is sometimes further classified as being either quantitative or qualitative. In the first case, one treatment is always better than the other, but by various degrees, whereas in the second case, one treatment is better than the other for one subgroup of patients and worse than the other for another subgroup of patients. Such variation, also called “effect modification,” is typically expressed in a statistical model as an interaction term or terms between the treatment group and the baseline variable. The presence or absence of interaction is specific to the measure of the treatment effect.

The appropriate statistical method for assessing the heterogeneity of treatment effects among the levels of a baseline variable begins with a statistical test for interaction.10,11,12,13 For example, Sacks et al.8 showed the heterogeneity in pravastatin efficacy by reporting a statistically significant (P=0.03) result of testing for the interaction between the treatment and baseline LDL level when the measure of the treatment effect was the relative risk. Many trials lack the power to detect heterogeneity in treatment effect; thus, the inability to find significant interactions does not show that the treatment effect seen overall necessarily applies to all subjects. A common mistake is to claim heterogeneity on the basis of separate tests of treatment effects within each of the levels of the baseline variable.6,7,14 For example, testing the hypothesis that there is no treatment effect in women and then testing it separately in men does not address the question of whether treatment differences vary according to sex. Another common error is to claim heterogeneity on the basis of the observed treatment-effect sizes within each subgroup, ignoring the uncertainty of these estimates.

Multiplicity

It is common practice to conduct a subgroup analysis for each of several — and often many — baseline characteristics, for each of several end points, or for both. For example, the analysis by Jackson and colleagues9 of the effect of calcium plus vitamin D supplementation relative to placebo on the risk of each of four fracture outcomes for 15 participant characteristics resulted in a total of 60 subgroup analyses.

When multiple subgroup analyses are performed, the probability of a false positive finding can be substantial.7 For example, if the null hypothesis is true for each of 10 independent tests for interaction at the 0.05 significance level, the chance of at least one false positive result exceeds 40%. Thus, one must be cautious in the interpretation of such results. There are several methods for addressing multiplicity that are based on the use of more stringent criteria for statistical significance than the customary P<0.05.7,15 A less formal approach for addressing multiplicity is to note the number of nominally significant interaction tests that would be expected to occur by chance alone. For example, after noting that 60 subgroup analyses were planned, Jackson et al.9 pointed out that “Up to three statistically significant interaction tests (P<0.05) would be expected on the basis of chance alone,” and then they incorporated this consideration in their interpretation of the results.

Prespecified Analysis versus Post Hoc Analysis

A prespecified subgroup analysis is one that is planned and documented before any examination of the data, preferably in the study protocol. This analysis includes specification of the end point, the baseline characteristic, and the statistical method used to test for an interaction. For example, the Heart Outcomes Prevention Evaluation 2 investigators16 conducted a study involving 5522 patients with vascular disease or diabetes to assess the effect of homocysteine lowering with folic acid and B vitamins on the risk of a major cardiovascular event. The primary outcome was a composite of death from cardiovascular causes, myocardial infarction, and stroke. In the Methods section of their article, the authors noted that “Prespecified subgroup analyses involving Cox models were used to evaluate outcomes in patients from regions with folate fortification of food and regions without folate fortification, according to the baseline plasma homocysteine level and the baseline serum creatinine level.” Post hoc analyses refer to those in which the hypotheses being tested are not specified before any examination of the data. Such analyses are of particular concern because it is often unclear how many were undertaken and whether some were motivated by inspection of the data. However, both prespecified and post hoc subgroup analyses are subject to inflated false positive rates arising from multiple testing. Investigators should avoid the tendency to prespecify many subgroup analyses in the mistaken belief that these analyses are free of the multiplicity problem.

Subgroup Analyses in the Journal — Assessment of Reporting Practices

As part of internal quality-control activities at the Journal, we assessed the completeness and quality of subgroup analyses reported in the Journal during the period from July 1, 2005, through June 30, 2006. A detailed description of the study methods can be found in the Supplementary Appendix, available with the full text of this article at http://www.nejm.org. In this report, we describe the clarity and completeness of subgroup-analysis reporting, evaluate the authors’ interpretation and justification of the results of subgroup analyses, and recommend guidelines for reporting subgroup analyses.

Among the original articles published in the Journal during the period from July 1, 2005, through June 30, 2006, a total of 95 articles reported primary outcome results from randomized clinical trials. Among these 95 articles, 93 reported results from one clinical trial; the remaining 2 articles reported results from two trials. Thus, results from 97 trials were reported, from which subgroup analyses were reported for 59 trials (61%). Table 1 summarizes the characteristics of the trials. We found that larger trials and multicenter trials were significantly more likely to report subgroup analyses than smaller trials and single-center trials, respectively. With the use of multivariate logistic-regression models, when ranked according to the number of participants enrolled in a trial and compared with trials with the fewest participants, the odds ratio for reporting subgroup analyses for the second quartile was 1.38 (95% confidence interval [CI], 0.45 to 4.20), for the third quartile was 1.98 (95% CI, 0.62 to 6.24), and for the fourth quartile was 8.90 (95% CI, 2.10 to 37.78) (P=0.02, trend test). The odds ratio for reporting subgroup analyses in multicenter trials as compared with single-center trials was 4.33 (95% CI, 1.56 to 12.16).

View this table:
[in this window]
[in a new window]
Get Slide
Table 1. Characteristics and Predictors of Reporting Subgroup Analyses in 97 Clinical Trials.

Among the 59 trials that reported subgroup analyses, these analyses were mentioned in the Methods section for 21 trials (36%), in the Results section for 57 trials (97%), and in the Discussion section for 37 trials (63%); subgroup analyses were reported in both the text and a figure or table for 39 trials (66%). Other characteristics of the reports are shown in Figure 1. In general, we are unable to determine the number of subgroup analyses conducted; we attempted to count the number of subgroup analyses reported in the article and found that this number was unclear in nine articles (15%). For example, Lees et al.17 reported that “We explored analyses of numerous other subgroups to assess the effect of baseline prognostic factors or coexisting conditions on the treatment effect but found no evidence of nominal significance for any biologically likely factor.” For four of these nine articles, we were able to determine that at least eight subgroup analyses were reported. In 40 trials (68%), it was unclear whether any of the subgroup analyses were prespecified or post hoc, and in 3 others (5%) it was unclear whether some were prespecified or post hoc. Interaction tests were reported to have been used to assess the heterogeneity of treatment effects for all subgroup analyses in only 16 trials (27%), and they were reported to be used for some, but not all, subgroup analyses in 11 trials (19%).

Figure 1
View larger version (31K):
[in this window]
[in a new window]
Get Slide
Figure 1. Reporting of Subgroup Analyses from 59 Clinical Trials. The specific reporting characteristics examined in this quality-improvement exercise are indicated in each panel. CI denotes confidence interval.

We assessed whether information was provided about treatment effects within the levels of each subgroup variable (Figure 1). In 25 trials (42%), information about treatment effects was reported consistently for all of the reported subgroup analyses, and in 13 trials (22%), nothing was reported. Investigators in 15 trials (25%), all using superiority designs,10 claimed heterogeneity of treatment effects between at least one subject subgroup and the overall study population (see Table 1 of the Supplementary Appendix). For 4 of these 15 trials, this claim was based on a nominally significant interaction test, and for 4 others it was based on within-subgroup comparisons only. In the remaining seven trials, significant results of interaction tests were reported for some but not all subgroup analyses. When heterogeneity in the treatment effect was reported, for two trials (13%), investigators offered caution about multiplicity, and for four trials (27%), investigators noted the heterogeneity in the Abstract section.

Analysis of Our Findings and Guidelines for Reporting Subgroups

In the 1-year period studied, the reporting of subgroup analyses was neither uniform nor complete. Because the design of future clinical trials can depend on the results of subgroup analyses, uniformity in reporting would strengthen the foundation on which such research is built. Furthermore, uniformity of reporting will be of value in the interval between recognition of a potential subgroup effect and the availability of adequate data on which to base clinical decisions.

Problems in the reporting of subgroup analyses are not new.1,2,3,4,5,6,18 Assmann et al.2 reported shortcomings of subgroup analyses in a review of the results of 50 trials published in 1997 in four leading medical journals. More recently, Hernández et al.4 reviewed the results of 63 cardiovascular trials published in 2002 and 2004 and noted the same problems. To improve the quality of reports of parallel-group randomized trials, the Consolidated Standards of Reporting Trials statement was proposed in the mid-1990s and revised in 2001.19 Although there has been considerable discussion of the potential problems associated with subgroup analysis and recommendations on when and how subgroup analyses should be conducted and reported,19,20 our analysis of recent articles shows that problems and ambiguities persist in articles published in the Journal. For example, we found that in about two thirds of the published trials, it was unclear whether any of the reported subgroup analyses were prespecified or post hoc. In more than half of the trials, it was unclear whether interaction tests were used, and in about one third of the trials, within-level results were not presented in a consistent way.

When properly planned, reported, and interpreted, subgroup analyses can provide valuable information. With the availability of Web supplements, the opportunity exists to present more detailed information about the results of a trial. The purpose of the guidelines (see Guidelines for Reporting Subgroup Analysis) is to encourage more clear and complete reporting of subgroup analyses. In some settings, a trial is conducted with a subgroup analysis as one of the primary objectives. These guidelines are directly applicable to the reporting of subgroup analyses in the primary publication of a clinical trial when the subgroup analyses are not among the primary objectives. In other settings, including observational studies, we encourage complete and thorough reporting of the subgroup analyses in the spirit of the guidelines listed.

The editors and statistical consultants of the Journal consider these guidelines to be important in the reporting of subgroup analyses. The goal is to provide transparency in the statistical methods used in order to increase the clarity and completeness of the information reported. As always, these are guidelines and not rules; additions and exemptions can be made as long as there is a clear case for such action.

Guidelines for Reporting Subgroup Analysis.

In the Abstract:

Present subgroup results in the Abstract only if the subgroup analyses were based on a primary study outcome, if they were prespecified, and if they were interpreted in light of the totality of prespecified subgroup analyses undertaken.

In the Methods section:

Indicate the number of prespecified subgroup analyses that were performed and the number of prespecified subgroup analyses that are reported. Distinguish a specific subgroup analysis of special interest, such as that in the article by Sacks et al.,8 from the multiple subgroup analyses typically done to assess the consistency of a treatment effect among various patient characteristics, such as those in the article by Jackson et al.9 For each reported analysis, indicate the end point that was assessed and the statistical method that was used to assess the heterogeneity of treatment differences.

Indicate the number of post hoc subgroup analyses that were performed and the number of post hoc subgroup analyses that are reported. For each reported analysis, indicate the end point that was assessed and the statistical method used to assess the heterogeneity of treatment differences. Detailed descriptions may require a supplementary appendix.

Indicate the potential effect on type I errors (false positives) due to multiple subgroup analyses and how this effect is addressed. If formal adjustments for multiplicity were used, describe them; if no formal adjustment was made, indicate the magnitude of the problem informally, as done by Jackson et al.9

In the Results section:

When possible, base analyses of the heterogeneity of treatment effects on tests for interaction, and present them along with effect estimates (including confidence intervals) within each level of each baseline covariate analyzed. A forest plot21,22 is an effective method for presenting this information.

In the Discussion section:

Avoid overinterpretation of subgroup differences. Be properly cautious in appraising their credibility, acknowledge the limitations, and provide supporting or contradictory data from other studies, if any.

No potential conflict of interest relevant to this article was reported.

We thank Doug Altman, John Bailar, Colin Begg, Mohan Beltangady, Marc Buyse, David DeMets, Stephen Evans, Thomas Fleming, David Harrington, Joe Heyse, David Hoaglin, Michael Hughes, John Ioannidis, Curtis Meinert, James Neaton, Robert O’Neill, Ross Prentice, Stuart Pocock, Robert Temple, Janet Wittes, and Marvin Zelen for their helpful comments.

References

  1. Yusuf S, Wittes J, Probstfield J, Tyroler HA. Analysis and interpretation of treatment effects in subgroups of patients in randomized clinical trials. JAMA 1991;266:93-98. [Abstract]
  2. Assmann SF, Pocock SJ, Enos LE, Kasten LE. Subgroup analysis and other (mis)uses of baseline data in clinical trials. Lancet 2000;355:1064-1069. [CrossRef][ISI][Medline]
  3. Pocock SJ, Assmann SF, Enos LE, Kasten LE. Subgroup analysis, covariate adjustment and baseline comparisons in clinical trial reporting: current practice and problems. Stat Med 2002;21:2917-2930. [CrossRef][ISI][Medline]
  4. Hernández A, Boersma E, Murray G, Habbema J, Steyerberg E. Subgroup analyses in therapeutic cardiovascular clinical trials: are most of them misleading? Am Heart J 2006;151:257-264. [CrossRef][ISI][Medline]
  5. Parker AB, Naylor CD. Subgroups, treatment effects, and baseline risks: some lessons from major cardiovascular trials. Am Heart J 2000;139:952-961. [CrossRef][ISI][Medline]
  6. Rothwell PM. Subgroup analysis in randomised controlled trials: importance, indications, and interpretation. Lancet 2005;365:176-186. [CrossRef][ISI][Medline]
  7. Lagakos SW. The challenge of subgroup analyses — reporting without distorting. N Engl J Med 2006;354:1667-1669. [Erratum, N Engl J Med 2006;355:533.] [Free Full Text]
  8. Sacks FM, Pfeffer MA, Moye LA, et al. The effect of pravastatin on coronary events after myocardial infarction in patients with average cholesterol levels. N Engl J Med 1996;335:1001-1009. [Free Full Text]
  9. Jackson RD, LaCroix AZ, Gass M, et al. Calcium plus vitamin D supplementation and the risk of fractures. N Engl J Med 2006;354:669-683. [Erratum, N Engl J Med 2006;354:1102.] [Free Full Text]
  10. Pocock SJ. Clinical trials: a practical approach. Chichester, England: John Wiley, 1983.
  11. Halperin M, Ware JH, Byar DP, et al. Testing for interaction in an IxJxK contingency table. Biometrika 1977;64:271-275. [Free Full Text]
  12. Simon R. Patient subsets and variation in therapeutic efficacy. Br J Clin Pharmacol 1982;14:473-482. [ISI][Medline]
  13. Gail M, Simon R. Testing for qualitative interactions between treatment effects and patient subsets. Biometrics 1985;41:361-372. [CrossRef][ISI][Medline]
  14. Brookes ST, Whitely E, Egger M, Smith GD, Mulheran PA, Peters T. Subgroup analyses in randomized trials: risks of subgroup-specific analyses; power and sample size for the interaction test. J Clin Epidemiol 2004;57:229-236. [CrossRef][ISI][Medline]
  15. Bailar JC III, Mosteller F, eds. Medical uses of statistics. 2nd ed. Waltham, MA: NEJM Books, 1992.
  16. Lonn E, Yusuf S, Arnold MJ, et al. Homocysteine lowering with folic acid and B vitamins in vascular disease. N Engl J Med 2006;354:1567-1577. [Erratum, N Engl J Med 2006;355:746.] [Free Full Text]
  17. Lees KR, Zivin JA, Ashwood T, et al. NXY-059 for acute ischemic stroke. N Engl J Med 2006;354:588-600. [Free Full Text]
  18. Al-Marzouki S, Roberts I, Marshall T, Evans S. The effect of scientific misconduct on the results of clinical trials: a Delphi survey. Contemp Clin Trials 2005;26:331-337. [CrossRef][ISI][Medline]
  19. Moher D, Schulz KF, Altman DG, et al. The CONSORT Statement: revised recommendations for improving the quality of reports of parallel-group randomized trials. (Accessed November 1, 2007, at http://www.consort-statement.org/.)
  20. International Conference on Harmonisation (ICH). Guidance for industry: E9 statistical principles for clinical trials. Rockville, MD: Food and Drug Administration, September 1998. (Accessed November 1, 2007, at http://www.fda.gov/cder/guidance/ICH_E9-fnl.PDF.)
  21. Cuzick J. Forest plots and the interpretation of subgroups. Lancet 2005;365:1308-1308. [CrossRef][ISI][Medline]
  22. Wactawski-Wende J, Kotchen JM, Anderson GL, et al. Calcium plus vitamin D supplementation and the risk of colorectal cancer. N Engl J Med 2006;354:684-696. [Free Full Text