Para quienes nos dedicamos a la psicología y la neurociencia cognitiva, el día de ayer fue uno de los más esperados del año, ya que fue la fecha de publicación del artículo Estimating the reproducibility of psychological science, un titánico esfuerzo por hacer un diagnóstico global sobre el estado de la reproducibilidad de nuestros experimentos.
Aunque nos cueste reconocerlo, nuestra querida ciencia está plagada de problemas. Son sonados los casos de investigadores que inventaron resultados falsos o que manipularon datos. Menos sonado, y más grave a mi parecer, es qué nos cuesta reconocer que la ciencia, como quehacer humano, dista mucho de ser perfecta.
Como bien sabemos, la ciencia tiene recursos limitados, lo cual fomenta la competencia entre investigadores, más que la colaboración. Nuestra unidad de medida son las publicaciones (cuántas y en cuál revista) y esto tiene un impacto directo sobre nuestra carrera. El incentivo es publicar resultados novedosos, rápidamente y antes que los demás, lo cual no favorece experimentos grandes, colaboraciones o esfuerzos por reproducir experimentos. Una consecuencia de estos experimentos con bajo poder estadístico, ha minado la robustez de nuestros descubrimientos. Si bien uno de los pilares del proceso científico es la reproducibilidad, en la práctica hay pocos incentivos para invertir tiempo y esfuerzo en tratar de reproducir experimentos (propios o ajenos).
La falta de reproducibilidad en la psicología (y muchas otras áreas) ha sido objeto de debate en los últimos años. Aquí y allá empezaron a aparecer investigadores que intentaban reproducir un experimento y fallaban. ¿Habían hecho algo mal, o era en realidad un problema del experimento original?
Si bien varios autores habían atacado el problema desde la estadística, y hecho varias predicciones de que hasta el 50% de los experimentos publicados eran falsos positivos (es decir que encontraban un efecto, cuándo este realmente era debido al azar), hasta ayer, no teníamos evidencia empírica de la magnitud del problema. Un grupo de 270 investigadores de alrededor del mundo decidieron poner manos a la obra y colaboraron para intentar reproducir 100 experimentos de psicología que fueron publicados en 2008 en tres de la más prestigiosas (y citadas) revistas del área: Psychological Science, Journal of Experimental Psychology: Learning, Memory and Cognition y Journal of Personality and Social Psychology.
Los investigadores repitieron los experimentos, en la gran mayoría de los casos con apoyo y materiales de los autores originales. Después realizaron pruebas estadísticas para analizar los datos y obtuvieron la famosa p de significancia estadística, que compararon con la p original. (Este valor es una medida de confianza ya que indica la probabilidad de que nuestros resultados sean producto del azar. Una p = 0.05 indica que si realizáramos el experimento de nuevo, la probabilidad de obtener los mismos resultados sólo por azar sería menos de 1 en 20).
¿Y qué encontraron? Si bien el 97% de los experimentos originales reportó tener valores de p significativos (menores a p = 0.05), solamente el 36% de los experimentos replicados logró obtener resultados similares. ¡36 de 100 experimentos no fueron reproducidos! Pero, ¿cómo podemos interpretar estos resultados? La realidad es que hasta ayer, no teníamos evidencia empírica de la magnitud del problema. Sólo la historia podrá poner en perspectiva la interpretación de esta cifra. Lo que sí podemos saber es que esto nos habla claramente de que la ciencia no es perfecta y que hay mucho por hacer. El primer paso es reconocerlo. Además, en definitiva no se trata de un problema aislado de la psicología. Hay que hacer un diagnóstico de todas las demás áreas del quehacer científico.
Este artículo confirma que la ciencia tiene problemas, sí, pero lejos de ser desesperanzador, este proyecto es un claro ejemplo de las mejores prácticas científicas puestas al servicio de diagnosticar problemas e intentar corregirlos. El proyecto, encabezado por la Colaboración para la Ciencia Abierta favoreció la colaboración y preregistró los métodos y análisis estadísticos, rigurosas medidas de prevención contra prácticas indeseables en la ciencia. Además, han hecho público el artículo (no es necesario pagarle a la revista Science para consultarlo), los resultados obtenidos y los análisis hechos, facilitando y promoviendo que la gente interesada se involucre en análisis posteriores.
Los dejo con la conclusión de los propios autores del artículo:
“Después de este esfuerzo intensivo para reproducir una muestra de los hallazgos psicológicos publicados, ¿cuántos de los efectos hemos establecido son verdaderos? Cero. ¿Y cuántos de los efectos hemos establecido son falsos? Cero. ¿Es esto una limitación del diseño del proyecto? No. Es la realidad de hacer ciencia, aunque no se aprecia en la práctica diaria. Los seres humanos desean certeza, y la ciencia con poca frecuencia la proporciona. Tanto como desearíamos que fuera de otro modo, un solo estudio casi nunca ofrece una resolución definitiva a favor o en contra de un efecto y su explicación.[…]. El progreso científico es un proceso acumulativo de la reducción de la incertidumbre que sólo puede tener éxito si la ciencia en sí sigue siendo la mayor escéptica de sus pretensiones explicativas.“
Imagen cortesía de: Jef Poskanzer
1 comentario en “Ciencia disfuncional: ¿qué tan reproducibles son los experimentos científicos?”