miércoles, 18 de noviembre de 2015

Cambios Seculares en las Puntuaciones de los Test de CI: Explicaciones y Omisiones de James R. Flynn –por Robert L. Williams



[Los siguientes comentarios no constituyen una réplica directa a la reseña de Roberto Colom, y tampoco se centran en el libro revisado. Recogen mi visión sobre las presentaciones de James R. Flynn durante las pasadas décadas].

Las ganancias en las puntuaciones de los test de CI se conocen desde hace 70 años y han preocupado a los investigadores de la inteligencia, en parte porque los test de CI, como instrumentos, han sido inestables, y en parte porque la causa (o causas) de esa inestabilidad se ha mostrado escurridiza.

Cuando se observó por primera vez el efecto (en los años 40) la tendencia era positiva, y, por tanto, sugería mejoras en algún factor ambiental. En aquel momento, las ganancias se atribuyeron a la mejora educativa, tanto en cantidad como en calidad. Ciertamente, los datos apoyaban esa conclusión, al menos en aquella época.

En la década de los 80, Richard Lynn y James Flynn publicaron artículos que reavivaron el interés por el aumento de las puntuaciones. Siguió un enorme número de artículos. Una tendencia que se mantiene todavía.

Un tema común a la mayoría de los artículos sobre el Efecto Flynn (Flynn Effect) es que cada autor expone una explicación causal posible y argumenta que esa causa es la ÚNICA capaz de explicar el aumento secular de las puntuaciones. Al estudiar cada una de las bases de datos, se observa que se muestran ganancias con características diferenciales a las observadas en otras bases de datos. Por ejemplo, algunos datos muestran altas ganancias en un país, otros datos muestras ganancias bajas y otros no muestran ninguna ganancia. En algunos casos, las ganancias parecen mayores en individuos brillantes, en otros estudios se observa lo contrario y en otros las ganancias son uniformes. Algunas bases de datos muestran distintos grados, e incluso distinta dirección, en la misma localización geográfica, según los años considerados. Por ejemplo, según Teasdale & Owen:

…las ganancias son de 3 puntos para las décadas 1959-1969 y 1969-1979, y en la década 1979-1989 la ganancia es de 2 puntos. Desde 1989 a 1998 la ganancia ha sido solo de 1.3 puntos y desde aquí la ganancia se detiene en 2000 y no ha vuelto a recuperarse”.

La dirección se invierte; otros países siguen la misma trayectoria.

Teniendo en cuenta la inconsistencia del efecto Flynn en distintos momentos y lugares, es probable que la causa de las ganancias no sea ni simple, ni se deba a un único factor. Jensen describió las ganancias como consecuencia de la reducida contribución de diferentes causas. En 2008, les pregunté a Flynn y a Nettlebeck si estaban de acuerdo con la idea de múltiples pequeñas causas y ambos respondieron sin dudarlo que “si”. Pero es difícil encontrar estudios que intenten modelar esas causas múltiples (usando, por ejemplo, modelos de ecuaciones estructurales).


Flynn ha sido especialmente productivo durante las décadas en las que la ciencia se ha interesado por las ganancias seculares. Ha discutido con Jensen y Lynn produciendo una mezcla de razonamientos fuertes y débiles sobre las causas de las ganancias. En su evaluación inicial de las ganancias, Flynn señaló que si fuesen “reales”, sus consecuencias en la vida cotidiana debían ser evidentes y abundantes. Comparó numéricamente generaciones actuales y anteriores, mostrando que las diferencias en las puntuaciones eran de tal magnitud que las generaciones pasadas tendrían que haber sido incapaces de completar tareas que nosotros consideramos simples. Estaba en lo correcto al hacer esta observación. Pero, con el paso de los años, Flynn comenzó a argumentar que los cambios en las puntuaciones debían reflejar cambios en la vida cotidiana (factores socio-ambientales) y, por tanto, debían ser significativos. Fue muy cauto al elegir las palabras.

En 2007 conocí a Flynn y comprobé que era alguien cálido y que le atraían los comentarios y las preguntas. Le pregunté si pensaba que las ganancias seculares se podían atribuir a g. Respondió con su ejemplo favorito de ítem de un test en el que se preguntaba por la relación de los perros y los conejos (la declaración es que el niño moderno identifica inmediatamente a ambos como mamíferos, mientras que las generaciones previas no lo hacen) y siguió con su noción “histórica” sobre que la importancia de los ítems varía en función de los cambios en la sociedad. Seguidamente (con respecto a la pregunta inicial sobre g) se limitó a contestar: “No lo sé”. Fue una respuesta razonable que no exigía ninguna defensa.

La discusión de este post implica una serie de aspectos sobre los argumentos presentados por Flynn, quien ha considerado la mayor parte de las contribuciones intentando eliminar o minimizar la mayor parte de las causas que se han propuesto. La dificultad con algunos de estos rechazos reside en el enorme rango de la formas que adopta el efecto en distintas bases de datos (como dije anteriormente). Aunque está de acuerdo en que hay muchas causas, realmente no ha aceptado esa idea y se ha dedicado a discutir los cambios en la sociedad como responsables del funcionamiento diferencial de los ítems en distintas generaciones. Este hecho obliga a traducir los comentarios de Flynn desde su estilo a las convenciones que se usan regularmente en los artículos de investigación. Por ejemplo, los cambios generacionales en la sociedad que él describe parecen corresponder, precisamente, a lo que nosotros entendemos por “invarianza” o “funcionamiento diferencial de los ítems”. Él simplemente opta por usar una descripción de lo que otros han considerado como un fracaso al confirmar la invarianza o al encontrar ausencia de invarianza (es decir, que el test funciona de modo diferente en distintas cohortes o generaciones).

Otro ejemplo: Flynn ha discutido extensamente que las ganancias no pueden atribuirse a g, como ha mostrado la mayor parte de la investigación sobre este aspecto de la inestabilidad de la puntuación [son muy escasos los resultados que han ido en la misma dirección. Para un ejemplo de resultado opuesto véase Colom, Juan-Espinosa, García, 2001. The secular increase in test scores is a 'Jensen effect’. Personality and Individual Differences, 30, 553-559]. Flynn ha optado por ignorar la posibilidad de que la varianza de las puntuaciones en los tests de CI que no se debe a g, corresponda a los factores de grupo o a la unicidad del test (algo que discutiremos más adelante). Un último ejemplo: Flynn escribió que “cuando eliminas g del rendimiento en el SAT, las puntuaciones todavía predicen las calificaciones (Coyle & Pillow, 2008)”. De nuevo, podemos apreciar una descripción adecuada, pero las palabras que suelen usarse no están. En este caso, no vemos “residuales”, que es lo que se discute en la referencia citada. Todo esto está bien, pero es importante traducir las palabras que usa Flynn a las que habitualmente usan los investigadores, tanto para mejorar la comprensión como por tradición.

Los mecanismos que se proponen como causa del efecto Flynn se pueden organizar en categorías y la siguiente es una opción:

-       Socio-ambientales (familia, escuela, infraestructuras públicas, etc.).
-       Biológicas (nutrición, cuidados sanitarios, genética/heterosis, etc.).
-       Relacionadas con los test (familiaridad, adivinación, puntuación, etc.).

Socio-ambientales

A medida que iba produciendo artículos y libros, la esencia del argumento de Flynn ha ido cambiando desde la perspectiva de que “las ganancias deben ser un artefacto” a una insistencia creciente en que las ganancias son reales, aunque no tengan relación con g. Él y Dickens han propuesto que, en contraste con lo sugerido por los estudios previos, la inteligencia puede estar gobernada en mayor grado por el ambiente. Sugieren que los factores ambientales actúan como multiplicadores sociales que producen grandes efectos [Para los interesados en un estudio detallado sobre los efectos ambientales, sugiero el capítulo 15 (de N. Brody) en H. Nyborg, Editor, The Scientific Study of Human Nature: a Tribute to Hans J. Eysenck at Eighty, Pergamon, Oxford (1997). El excelente capítulo de Brody nos sorprendió a mi y a Nyborg. En resumen, Brody mostró que los factores ambientales dan cuenta de una parte bastante reducida de las diferencias de inteligencia]. 

El modelo de Dickens-Flynn no se derivó inductivamente de los datos, sino que se construyó para producir los resultados deseados. Tampoco se ha confirmado mediante medidas. El movimiento de Flynn hacia la creencia aparente en la importancia de las ganancias en el mundo real, ha ido parejo con su argumento sobre g. Ha evitado declaraciones sobre el aumento de g y ha subrayado que factores no relacionados con g han aumentado y poseen consecuencias en ese mundo real. Los test de CI miden varianza atribuible a g, capacidades distintas de g (factores de grupo) y unicidad (especificidad del test y error aleatorio). Solamente los factores de grupo y la especificidad pueden representar capacidades distintas de g que contribuyan al rendimiento en los test de CI. Por tanto, aquí tenemos un ejemplo de la desconexión lingüística comentada anteriormente. Si las puntuaciones en los tests aumentan, sea cual sea la causa debe corresponder a varianza de esos componentes. Por desgracia, Flynn no usa los términos “factores de grupo” o “unicidad”, y, por tanto, debemos suponer que describe una u otra (o ambas) fuentes de varianza. En el contexto en el que se usa, asumo que los factores distintos de g son factores de grupo.

Según mi perspectiva, parece que Flynn ahora cree que los factores ambientales causan las ganancias en los factores de grupo que hacen que la gente sea cognitivamente más capaz a través de las generaciones. Un problema de esta línea de razonamiento es que se ha observado que los factores de grupo (residuales de segundo estrato) de los test de CI apenas poseen validez externa (de 0 a un 2%). Estos factores distintos de g son reales, pero apenas poseen validez [Este es un resultado consistente en los test de CI, pero Coyle & Pillow (citados por Flynn) han mostrado que, para los test de logro académico, los residuales son casi tan predictivos del logro académico como el factor g en esos mismos test, mientras que los factores de grupo de los test de CI no presentan esa capacidad predictiva]. Fui incapaz de encontrar una explicación en Flynn sobre por qué los factores distintos de g son relevantes respecto al aumento secular de las puntuaciones y los resultados en el mundo real, cuando se ha observado consistentemente que carecen de validez predictiva cuando se extraen de los test de CI. Otro problema del argumento de que las ganancias poseen beneficios reales, es que no encaja con el obvio carácter artificial de las ganancias debidas al Efecto Brand y a la metodología del cálculo de puntuaciones que discutiremos después.



Biológicas

Richard Lynn ha escrito mucho y en detalle sobre los cambios biológicos paralelos a las ganancias seculares de CI [Lynn ha escrito un libro y varios artículos sobre la presencia de un vector negativo (supuestamente con pesos en g) activo junto con las condiciones que causan la ganancia secular de CI; este componente negativo se debe a la fertilidad disgenésica y se ha visto supuestamente enmascarado por la presencia del efecto Flynn. Otros investigadores han estudiado estas tendencias disgenésicas, y puede encontrarse material particularmente interesante en H. Nyborg, M. Woodley, y G. Meisenberg].

Las siguientes variables han mostrado ganancias generacionales: tamaño craneal, estatura, peso al nacer y maduración temprana. Flynn nunca ha cuestionado la evidencia sobre cambios biológicos que puedan inspirar una conexión con las ganancias de inteligencia, pero ha subrayado que las ganancias de estatura no son contemporáneas a las ganancias de CI. Neisser ha cuestionado los beneficios de las mejoras nutricionales y Mingroni ha argumentado que todos los factores postnatales son implausibles debido a la alta consistencia de las estimaciones de heredabilidad (la heredabilidad aumenta significativamente de la infancia a la edad adulta –es decir, la tendencia opuesta a lo que cabe esperar si los factores ambientales son relevantes).

Se han discutido ampliamente varias medidas biológicas relacionadas con la inteligencia. Medidas cronométricas como el tiempo de reacción (reaction time, RT) y el tiempo de inspección (inspection time, IT) han sido estables durante largos periodos de tiempo, lo que sugiere que el factor g no está relacionado con los cambios –en tal caso, los tiempos de reacción y de inspección deberían haberse reducido (las generaciones recientes serían más rápidas). De hecho, se ha publicado una serie de artículos conectados con los datos de Woodley que han mostrado que los tiempos de reacción han aumentado (las generaciones recientes serían más lentas) desde la época de Galton [el resultado de este interesante intercambio de artículos han sido ligeras modificaciones en los números, pero la conclusión se ha mantenido].

Otro parámetro biológico relacionado con la inteligencia es la capacidad de la memoria operativa (working memory capacity, WMC). Ha sido objeto de muchos artículos y el estudio de su relación con la inteligencia fluida y con el factor g sigue siendo un activo campo de investigación. Uno de los test más simples de memoria operativa, y sobre el que hay datos históricos, es recuerdo inverso de números (backward digit recall). Los resultados han mostrado que las puntuaciones en ese test no se han movido a lo largo de los años (puede que incluso hayan disminuido). Por tanto, sea cual sea el papel de la memoria operativa en el factor g, no se observa cambio secular. Si existiese un cambio real de inteligencia, estos correlatos biológicos deberían haberse modificado. Sin embargo, no ha sido así, excepto por el leve declive en los tiempos de reacción (RT) observados por Woodley.

Relacionados con los Test

Entre las múltiples causas que se han propuesto sobre el cambio secular de CI, hay dos bastante claras (con respecto a las bases de datos en cuestión) y ninguna tiene nada que ver con las ganancias en las capacidades cognitivas. La primera es el Efecto Brand (nominado por Woodley). En 1996, Christopher Brand predijo que los evaluados de las generaciones más recientes tendían a adivinar en mayor grado [Para una discusión sobre las objeciones de Flynn a la observación inicial de Brand véanse las paginas 234-5 de la obra de Jensen ‘The g factor’, 1998]. Este efecto se demostró en una base de datos de Estonia en la que se consideró un periodo de 72 años. Al comienzo de ese periodo, Estonia apenas manifestó efecto Flynn, pero a medida que aumentó la importancia de los tests, los estudiantes aprendieron que no se penalizaba las respuestas incorrectas, por lo que comenzaron a adivinar con mayor frecuencia. Se observó que aumentaba el número de ítems que intentaban responderse, lo que producía más respuestas tanto incorrectas como correctas. Esto produjo no solamente un mayor efecto Flynn, sino que, además, parecía que ganancias totalmente absurdas estaban relacionadas con el factor g (esta es la observación de Woodley: “la correlación entre las ganancias vía el Efecto Brand y los pesos en g fue de .95, como se predijo”), porque la mayor parte de la adivinación se concentraba en los ítems más difíciles, y, por tanto, con mayores pesos en g. Esta categoría general causal es consistente con la observación de Jensen de que las ganancias del efecto Flynn son resultado, en parte, del aumento de la familiaridad con los tests.

La segunda causa relacionada con los test es la metodología para calcular las puntuaciones. Beaujean & Osterlind examinaron el National Longitudinal Survey of Youth calculando puntuaciones con Teoría Clásica (CTT) y con Teoría de Respuesta al Ítem (IRT). Observaron que el efecto Flynn calculado para el Peabody Picture Vocabulary Test-Revised se desvanecía y que el calculado para el Peabody Individual Achievement Test-Math se reducía a la mitad. Este resultado no tiene nada que ver con el cambio cognitivo, en igual medida que el Efecto Brand.

Los test de CI se revisan periódicamente y vuelven a baremarse para corregir el efecto Flynn. Si las ganancias tuvieran consecuencias reales, los nuevos baremos ajustarían las puntuaciones medias a un valor menor del real, lo que provocaría que los tests tendieran a predecir a la baja (infra-predecir) las medidas criterio. Sin embargo, no he podido encontrar ningún informe en el que se haya observado ese efecto. Flynn ha ignorado este hecho. Los test de CI son valiosos porque poseen validez externa. Por tanto, creo que este simple aspecto de la deriva en las puntuaciones, es central para la discusión de si las ganancias son significativas. Si lo son, deberíamos considerar evitar la práctica de re-baremar los test.

Volviendo a las explicaciones de Flynn, existen argumentos muy plausibles que son probablemente ciertos, hasta cierto punto. Pero esas explicaciones tienen lagunas que resultan de ignorar artefactos que parecen un efecto Flynn y de minimizar causas potenciales que no pueden descartarse de un plumazo. Cualquier modelo sobre el efecto que merezca la pena debe explicar:

1.     Su presencia en niños de 1-2 años.
2.     La tendencia a que las ganancias se detengan y luego se inviertan.
3.     Las ganancias conductuales reales (medidas) observadas en las poblaciones, si se considera que las ganancias son significativas.
4.     Los artefactos relacionados con los test que no tienen nada que ver con la cognición.

Pensamientos Finales

Pienso que la cuestión nuclear al examinar cualquier base de datos sobre el efecto Flynn, supone reconocer que sea lo que sea que revele es específico del tiempo y lugar considerado en esa base de datos. Y, por tanto, no puede extrapolarse directamente a un tiempo y lugar diferente. Los argumentos ofrecidos por Flynn, que yo considero como observaciones de ausencia de invarianza, me parecen robustos, pero no son exclusivos de las numerosas condiciones que potencialmente pueden producir ganancias o pérdidas en las puntuaciones.

No hay comentarios:

Publicar un comentario