universidades, Estandarización de la evaluación de las

Hugo Aboites Aguilar

El uso generalizado de las pruebas estandarizadas aplicadas a los estudiantes, más conocidas como exámenes de opción múltiple, acompañó en América Latina y el Caribe las iniciativas de modernización educativa que se multiplicaron a fines del siglo XX. En la Argentina, la Ley Federal de Educación (1993) incorporó la evaluación y se creó la Dirección Nacional de Evaluación que utiliza esas pruebas en escuelas seleccionadas por muestreo. En Brasil, ese tipo de prueba se aplica desde los años 90 para el examen vestibular o de ingreso a la educación superior; lo mismo ocurre en Colombia. En Chile está sumamente difundida la elaboración de ordenamientos (rankings) de escuelas de nivel medio y superior, de mejores a peores, siguiendo los resultados que obtienen los estudiantes en una prueba estandarizada. En México, estos exámenes se generalizaron a partir de la aprobación de la Ley General de Educación (1993) que incorporó la evaluación y, sobre todo, con la creación del Centro Nacional de Evaluación para la Educación Superior (Ceneval, 1994) y del Instituto Nacional para la Evaluación de la Educación (INEE, 2002), éste para la educación básica. En El Salvador, en 1995 se estableció la Prueba de Aprendizaje y Aptitudes para Egresados de Educación Media (PAES), que mide el aprendizaje de conocimientos y aptitudes de los alumnos en el área de ciencias y matemáticas.

Desarrolladas en 1904 por el francés Louis Binet para detectar niños con deficiencias de aprendizaje, esas pruebas enseguida fueron transformadas en mediciones de la inteligencia y llevadas a los Estados Unidos. Como ofrecían la promesa de una medición objetiva y precisa de la inteligencia, terminaron siendo adaptadas y utilizadas para diferenciar a los inmigrantes y para clasificar reclutas durante la Primera Guerra Mundial. Desde entonces, sin embargo, mostraron una persistente tendencia a encontrar como retrasados o deficientes mentales no sólo a los inmigrantes procedentes de países del Mediterráneo, eslavos, judíos, mexicanos y africanos sino también a los afroamericanos y a los reclutas anglosajones provenientes de los estados del sur. Cuando dejaron de utilizarse masivamente en la década de 1930, debido a las reacciones negativas que provocaban, sufrieron adaptaciones y dieron origen a la Prueba de Aptitud Escolar (SAT, por su sigla en inglés). En 1947 surgió el Educational Testing Service (ETS), organismo privado que todavía hoy se encarga de seleccionar, por medio de la SAT, a los jóvenes que pueden tener acceso a la educación superior en los Estados Unidos.

El uso escolar de estas pruebas, primero en los Estados Unidos y luego en otros países, suavizó algunas de las expresiones del comienzo de siglo, pero no la tesis de que era posible determinar el futuro de las personas a partir de una medición exacta de su inteligencia. Quienes obtienen bajos puntajes en estas pruebas ya no son calificados como “inferiores mentales” sino como “carentes de la aptitud necesaria” para desarrollar estudios superiores. Persiste, además, inalterada –después de casi un siglo– la tendencia de que los niños y los jóvenes de familias pobres –pertenecientes a determinados grupos étnicos o de cierto origen nacional– aparezcan una y otra vez como menos talentosos. Por estas razones y por el hecho de que quienes administraban las pruebas se atribuían el poder para determinar quién tenía o no talento, por encima de las evaluaciones de maestros y de trayectorias académicas satisfactorias, dichas pruebas han sido cuestionadas y objeto de fuertes críticas. Por ejemplo, la Asociación de Psicólogos de los Estados Unidos recomienda expresamente que, tratándose de esos exámenes, “se debe evitar el número de aciertos como única base para tomar decisiones importantes que afecten a la vida de los individuos […]” (College Board, 1988).

La aplicación de estas pruebas en países como México y Chile parece confirmar tendencias de hace casi cien años. Según datos de los propios evaluadores, correspondientes al período 1994-2000, en México el puntaje nacional promedio para los hombres siempre ha sido superior al de las mujeres. También desde el comienzo de estas aplicaciones se detectó que “en términos generales a mayor ingreso familiar se obtiene un mayor porcentaje de aciertos” (Informe Ceneval, 1995). Lo mismo ocurrió en Chile, donde los alumnos más destacados en esos exámenes son de escuelas privadas. En efecto, de los 108 colegios de este país con la puntuación más alta sólo siete dependen de recursos públicos, el resto son privados y de alto costo (“Ranking General”, Revista Qué Pasa, abril de 2003).

El resultado discriminatorio ha sido atribuido a la configuración misma de estas pruebas que descansan, principalmente, en preguntas destinadas a medir la amplitud del vocabulario. Como ya ha sido comprobado, éste varía considerablemente según la clase social del estudiante, la escolaridad y la ocupación de los padres, el tipo de escuela que frecuentó, la región del país, la lengua materna distinta al español (indígena) y si vive en el campo o en la ciudad. El desconocimiento de una palabra no dice mucho sobre su capacidad para cursar estudios superiores, habla sobre todo de su entorno social. Por más que los evaluadores aleguen utilizar el vocabulario que “los jóvenes de ese nivel de escolaridad” deben conocer, esa categoría es generalmente una abstracción resultado de probar el instrumento con un grupo relativamente pequeño pero no necesariamente representativo de todas las variantes existentes en el país. Es el grupo de referencia que se toma como estándar (de allí el nombre de “prueba estandarizada”), pero se trata de un parámetro que no se ajusta a todos y, la mayoría de las veces, refleja más bien el vocabulario de los estudiantes de clase media urbana, con alta escolaridad, no indígenas y, además, de sexo masculino.

Los evaluadores niegan que los exámenes de opción múltiple sean discriminatorios. Argumentan que éstos no hacen más que presentar la desigualdad social y escolar tal como existe en los países latinoamericanos. Los críticos, por su parte, argumentan que, efectivamente, existe una tremenda desigualdad en los sistemas educativos, pero que este tipo de pruebas contribuye a exacerbarla, ya que coloca en primer plano las diferencias sociales a la hora de tomar decisiones de acceso a la educación superior. Ellos señalan que las evaluaciones otorgadas por los docentes a lo largo de un ciclo escolar (es decir, el promedio escolar resultado de otros tipos de pruebas), en una escala de cero a uno, tienen una correlación de apenas 0,037 con el factor o variable ingreso económico familiar. Sin embargo, la medición estandarizada aparece con una correlación casi siete veces mayor, de 0,239, lo que muestra su sensibilidad al origen socioeconómico de la persona. Correlaciones semejantes se encuentran con respecto a la educación de los padres, género y origen indígena.

El fundamento teórico de estas pruebas es igualmente endeble. El inglés Charles Edgard Spearman sostenía al comienzo del siglo XX que ciertas habilidades específicas (tales como vocabulario, comprensión de lectura, habilidades matemáticas y problemas verbales) estaban correlacionadas con una habilidad mucho más amplia y general, llamada precisamente “G”. Así, para conocer la inteligencia de una persona bastaba con medir su capacidad en esos rubros específicos (aunque a veces se agreguen en estas pruebas preguntas sobre los programas de estudio realizado: historia, geografía, biología, etc.). Sin embargo, transcurrido más de un siglo, no se ha podido demostrar esa correlación ni la existencia de este factor G en el cerebro que, como inteligencia única y general, explique la capacidad intelectual de una persona. Las teorías vigentes apuntan más bien en sentido contrario, en dirección a una multiplicidad de inteligencias.

A la luz de los problemas de medición discriminatoria y de la cuestionable medición que las pruebas de opción múltiple hacen de la aptitud, en América Latina se han multiplicado las críticas al hecho de que se utilicen esos exámenes de tres horas de duración como único elemento para determinar quién ingresa o no a la educación superior, y quién egresa de los estudios universitarios calificado como “meritorio”, “suficiente” o “insuficiente”. Se critica también que se los utilice para establecer una competencia entre escuelas y maestros a partir de esos endebles resultados, o que sirvan como instrumento de una especie de “ingeniería social” para determinar el destino escolar y social de muchos jóvenes. En el caso de la capital de México, cada año más de 250.000 aspirantes a la educación pública son medidos por el Ceneval con una prueba de este tipo y, según el resultado, asignados a escuelas de capacitación para el trabajo, o a escuelas que llevan a la universidad, o, directamente, son excluidos de la educación pública.

Tal vez, el caso más notorio de protesta contra las pruebas de opción múltiple haya sido la huelga de 1999-2000 realizada en la Universidad Nacional Autónoma de México (UNAM). En su origen los estudiantes se oponían al aumento de mensualidades, pero también a la utilización de los exámenes del Ceneval para determinar el acceso a esa institución pública y la salida de ella. A raíz de las protestas, esa y otras universidades mexicanas dejaron de utilizar las pruebas de ese organismo privado, versión local del ETS de los Estados Unidos.