Más allá de las pruebas/Beyond testing. Deborah Meier
ahora estaban menos ansiosos. Sabía de igual forma que esto podría llevar a resultados negativos si es que los estudiantes dejaban de tomar en serio la prueba. Sin embargo, yo sentía que el explicarles que los ítems se iban complejizando a medida que avanzaban en la prueba los reconfortaba, y que en verdad son esos pocos últimos ítems los que estaban pensados para que muy pocos chicos los respondieran correctamente.
Me di cuenta de que mi habilidad para tomar pruebas estandarizadas estaba relacionada directamente con mi capacidad de entender cómo veían el mundo las personas que habían diseñado la prueba. Y lo que estos y otros adultos querían que yo respondiera. El problema era que las experiencias pasadas de mis estudiantes los habían llevado a una trampa. Ellos también contestaban con aquello que creían que los adultos aprobarían –pero la experiencia los dirigió a conclusiones erróneas. Las experiencias de mis estudiantes, sus familias y comunidades eran diferentes a las de quienes diseñaban las pruebas y a las de los niños que ellos tenían en mente al decidir qué respuestas eran “correctas”. Mis estudiantes tenían suficiente vocabulario en cuanto al número de palabras, pero no eran las palabras que habían sido seleccionadas para la prueba. En resumen, su propia inteligencia intuitiva y sofisticada era más una desventaja que un beneficio.
Claramente mi base de conocimiento –haber hablado y leído con y para los niños– me había dado una mejor base para evaluar sus habilidades y conocimientos. Lamentablemente, los niños y sus padres tenían demasiada confianza en las pruebas y esto los había conducido a un sentimiento de desesperación e incompetencia: “Todavía estoy bajo el nivel del curso no importa cuánto me esfuerce o cuánto crea que he mejorado”. Es por esta razón que en la Escuela Primaria Central Park East (CPE) desarrollamos una escala diferente de lectura junto a una forma diferente de presentar la información a los chicos y sus familias. También les explicamos todas las razones por las cuales sus puntajes en las pruebas estandarizadas no representaban sus habilidades –incluyendo error de medida estándar, las cuales eran bastante considerables. Así que grabamos a los niños leyendo y desarrollamos una escala que pudiésemos usar de forma confiable entre nosotros y también para las familias. Los chicos y sus padres disfrutaban de escuchar esas grabaciones a lo largo de los años y ver que se reconocía su progreso. La escala incluía lectura, hablar acerca de lectura asignada y conversaciones sobre aspectos de leer. Y continuamos apoyándonos en un número creciente de evaluaciones diferentes a las pruebas estandarizadas.
El poder de los portafolios
Cuando asumí el cargo de directora de la Escuela Secundaria Central Park East, estaba sorprendida de que tanto los estudiantes como las familias tomaron tan en serio y con tanto respeto los portafolios y sus presentaciones (véase el capítulo siete). Les habíamos explicado que ellos estaban haciendo algo similar a lo que hacen los candidatos a doctorado cuando presentan sus tesis a sus comités, o también algo más cercano a lo que los empleadores hacen cuando evalúan candidatos para trabajos que requieren habilidades y comprensión real. Ellos –profesores y empleadores– en lo posible buscan evaluar a los candidatos en base a su trabajo real y a las explicaciones que estos dan sobre cómo hicieron su trabajo. También se acercaba al sistema profesional desarrollado por la Junta Nacional de Estándares Profesionales de Enseñanza (yo participé en su junta fundadora). Su sistema incluía portafolios y videos de enseñanza real seguido por conversaciones y explicaciones acerca de porqué habían hecho tal o cual cosa.
La autenticidad del proceso era impresionante para los chicos. Rara vez cuestionaban su precisión, y si un profesor o un estudiante, o la familia tenían dudas acerca de los resultados, siempre podíamos repetir la evaluación teniendo en cuenta sus comentarios. Tenían la oportunidad de cuestionar nuestras conclusiones y algunas veces incluso hacernos cambiar de opinión. Nos ofrecía a nosotros, como profesores, una oportunidad para entender de mejor manera los trabajos de otros y cómo nuestros estudiantes entendían su propio trabajo. El involucrar evaluadores externos, los padres y estudiantes más jóvenes también nos daban información útil para mejorar nuestro trabajo.
Era tan impresionante que, en retrospectiva, claramente debimos haber usado un método similar para pasar del sexto al séptimo grado, del octavo noveno y del decimos al onceavo. En estas ocasiones utilizamos un acercamiento menos riguroso y formal que estaba basado prácticamente en la misma idea, pero estaba apoyado principalmente en nuestras intuiciones individuales y menos en el diálogo abierto entre adultos observantes y los mismos estudiantes.
También era muy útil al final del doceavo grado la reflexión personal obligatoria que debían escribir como autoevaluación, sobre sus planes para la próxima fase de su vida e ideas sobre mejoras o cambios que estas prácticas necesiten (véase el capítulo tres). Esto no tenía ningún tipo de puntaje, pedir una oportunidad para que las familias, los estudiantes y los profesores reflexionaran en conjunto acerca de las formas en que cada uno podía ser de ayuda. Debimos haberlo empezado antes.
El hecho de que durante todo este proceso el juicio y la experiencia de los adultos era respetada y mostrada abiertamente a los estudiantes era un aspecto importante del diseño. Creíamos que les ayudaría en el futuro a ver que la adultez y la experiencia como algo altamente valioso –¡aunque no perfecto! Por esto no nos sorprendía cuando profesores universitarios y los encargados de admisión nos comentaban acerca de estas cualidades en nuestros graduados, cómo también de la facilidad que tenían para participar en discusiones con adultos.
Argumentos en contra de las pruebas estandarizadas de alto impacto
En retrospectiva, debimos haber sabido mucho antes que depender de pruebas estandarizadas de alto impacto para asegurar calidad en las escuelas, no era inevitable ni deseable. La historia de las pruebas estandarizadas al principio del siglo XX es un recordatorio de que la práctica debió haber sido criticada más profundamente desde antes. Por ejemplo, La falsa medida del hombre (The Mismeasure of Man, 1996), el tratado de Stephen Jay Gould sobre la historia de la craneología y los primeros intentos de realizar pruebas estandarizadas, debiese ser lectura obligatoria. Como lo presenta Gould, sicólogos tales como Alfred Binet y Lewis Terman empezaron el movimiento de las pruebas estandarizadas con pruebas de CI. Estas pruebas median la inteligencia de quien estaba siendo evaluado a partir, principalmente, de un número limitado de preguntas. De igual forma como los profesionales de la craneología afirmaban que sus evaluaciones de las cavidades de la cabeza medían supuestamente la inteligencia, estas nuevas pruebas fueron utilizadas para afirmar que las personas de piel negra o de piel morena que las rendían eran menos inteligentes que aquellos de piel blanca. Estos resultados han sido citados por movimientos eugenésicos como evidencia para discriminar racialmente en contra de nuevos inmigrantes. Esto por sí solo debería haber sido una señal de advertencia de que no serían apropiadas para ser utilizadas en escuelas. Pero se abrieron paso, alcanzado a un número de estudiantes cada vez mayor y siguieron mostrando que los estudiantes blancos recibían mayores puntajes que estudiantes de piel negra o morena. Esto a pesar de que se han realizado múltiples estudios sobre la precisión de las pruebas estandarizadas y se ha demostrado que estas poseen sesgos y efectos dañinos en decisiones de alto impacto ligadas a ellas.
Es importante considerar que las pruebas estandarizadas afirman medir el conocimiento de quien las rinde, pero están basadas en una muestra pequeña del conocimiento del evaluado y nunca en la totalidad de este. Entonces, ¿Cómo puedes saber si la muestra representa la total extensión de conocimiento? Nunca podrás saberlo, por lo tanto, los resultados de las pruebas, por definición, deben tener un amplio margen de error en el muestreo, incluso si asumimos que las preguntas en sí mismas no tienen un sesgo hacia las fortalezas particulares de algunas personas por sobre las de otras; midiendo conocimiento que no debiese ser medido, pero que los estudios han demostrado que sí está siendo medido.
FairTest, una organización que ha intentado monitorear la imparcialidad de pruebas desde 1985, ha notado que los puntajes del SAT2 presentan una correlación perfecta con la riqueza de la familia (FairTest, 2015). Había excepciones, pero no muchas. Cada US$20.000 de ingreso familiar era correlativo con puntajes más altos en la prueba (véase también Rampell, 2009). Varias organizaciones han continuado investigaciones del mismo tipo de las que yo conduje a mediados de los sesenta, cuando hacía clases en el Harlem Central.