Licencia de Creative Commons
blog profesor 3.0 by Alfredo Prieto Martín is licensed under a Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional License.

Sígueme en twitter

lunes, 20 de mayo de 2019

Eric Mazur después de revolucionar la enseñanza pasa a revolucionar la evaluación




Vamos a celebrar las 500.000 visitas a este blog con una nueva entrada de la serie sobre gurús educativos centrada en la evaluación y en dos de mis gurús favoritos Eric Mazur y Cees van der Vleuten. 
Eric Mazur
En los años noventa Eric Mazur se convirtió en uno de los profesores más famosos de la Universidad de Harvard al crear y popularizar maneras alternativas para enseñar y lograr que los alumnos comprendan. Estas nuevas metodologías eran mucho más eficaces que la clase magistral o expositiva (traditional lecture) para que los alumnos comprendiesen las  leyes de la física.
Estas nuevas formas de enseñar y aprender se basaban en el fomento del estudio autónomo de sus alumnos (antes de las clases) y en la realización en el tiempo de clase de actividades para el cuestionamiento y la evaluación formativa
Con estas metodologías (peer instruction) Mazur se adelantó en quince años al modelo de flipped learning (tan de moda en los últimos años). Eric  Mazur ideó el método peer instruction que consistía en plantear concept tests (preguntas conceptuales) a sus alumnos en clase para pedirles que contestasen prediciendo lo que debe ocurrir en una situación hipotética, al aplicar a ella los principios de la disciplina.
 A continuación se pide a los alumnos que discutan sobre las justificaciones de sus respuestas con aquellos compañeros que han escogido otras  opciones de respuesta. Tras la discusión los alumnos vuelven a contestar a la cuestión previamente planteada. Se pregunta a los que han cambiado de opción de respuesta que es lo que les ha hecho cambiar, se cierra la discusión sobre esa cuestión y el profesor plantea la siguiente cuestión para generar discusión.

Mazur comprobó que con esta metodología (el estudio previo, la resolución de tests conceptuales en clase y la explicación de sus argumentos a los compañeros que habían escogido otra opción) los alumnos comprendían mejor las leyes de la física y eran más capaces de aplicarlas para resolver nuevas situaciones. Con el Peer Instruction las ganancias de aprendizaje (diferencia entre lo que cada alumno comprende al final de la asignatura y lo que comprendía cuando la empezó) doblaban las ganancias de aprendizaje medias obtenidas en cada clase con respecto a las obtenidas mediante la metodología de enseñanza tradicional en la universidad (traditional lecture).

Años después Mazur también descubrió el valor sinérgico de las combinaciones entre distintos métodos innovadores de flipped learning (peer instruction y just in time teaching) y su potenciación con el uso de las nuevas tecnologías (flipping classroom with peer instruction). Mazur descubrió que si combinaba el peer instruction con otra metodología de comprobación del estudio previo del alumno denominada just in time teaching (desarrollada unos años antes por Novak) las ganancias de aprendizaje de sus alumnos llegaban a triplicar las obtenidas mediante la metodología tradicional. Mazur además combinó su nueva pedagogía basada en el cuestionamiento con una  tecnología (entonces nueva), los mandos a distancia de respuesta personal en tiempo real o clickers. El clickerism había nacido y en los primeros años del milenio se convertía en la tecnología más utilizada en las aulas de las mejores universidades de Estados Unidos  después del Power point y el ordenador portátil.

Con estas armas pedagógicas y tecnológicas en su poder, Mazur emprendió una cruzada  personal contra el abuso de la traditional lecture (clase magistral) que le ha llevado a la fama y también a las hogueras de los inquisidores universitarios enemigos de toda innovación en docencia que amenace la alteración del cómodo status quo actual del que los profesores gozamos desde el medioevo. Mazur no les gusta a los profesores que quieren seguir recitando sus lecciones como lo hacían sus antecesores desde hace 800 años (aunque ahora les es más fácil pues aunque no se sepan o comprendan la  lección a explicar,  pueden leerla directamente del powerpoint). De esta manera, Mazur se convirtió en el abanderado de la lucha contra el abuso de la traditional lecture y el héroe a seguir para los miles de profesores que como él eran conscientes de lo ineficaces que son las metodologías tradicionales de enseñanza universitaria y de la apremiante necesidad de cambiarlas por un modelo de aprendizaje inverso o flipped learning que combine métodos de fomento del estudio previo y de evaluación formativa.

Mazur empezó a dar la famosa y maravillosa conferencia Confessions of a converted lecturer (versión resumida) de la que  pueden encontrarse varias versiones en Youtube  y  en la que cuenta su historia de conversión personal desde ser un profesor magistral y multipremiado por lo bien que daba clases magistrales, hasta que se dio cuenta de lo poco que aprendían sus alumnos con esta metodología tradicional (que tanta satisfacción le  proporcionaba como orador monologista) y como decidió cambiar radicalmente su manera de enseñar para lograr que sus alumnos aprendiesen más. Otra entrada de este blog  (Eric Mazur, historia de un profesor convertido) relata esta fase de la vida de Mazur. 
Esta conferencia fue aplaudida por los partidarios de la innovación educativa en las universidades de los cinco continentes.  Muchos de los que la oyeron, se arrepintieron de sus pecados metodológicos, se convirtieron a la nueva metodología y se dieron cuenta de la necesidad de cambiar, muchos de los que ya estaban convencidos de la necesidad de cambio vieron en las metodologías de fomento del estudio previo usadas por Mazur un camino para lograr mejorar el aprendizaje de sus alumnos (el libro de Mazur Peer intruction: a user’s manual se vendió como rosquillas)
A Mazur le fue tan bien dando esta conferencia que la dio en los dos lados del Atlántico y del Pacífico, tanto en el hemisferio norte y como en el sur hasta que se cansó de repetirla tanto. Mazur buscó colaboradores que amplificasen su mensaje dando charlas sobre el peer instuction y algunos como Julie Schell hasta llegaron a ser auténticos profesionales de la formación del profesorado. http://blog.peerinstruction.net/author/peerinstruction/. Yo mismo difundí por mi cuenta en las más de veinte universidades de habla española en las que di cursos de formación del profesorado las ideas de Mazur y el peer instruction durante los últimos quince años.   
 Mazur ha sido capaz de contar por todo el mundo su descubrimiento de lo ineficaces y obsoletos que eran los métodos de enseñanza universitarios tradicionales, centrados en la transmisión de la información a los alumnos, pero no en su comprensión y en el ejercicio de su transferencia a nuevas situaciones. Mazur ha dejado claro que estos métodos tradicionales tienen efectos muy perjudiciales sobre el aprendizaje de los alumnos y su desarrollo de competencias para el razonamiento crítico y creativo. Lo sorprendente es que Mazur haya salido indemne de este periplo criticando lo mal que enseñan los profesores universitarios y que Errejón e Iglesias no le hayan boicoteado alguna de sus conferencias.
Para comprender en toda su amplitud los planteamientos de Mazur os recomiendo que si os gusta Confessions of a converted professor veáis también las últimas conferencias de Eric Turning Lectures into Learning, Peer instruction for active learning y Catalyzing Learning Using Learning Catalytics. Para así seguir la evolución de las ideas y planteamientos de Mazur.

Mazur empieza a atacar los métodos tradicionales de evaluación del aprendizaje en la universidad
Tras combatir durante más de una década el método tradicional de enseñanza en la universidad (el denominado traditional lecture) Mazur, que en el proceso se había convertido en un defensor radical de la revolución en la  manera de enseñar en las universidades, se dio cuenta de que no sólo los métodos de enseñanza estaban centrados en la transmisión de información sino que también los métodos de evaluación al uso en las universidades estaban también centrados en la regurgitación de la información memorizada y la reproducción mecánica de procedimientos memorizados para la resolución de problemas tipo. Estos métodos tradicionales de evaluación tenían efectos contraproducentes en el aprendizaje y el desarrollo de competencias en los alumnos universitarios. No enseñamos a nuestros alumnos a pensar en la Universidad, mas bien les enseñamos a memorizar sin pensar y por eso su capacidad para el razonamiento crítico no se desarrolla (Arum y Roksa,2011; Blaich y Wise,2011 )

 Mazur se dio cuenta de que no importa lo innovadora que sea la metodología de enseñanza, lo que determina como estudian los alumnos es el método con el vayan a ser evaluados. Es la evaluación la que dirige lo que los estudiantes hacen para superarla, no los buenos deseos o las buenas intenciones de sus bienintencionados profesores, no los objetivos de la guía de la asignatura, sino las pruebas y tareas con las que serán calificados. Si los profesores evaluamos algo distinto de lo que queremos que los alumnos aprendan, los alumnos aprenderán eso que evaluamos y por tanto no aprenderán lo que queremos que aprendan. Esta idea tiene mucho que ver con la idea del alineamiento educativo de John Biggs que es tratada en profundidad en otra entrada de este blog.
Basándose en este planteamiento provocador, de que las universidades no sólo enseñan mal sino que evalúan peor el aprendizaje de sus alumnos, Mazur empezó a dar tournees de conferencias sobre evaluación con un título muy provocador: Evaluación: el asesino silencioso del aprendizaje: (Assessment the silent killer of learning),  También son muy interesantes los vídeos de las conferencias Assessment the silent killer of innovation Why you can pass tests and still fail in the real world. Estoy seguro de que también disfrutaréis con las conferencias de Mazur en vídeo. Son magistrales en el buen sentido de la palabra .

Las ideas de Mazur sobre la evaluación del aprendizaje son muy interesantes, merecen un análisis detallado y nos pueden proporcionar caminos por los que mejorar nuestros métodos de evaluación del aprendizaje de los alumnos universitarios. Voy a comentar mi opinión y mi punto de  vista personal sobre ellas. La primera idea de Mazur es que la evaluación del aprendizaje tiene propósitos muy variados, él da una lista que establece que la evaluación del aprendizaje sirve entre otras cosas para:
  1. Calificar a los alumnos
  2. Calificar al profesor y a la asignatura
  3. Motivar a los alumnos para trabajar
  4. Proporcionar retroinformación a los alumnos sobre su aprendizaje
  5. Proporcionar retroinformación al profesor sobre su enseñanza y los problemas de aprendizaje de sus alumnos
  6. Rendir cuentas sobre la eficacia de la metodología docente
  7. Mejorar el aprendizaje y la enseñanza

Yo desde 2005 en mis cursos al profesorado universitario sobre evaluación del aprendizaje  también preguntaba a los profesores participantes  ¿para qué sirve la evaluación? y obtenía respuestas similares a estas.
  1.  Para calificar a los alumnos (y cumplir con una obligación burocrática)
  2.  Para acreditar, comprobar y medir el aprendizaje que produce la enseñanza
  3. Para estimular y motivar el esfuerzo de los alumnos
  4. Para detectar lo que debe corregirse, mejorarse y proporcionar al alumno feedback sobre su aprendizaje
  5. Para obtener información con la que mejorar el proceso enseñanza aprendizaje y la labor del profesor
  6. Para proporcionar otra manera de aprender superando retos
  7. Para entrenar al alumno para que rinda mejor en situaciones de evaluación acreditativa similares al procedimiento utilizado para la evaluación formativa.
En ambas listas puede observarse que la evaluación tiene utilidades muy diversas: acreditativas, formativas y de retroinformación para el alumno, para el docente y para la institución educativa. Aprovechar al máximo todos estos potenciales de la evaluación es clave para mejorar tanto el aprendizaje de nuestros alumnos como el modo de enseñarles. 
Mazur plantea el problema de que los propósitos de la evaluación son  tan variados  que a veces se pueden producir serios conflictos de intereses entre el logro de unos propósitos y otros. Al pretender lograr un propósito, hacemos la evaluación de una manera que evita o dificulta que se logren con ella otros propósitos muy relevantes.  
Cees van der Vleuten
A mí humilde entender, la solución más satisfactoria a este conflicto es la aportada por otro gran pensador sobre la evaluación, Cees van der Vleuten, con las nociones de utilidades de la evaluación y de compromiso en evaluación. Según van der Vleuten, cada instrumento de evaluación tiene una serie de características:
Validez
Fiabilidad
Impacto educativo que incluye el estímulo para el estudio y la oportunidad de generar feedback formativo
Aceptabilidad
Coste en medios humanos, materiales y económicos
El compromiso para van der Vleuten es … que no podemos tenerlo todo, tenemos que conformarnos con tener unos puntos fuertes comprometiendo otros menos esenciales en cada situación de evaluación.
Según van der Vleuten, la utilidad de un método de evaluación viene definida por la siguiente función de utilidad:
U= pf F x pvV x pie IE x pa A / pc C
Donde 
U= Utilidad
F = fiabilidad ¿es repetible el resultado?
V= validez ¿vale para medir lo que quiero?
IE = Impacto educativo ¿cómo afecta al aprendizaje?
A = Aceptabilidad ¿es aceptable para alumnos profesores y pacientes?
C = coste ¿podemos permitírnoslo?
p= coeficiente de peso relativo que asignamos a cada factor
El coeficiente de peso relativo (p) de la fiabilidad( F)  y (V) debe ser muy alto en la evaluación de utilidad acreditativa para que podamos tomar decisiones válidas y fiables sobre la calificación y promoción de nuestros alumnos. Sin embargo, el coeficiente de peso relativo (p)  del impacto educativo (IE) debe ser alto en la evaluación de utilidad formativa 

  La noción de compromiso en la evaluación significa que no lo podemos tener todo y que en ciertos tipos de evaluación no podemos sacrificar o comprometer algunas características de la evaluación, pero sin embargo, si podemos comprometer otras menos esenciales para la función o utilidad de ese tipo de evaluación. Estas ideas son desarrolladas en CPM Van der Vleuten (1996) The assessment of professional competence: developments, research and practical implications, Advances in Health Sciences Education 1 (1), 41-67.

La solución de van der Vleuten 
Es utilizar un sistema de evaluación continua que integra una evaluación formativa de baja repercusión/riesgo (low stakes assessment) con una evaluación acreditativa de alta repercusión/riesgo (high stakes assessment)
Para van der Vleuten la solución pasa por diferenciar claramente dos tipos de evaluación del aprendizaje que deben tener características muy distintas. El primer tipo de evaluación del aprendizaje es la evaluación de baja repercusión (low stakes assessment) cuya utilidad es principalmente formativa (estimuladora de esfuerzo, ejercicio de competencias y ocasión para el feedback formativo), pero que (a diferencia de la evaluación formativa tradicional) también tiene un peso en la calificación (aunque bajo).
 El segundo tipo es la evaluación de alta repercusión (high stakes assessment) en la que se pone el énfasis en sus propiedades como metodo de medida del aprendizaje, esto es, en su validez y fiabilidad para medir el aprendizaje y calificarlo y acreditarlo de manera precisa y exacta.
Esta división Low stakes/high stakes mejora la división tradicional en evaluación formativa (pero de ninguna repercusión) y la acreditativa (de total repercusión en la calificación). La división tradicional de la evaluación en formativa y acreditativa, hacía que ni profesores ni alumnos se tomasen en serio la evaluación formativa, pues por definición no tenia repercusión en la calificación y por ello orientaban casi todos sus esfuerzos hacia la acreditativa. Sin embargo, en el nuevo enfoque basado en distintos niveles de repercusión, la evaluación de baja repercusión si tiene algo de valor en la calificación aunque sea bajo, y de este modo será tomada más en serio por los profesores, pero sobre todo por los alumnos que son los que deben ser estimulados por la evaluación para trabajar.

¿Qué es lo que no se puede comprometer en la evaluación formativa? El impacto formativo

Por ejemplo, en la evaluación formativa no podemos comprometer el impacto, esa es la razón por la que realizamos evaluación formativa, queremos que estimule a los alumnos a razonar, a trabajar, a arriesgarse, a errar y a aprender de sus errores por medio del aporte de feedback inmediato. Si la evaluación formativa es low stakes, los alumnos  se la tomarán mucho más en serio que si fuese sólo formativa (cero stakes) y por ello tendrá más impacto, les hará trabajar más durante todo el cuatrimestre. Podemos relacionar la idea de low stakes con los sistemas de inducción a la acción mediante pequeñas recompensas que se usan en la gamificación.
Es muy fácil  saber si nuestro sistema de evaluación formativa tiene un impacto deficiente. Si el primer efecto de la evaluación formativa es estimular el trabajo de los alumnos debemos preguntarnos: ¿Logra estimular a nuestros alumnos para que  dediquen a nuestra asignatura el volumen de trabajo nominal establecido en los créditos ECTS de nuestra asignatura. Si es de 6 créditos los alumnos deberán dedicarle ente 90 y 100 horas de trabajo no presencial (dependiendo de la definición de crédito ECTS de cada universidad). Los estudios realizados demuestran que en la mayoría de los asignaturas, la mayoría de los alumnos que aprueban, no dedican el volumen de trabajo nominal establecido en el crédito ECTS sino más bien una cantidad que es la mitad de la que debería ser). F. Gómez y cols. Cálculo del volumen de trabajo del alumno en las nuevas titulaciones de grado de ciencias de la Salud.  Evaluación global de los resultados del aprendizaje en las titulaciones dentro del Espacio Europeo de Educación Superior 2011 Ed Dykinson ISBN:978-84-9982-814-5
Un  sistema de evaluación formativa eficaz es la única manera de estimular a la mayoría de los alumnos de países latinos para que trabajen 40 horas a la semana en su aprendizaje, que en un cuatrimestre sumarán las 750 horas de trabajo que deben suponer 30 créditos ECTS (750/25=30). Si en lugar de eso gracias a nuestro ineficaz sistema de evaluación formativa los estudiantes trabajan un 33% menos, por ejemplo 500 horas por cuatrimestre (en lugar de las 750 nominales) aprenderán posiblemente un menos pues van a clase 250 horas pero estudian la mitad de lo que deberían (250 h. en lugar de 500 h.) y desarrollarán en competencias una proporción menor todavía pues en las clases magistrales no las ejercitan y fuera sólo se ejercitan en aquellas asignaturas en las que les exigen proyectos y trabajos (hasta completar su carga no presencial) que son una exigua minoría. A nadie en posición de responsabilidad parece importarle que los alumnos trabajen lo que la definición legal de los créditos ECTS implica. La mirada hacia otro lado es unánime. Es una verdad que sabemos pero no estamos dispuestos a admitir oficialmente pues si la reconociéramos estaríamos obligados a cambiar las cosas y ello requeriría mucho trabajo extra por parte de los profesores universitarios.

¿Qué es lo que no se puede comprometer en la evaluación acreditativa? su fiabilidad, seguridad, validez y fiabilidad

El problema de la fiabilidad 
En la evaluación acreditativa no podemos comprometer la validez y la fiabilidad. No se pueden hacer exámenes acreditativos en una hora pues la investigación demuestra que los resultados no serán lo suficientemente fiables y reproducibles. Si no son fiables, no podrán ser validos y las decisiones acreditativas en base a esas pruebas no fiables dejarán mucho que desear e incurrirán en indeseables errores.  

Van der Vleuten demuele el mito de que algunos métodos de evaluación son "fiables por definición" y demuestra como para alcanzar la fiabilidad no vale con usar ciertos métodos (como el MCQ) sino que es necesario que los exámenes recojan evidencias de una muestra representativa  de los conocimientos y habilidades de cuyo aprendizaje se quieren obtener evidencias. Dicho en pocas palabras: la fiabilidad depende del muestreo, no de la supuesta objetividad del método de calificación.  Por ello usar un método supuestamente objetivo examen tipo test MCQ no hace a nuestro método fiable. Para que sea fiable o reproducible debemos estar seguros de que si realizamos otras prueba los resultados serán muy similares a los de la primera. Si el alumno que sacó un 6 saca un 4 al realizar otra prueba similar el procedimiento de medida no es fiable ¡Ni siquiera para tomar decisiones certeras  sobre a quien debemos aprobar !



 La figura muestra como incluso métodos considerados objetivos como el MCQ no son nada fiables sin un muestreo representativo. Un examen de test que sólo muestree durante una hora simplemente no es fiable para dar una calificación precisa del aprendizaje del alumno.

El problema de la seguridad (una prerequisito para la fiabilidad)

El MCQ practicado de esta manera no será fiable incluso si asumimos que los alumnos no van a hacer trampas. A día de hoy esa es una asunción muy peligrosa en España. Cuando los alumnos viven inmersos en una cultura de picaresca en la que alcaldes y hasta presidentes de autonomías y ministros son imputados y encarcelados por incumplir la legalidad. Cuando ante un caso de copia de un examen flagrantemente detectado las autoridades académicas te dicen ¿Pero les habíais dicho a los alumnos que tenían prohibido copiar? Cuando los alumnos han copiado con permisividad en secundaria y entran en una universidad llena de profesores confiados desconocedores de la revolución tecnológica de los métodos 2.0 de copia y chuletaje en la última década, es seguro que algunos aprovecharán los fallos de seguridad en el sistema de evaluación para copiar y los profesores tenemos que tomar medidas para evitarlo.
 Por tanto, hoy en día hay otro factor que influye muy negativamente en la fiabilidad de la evaluación que es la confidencialidad y seguridad de la prueba. Múltiples modelos de examen para evitar la copia,  aulas grandes en las que podamos separar a unos alumnos de otros, múltiples profesores para que uno siga vigilando cuando otro resuelve dudas de los alumnos son necesarios para lograr esa seguridad.

 En los nuevos grados se ha puesto de moda entre profesores que ignoran lo que implica los conceptos de seguridad  y fiabilidad de la prueba (tristemente la mayoría) el realizar exámenes de una hora (baja reproducibilidad) en el aula en la que se dan las clases con los alumnos respondiendo codo con codo (nula seguridad de que las respuestas representen lo que el alumno sabe y no aquello que saben sus compañeros más próximos). Lo que es casi seguro en estas condiciones es que el alumno que necesita copiar porque no tiene ni idea, copia todo el examen de su compañero de al lado. Por todo lo dicho anteriormente, está claro que ese tipo de pruebas de evaluación acreditativa  no pueden ser tomadas por fiables ni seguras, pero esto  no parece ser ningún problema para los profesores o por lo menos para aquellos que ignoran lo que es la fiabilidad de la evaluación, que por sus actos demuestran ser bastantes. 
 Hoy en día los alumnos fotografían exámenes en las revisiones o en el mismo examen con útiles propios de los espías de la CIA o la KGB y no pasa nada y acaban aprobando la evaluación de muchas asignaturas estudiando exámenes de otros años (trivialización de la evaluación).  
En las asignaturas en las que se asigna mucho peso a los trabajos, los alumnos aprenden sobre aquellos temas que escogen para sus trabajos, pero no aprenden sobre buena parte del temario. No aprenden casi temario pero al menos desarrollan las competencias que necesiten ejercitar para completar los trabajos que sus profesores les exigen.

El problema de la validez
  Para complicar el problema de  la validez de nuestras pruebas Mazur nos demuestra que cuando usamos distintos métodos de evaluación para medir el mismo resultado de aprendizaje obtenemos distintos resultados. ¿Cuál será el más válido? De nuevo el genial van der Vleuten tiene una solución para el problema: Es una solución ecléctica, ya que no hay un método superior a los demás, debemos combinar sabiamente lo mejor de distintos métodos para realizar una evaluación low stakes que maximice su impacto sobre el aprendizaje del alumno y una evaluación high stakes que maximice su validez y fiabilidad. Debemos integrar ambas modalidades dentro de una evaluación programática que permita realizar un seguimiento individualizado del progreso de  cada alumno.


¿Qué estamos haciendo mal en la evaluación de nuestros alumnos? El abusivo uso de enfoques acreditativos y el déficit en la evaluación con utilidad formativa 
La tradición en la Universidad es abusar de la evaluación acreditativa y no poner el énfasis necesario en la evaluación formativa. Por ello, los nuevos grados de EEES son en créditos ECTS (que al menos en teoría en deberían implicar una carga de trabajo no presencial del alumno). Por ello, nos obligaron normativamente a usar un sistema de evaluación continua pese a que a muchos profesores no les entra todavía en la cabeza que la evaluación continua debe para tener un impacto sobre el aprendizaje, ser realizada con un enfoque formativo que proporcione feedback a los alumnos. Para cumplir con la evaluación continua se ha puesto de moda hacer "examencitos" que pesan un 25 o un 30% de la nota (está prohibido que pesen más de un 40%) de los que no se extrae ningún feedback correctivo para los alumnos.
Para Mazur, que analiza la situación de las universidades norteamericanas, el problema de fondo es que la evaluación del aprendizaje en la universidad está demasiado enfocada en sus aspectos acreditativos “ranking and clasifying” y demasiado poco en proporcionar retos auténticos y oportunidades para el feedback formativo. Esto es decir de otra manera que estamos usando una evaluación inauténtica (inautentic asessment) con fines acreditativos y sin embargo, no estamos utilizando ni una mínima parte de su potencial como fuerza educativa y estimuladora del esfuerzo continuo de los alumnos. El abuso de evaluación acreditativa e inauténtica reduce mucho las oportunidades para que nuestros alumnos reciban feedback formativo que tan necesario es para que desarrollen competencias complejas. Van der Vleuten coincide en este diagnóstico de males. Para él la cultura de evaluación universitaria es reduccionista y reduce todo a una cifra escalar con la que se califica destruyendo mucha información y despreciando el impacto educativo y la aportación al conocimiento del desarrollo competencial de los alumnos que podría tener una evaluación mejor diseñada. 

El problema de la autenticidad: evaluación auténtica y evaluación sin autenticidad

 Un enfoque inapropiado de la evaluación sería un factor conducente a los aprendizajes inapropiados de muchos de nuestros alumnos pues según Mazur "is the assessment that drives student behaviour " "study habits are driven by assessment". Por esta razón, la inautenticidad de la evaluación que utilizamos en la universidad, hay alumnos con excelentes notas que luego fracasarán en su puesto de trabajo mientras otros que no llegaron a titularse triunfarán en la vida profesional. El empollón y ratón de biblioteca que triunfaba en la universidad puede ser un negado para la colaboración, el trabajo en equipo, la comunicación y  el razonamiento crítico y creativo.  Del mismo modo en que la clase tradicional está enfocada en la transmisión de información  a los alumnos, la evaluación se enfoca en pedir a los alumnos que regurgiten esa información de nuevo a petición de su profesor.  Por tanto, la evaluación de las asignaturas universitarias fracasa en evaluar las competencias que son relevantes en el desempeño de los perfiles profesionales propios de la titulación en el contexto del siglo XXI. 
Lo que en realidad se evalúa ha sido denominado como el currículo oculto y este currículo oculto es lo que dirige los hábitos de estudio de los alumnos. A menos de que repensemos nuestro abordaje ante la evaluación, será muy difícil producir un cambio significativo  en los hábitos de estudio y razonamiento y en el aprendizaje de nuestros alumnos.

Según van der Vleuten venimos de una cultura de evaluar para calificar, sin  producir feedback, ni oportunidades de remediación. Una cultura obsesionada con la objetividad y con el MCQ (multiple choice cuestionnaire) como método paradigmático. También nos parece normal que se produzca una enorme pérdida de información en el proceso de evaluación. Aunque evaluaemos de forma estructurada varias comptendcias en una asignatura luego destruimos esa información al convetirlaen un numero del 0 al 10  (conversión del multivector en un número escalar.) No hay remediación, sino repetición de los exámenes y asignaturas que se basa en un modelo educativo desfasado. Una evaluación inauténtica centrada en aquello que es más fácil de medir con pruebas objetivas y estandarizadas de recuersdo de hechos y aplicación mecánica. Una evaluación casi siempre centrada en aquello mas simple y qué es más fácil aprobar y que por ello casi nunca evalúa los niveles superiores de las pirámides de  Bloom, Biggs  y Miller.
Mazur profundiza en el análisis de las diferencias entre los problemas auténticos de la vida real y los problemas de libro con los que evaluamos a nuestros alumnos y concluye que incluso aquellos que dicen poner a prueba la capacidades para de resolver problemas realmente no lo hacen, pues son muchos los alumnos que aprenden a resolver estos problemas de manera mecánica y memorística.
Los problemas reales que afrontamos en la vida suelen tener un desenlace deseado y conocido y el problema es dar con la manera de llegar allí. Sin embargo, los  problemas de libro, especialmente en las ciencias lo que ponen a prueba es si el alumno es capaz de utilizar un procedimiento conocido (y muchas veces memorizado) para llegar a una solución desconocida, esto es lo que Mazur llama problemas inauténticos (problemas falsos o problemas carentes de autenticidad) e incluso nos cuenta el ejemplo de cómo degradar un problema real que pondría a prueba varios niveles de la pirámide de Bloom para convertirlo en un problema inauténtico de libro que sólo  pone a prueba si el alumno con los datos que ha recibido sabe identificar qué tipo de problema es y recuerda de memoria que formula tiene que utilizar para resolverlo .
Mazur pone el siguiente ejemplo:Durante un sábado en la tarde, vas en coche a un centro comercial, das vueltas alrededor del parking pero no hay ningún espacio disponible para aparcar. Decides esperar en un lado del estacionamiento, donde puedes ver (y controlar) alrededor de 20 espacios.
¿Cuánto tiempo tienes que esperar antes de que haya un espacio disponible?
¿De qué dependerá el tiempo que tendrás que esperar?
La solución requiere: el desarrollo de un modelo y la aplicación de ese modelo. Esto sería un problema real pero pocos alumnos lo resolverían y la mayoría suspenderían porque no están entrenados en usar su creatividad para desarrollar modelos y hacer asunciones para poder desarrollarlos. Si añadimos la asunción de partida: La gente hace compras en un promedio de 2 horas y asumiendo que la gente sale en intervalos espaciados regularmente, el alumno solo deberá desarrollar un modelo sugerido por las asunciones declaradas. Sin embargo, muchos fallarían todavía.
La solución en el método de enseñanza tradicional es que si le decimos a los alumnos que este tipo de problemas se resuelve usando la formula: tiempo de espera = tiempo de compra / número de espacios
Si el alumno recuerda de memoria la formula  o la apunta en una chuleta, la resolución solo requerirá identificar el tipo de problema aplicar la formula de memoria un poco de cálculo  y si dejan usar calculadora ni eso.
¿Evaluamos competencias relevantes con problemas tipo que se resuelven mecánicamente? O ¿evaluamos identificación de tipo de problema y su resolución de memoria?
Mazur descubrió que sus alumnos de Harvard eran capaces de resolver complejos problemas de física sin entender lo más mínimo la física subyacente a las fórmulas que utilizaban.
De esta manera el problema evalúa si el alumno ha memorizado los tipos de problemas y las formulas a usar en ellos. De esta manera producimos aprendizajes memorísticos de corta persistencia que no son transferibles a nuevas situaciones y solo sirven para que los alumnos superen la evaluación y luego olviden. Según Mazur "unless you can transfer what you have learned in one context to another context, you have not really learned."
Mazur concluye que aprender de esta manera no es lo que necesitan los universitarios del siglo XXI. Los problemas reales se resuelven asumiendo riesgos, diseñando prototipos de soluciones, probándolas y si fracasan ideando otras. Esto requiere hacer pruebas y proponer soluciones tentativas que pueden fallar. Sin embargo, la evaluación que practicamos en la universidad les hace ir al procedimiento seguro, evitar los riesgos y de esa manera no aprenden a desarrollar soluciones creativas.

 Otra característica inauténtica de los procedimientos de evaluación es que se realizan casi siempre en situaciones de aislamiento de otras personas y fuentes de información De este modo los alumnos no aprenden a obtener la información de fuentes originales, ni a usarla en el seno de grupos de trabajo.

El conflicto entre nuestro role como tutor-entrenador y nuestro role como juez evaluador

Finalmente Mazur plantea el conflicto juez-entrenador (coach-judge) que tenemos en nuestra posición como profesores universitarios. La dificultad de ser jueces justos precisamente con aquellos a los que intentamos ayudar a aprender. Este conflicto frecuentemente lo intentamos resolver aumentando objetividad de nuestras pruebas. Como el método más objetivo es además el que menos trabajo da para corregir el MCQ algunos llegan a basar toda su evaluación en pruebas MCQ. Esto significa que en nombre de la objetividad bajamos nuestra evaluación a los niveles más bajos de la pirámide de Bloom y de Miller y nos dejamos los niveles superiores sin evaluar.
Mazur propone como solución de usar evaluadores distintos del entrenador un profesor es tutor- y otro auditor. Nosotros lo hacemos en nuestros trabajos de equipos. El tutor califica el trabajo de cada alumno en las tutorías de seguimiento pero es otro profesor distinto del tutor del grupo el que valora el resultado del trabajo del equipo.


¿Cuáles son los problemas que tenemos con la evaluación? ¿Cómo resolver estos problemas?
Planteo esta pregunta a los participantes en todos los cursos sobre evaluación que imparto y las respuestas de mis compañeros me han permitido establecer una taxonomía de problemas más frecuentes en la capacidad del profesorado para aprovechar el potencial de la evaluación :
Profesores que no saben como hacer una evaluación fiable y valida. Hacen exámenes acreditativos (por el 40% de una asignatura) de una hora con los alumnos copiando del de al lado y se quedan tan panchos. Si les dices que ese procedimiento no tiene fiabilidad lo mismo te preguntarán extrañados :¿Qué es eso de la fiabilidad?
Profesores que no alinean bien lo que evalúan con lo que quieren que aprendan sus alumnos.
Te preguntarán: ¿Qué es eso del alineamiento educativo? quieren que sus alumnos aprendan unas cosas y sin embargo sus pruebas de evaluación miden otras distintas (¡ !).

Profesores que no saben lo que es la evaluación formativa y por tanto no son capaces de utilizar su poder para que los alumnos estudien más durante todo el cuatrimestre y aprendan más.
  Te preguntarán ¿Que es eso de la evaluación formativa? ¡ Menuda chorrada !
Profesores que son capaces de hacer una evaluación valida y fiable, que saben alinear  lo que evalúan con sus objetivos, que saben lo que es la evaluación formativa, pero que no saben como aprovechar todas las posibilidades de la evaluación formativa para dar feedback formativo a sus alumnos.
Te preguntan : ¿Qué es eso del feedback formativo? 
Profesores que son capaces de hacer una evaluación valida y fiable, que saben alinear  lo que evalúan con sus objetivos, que saben lo que es la evaluación formativa,  y son capaces de proporcionar feedback, pero no son capaces de lograr que sus alumnos trabajen 25 horas por cada crédito ECTS.
Te preguntan : ¿Qué es eso del flipped learning?  
Profesores que son capaces de hacer una evaluación valida y fiable, que saben alinear  lo que evalúan con sus objetivos, que saben lo que es la evaluación formativa,  y son capaces de proporcionar feedback y saben explotarla  para tener el impacto deseado sobre el trabajo de sus alumnos en tareas formativas
Te preguntan ¿Qué son las competencias genéricas, transversales y del siglo XXI y como se pueden evaluar?
Profesores que saben todo lo anterior y además saben usar la evaluación para transformar y hacer madurar a sus alumnos.
Esto supone implicarlos en los procesos de evaluación mediante técnicas de evaluación compartida supone hacer protagonista al alumno en ejercicios en los que evalúa los productos del trabajo de sus compañeros e incluso aprende a  autoevaluar su propio trabajo mediante el uso de rúbricas y dinámicas de evaluación por compañeros.

Las soluciones de Mazur
Mazur nos propone una serie de ideas para solucionar los problemas de la evaluación universitaria:
1.     Imitar la vida real, hacer que los alumnos trabajen en equipo, realizando indagación y usando fuentes de información, resolviendo problemas y desarrollando proyectos. Uso de métodos inductivos que permiten ejercitar y evaluar competencias.
2.    Evaluar en condiciones de acceso a información en exámenes de libro abierto y en equipos evaluación formativa con IFAT (inmediate feedback assessment technique)
3.    No enfatizar tanto el aspecto calificativo y el ranking de las calificaciones obtenidas sino enfatizar más el impacto educativo mediante estimulación del trabajo del alumno y la generación y colectivización del feedback.
4.    enfocarse más en el desarrollo de  las competencias y menos en los contenidos, por ejemplo repartiéndose la evaluación de distintas competencias entre distintas asignaturas. 



Para los que consideren que la evaluación del aprendizaje es algo tan complejo que no tiene solución hago un comentario que es una opinión personal. Yo soy de la opinión de que va ser más fácil cambiar los métodos de evaluación que los métodos de enseñanza por la sencilla razón de que si los profesores permanecen anclados en la clase magistral es por que les gusta hacerlo y por ello es muy difícil cambiar. Sin embargo, el examen tradicional es algo que sólo puede gustar a profesores sádicos y vagos y a alumnos vagos y masoquistas, por tanto habrá menos resistencia por parte del profesorado y el alumnado para desarrollar otros métodos alternativos de evaluación formativa y acreditativa. Mi predicción es que dentro de 10 años en las universidades españolas habremos incorporado mucha más evaluación formativa pese a que persistamos en el empleo de las clases magistrales expositivas.

Finalizo con otra idea de Mazur: el aislamiento forzado para poder medir lo que el alumno ha memorizado no sirve para predecir lo que el alumno es capaz de hacer en un contexto conectado que es el real en el siglo XXI con acceso a la información y a la interacción con otros compañeros. Por eso  hoy en día cuando en cualquier profesión vamos a tener acceso a la información no tiene ningún sentido seguir evaluando en condiciones de aislamiento como lo hacíamos en el siglo anterior. Podemos ver esta idea en un vídeo de Mazur con subtítulos en español que dejo como despedida "Why you can pass tests and still fail in real world"
.Para una discusión mas académica sobre estos temas puedes consultar el artículo de revisión

La evaluación del aprendizaje universitario: conflictos entre sus distintas utilidades y compromisos de resolución para preservar las características más esenciales en cada tipo de evaluación


No hay comentarios: