¿Qué hacer con ítems discriminables?

Comentarios generales

(1) Conservar en un examen ítems cuya calidad es cuestionable es… cuestionable. Puede ser similar a descartar puntos en una curva de calibración porque estropeen el coeficiente de correlación.

(2) Aunque bajarle la nota a una persona al descartar un ítem sea fundamentable desde la evaluación, es difícil argumentar que sea “justo”. Si la persona tuvo bueno el ítem, aunque el ítem no sea robusto, esta situación genera una complicación. Es saludable mantener la nota que sea mayor antes o después de la corrección.

(3) Desde el punto de vista de la evaluación no tiene sentido dar una nota superior al máximo posible (100% aprovechamiento). Esto por cuanto esto implicaría dar puntos por contenidos que no se han ni cubierto ni evaluado. (Sería como pedirle al banco en el 2020 los intereses de lo que pensamos ahorrar en el 2025. Aunque sí hay una herramienta financiera que lo permite…) Por lo mismo, desde la evaluación no tiene sentido “dar puntos” por ir a horas de oficina, preguntar mucho en clase, o hacer “trabajos extra”. Eso es manipular arbitrariamente la medición. Esto es diferente a hacer consideraciones holísticas pues en ese caso deben responder a la filosofía de educación que oriente la práctica docente.

Casos para considerar

Se tienen dos estudiantes hipotéticos:
Pepita que sacó 39 buenas de 40 preguntas y Pepito que sacó 20 buenas de las mismas 40 preguntas.
Supóngase que hubo solo un ítem descartable.
Las dos opciones abajo muestran los escenarios más relevantes.

Opción 1: Eliminar la descartable totalmente del examen.Esto quiere decir, restar la pregunta del puntaje de quienes la tuvieron buena o mala y del puntaje máximo posible.
Nota originalPepita: (39/40) x 100= 97.5%Pepito: (20/40) x 100 = 50%
Nota corregida si la tuvo buena:Pepita: (39-1/40-1) x 100 = 97.4%Pepito: (20-1/40-1) x 100 = 48.7%
Nota corregida si la tuvo mala:Pepita: (39/40-1) x 100 = 100%Pepito: (20/40-1) x 100 = 51.3%

Opción 2: Eliminar la descartable solamente para quienes la tuvieron mala.Esto quiere decir, restar la pregunta del puntaje máximo posible solamente de quienes la tuvieron mala.
Nota originalPepita: (39/40) x 100= 97.5%Pepito: (20/40) x 100 = 50%
Nota corregida si la tuvo buena:Pepita:  (39/40) x 100 = 97.5%Pepito: (20/40) x 100 = 50%
Nota corregida si la tuvo mala:Pepita: (39/40-1) x 100 = 100%Pepito: (20/40-1) x 100 = 51.3%

Un análisis similar se puede hacer para dos, tres o cuatro preguntas descartables (cuatro es el máximo que queremos para un instrumento de 40 ítems). Entre más preguntas se descarten más “sube” la nota con la corrección. Es importante enfatizar que esto no es “inflar” las notas pues si la pregunta es descartable es porque no hay confianza de que mida lo que se supone tiene que medir (aquí se puede aplicar una analogía con análisis químico). Así, no se sabe por qué l@s estudiantes tuvieron incorrecta esa pregunta. Esto se refiere a que no se sabe con suficiente certeza si la persona tuvo ese ítem incorrecto porque no maneja los contenidos o si la tuvo incorrecta porque la pregunta no es de suficiente calidad. Esto se puede traducir, más o menos, diciendo que cuando la incertidumbre de un análisis cualitativo es muy alta, se incrementa la probabilidad de obtener falsos negativos. No se detecta el elemento no porque no esté sino porque el análisis no lo detecta. La nota basada en el cálculo corregido por el contrario usa solamente ítems “confiables” y tiene mayor probabilidad de capturar o representar lo que la persona sabe y entiende.La propuesta sería no contabilizar las pregunta descartables para quienes las tuvieron incorrectas y usar la nota mayor entre la original y la corregida para todas las personas.

Áreas grises

Área gris 1
Al hacer análisis de ítems, es posible que dos personas con el mismo número de respuestas correctas tengan diferente nota. En Teoría Clásica de evaluación esto no se da pues se asume que todos los ítems son equivalentes (o “iguales”). Este supuesto no tiene mucha validez. El mismo cálculo de la dificultad de los ítems muestra que no todos los ítems son equivalentes. Igualmente, la correlación de punto biserial muestra que no todos los ítems son equivalentes. Las teorías de evaluación “menos clásicas” reconocen esto y de ahí las correcciones.Para propósitos de ejemplificar, supongamos que Pepita y Pepito contestaron ambos 38 ítems de manera correcta. Sin embargo, no los mismos 38. Hay dos ítems descartables que Pepita contestó incorrectamente y que Pepito contestó correctamente.
Nota originalPepita: (38/40) x 100= 95,0%Pepito: (38/40) x 100 = 95,0%
Nota corregida usando Opción 2: Eliminar descartables solamente para quienes la tuvieron mala:Pepita:  (38/38) x 100 = 100%Pepito: (38/40) x 100 = 95,0%
Inicialmente, esto puede parecer “injusto” pues con el mismo número de ítems correctos, Pepita saca mayor nota. (Esto es pensando en términos de Teoría Clásica.) Sin embargo, tiene sentido pues Pepita contestó correctamente todas las preguntas que discriminan mientras que Pepito falló dos preguntas que discriminan. O sea, estas preguntas que discriminan nos permiten hacer eso, discriminar entre Pepita y Pepito, mientras que las preguntas de baja calidad (descartables) enmascaran la diferencia y nos hacen creer que el rendimiento de ambos es equivalente.El reto es hacer llegar este mensaje a l@s estudiantes.


Área gris 2
Eliminar los ítems descartables para todos en el número máximo de correctas posibles pero no en el número de ítems correctos de cada persona. Por ejemplo, si en un examen de 40 ítems, Pepita y Pepito contestaron ambos 38 correctos pero hubo dos ítems descartables que Pepita contestó incorrectamente y que Pepito contestó correctamente se tiene los siguiente.
Nota originalPepita: (38/40) x 100= 95,0%Pepito: (38/40) x 100 = 95,0%
Nota corregida eliminando los descartables para tod@s pero sin variar los puntos obtenidos:Pepita:  (38/38) x 100 = 100%Pepito: (38/38) x 100 = 100%
Aunque en principio este procedimiento parezca “justo” y parezca “no afectar” a nadie, no es robusto desde el punto de vista de evaluación pues Pepito tuvo incorrectos dos ítems que si discriminaban, o sea, que servían bien el propósito de diferenciar sus habilidades de las de Pepita y sin embargo, a ambos se les asigna la misma nota.