2016 ID7756 Evaluación del aprendizaje de idiomas Gilberto Berrios
 

Bienvenida

Estimados estudiantes:

He preparado esta página web para las últimas semanas del curso ID7756. Aquí tendrán acceso a materiales de interés, información y/o enlaces útiles para asuntos que discutiremos (o hemos discutido) en clase, indicaciones sobre asignaciones, así como un par de actividades evaluadas.

Por favor consulten mis anuncios en esta área de la página cada semana para saber qué hacer con el material que les iré poniendo.

Semana 9 (7 de junio de 2016)

El martes en clase terminamos el capítulo 2 de Bachman y Palmer (1996) sobre las cualidades de utilidad de la prueba. Un breve resumen de esta importante clase no caería mal.

Primero completamos la tabla que habíamos comenzado la semana 8. En ella poníamos brevemente QUÉ es cada cualidad y CÓMO SE LOGRA la misma.

Luego contestamos la pregunta siguiente: ¿por qué llaman Bachman y Palmer "cualidades métricas" a la confiabilidad y la validez de constructo? La respuesta es que ambas son cuantificables. Elaboramos sobre esta respuesta gradualmente. Pudimos observar que el capítulo 6 de Berríos (2013) evidencia que ambas son cuantificables:

  • En cuanto a la validez de constructo:
    • Perfil léxico del examen (pp. 182-185): las Tablas 6.3 y 6.4 reúnen datos numéricos que apuntan a la validez léxica del examen para el programa de inglés en cuestión.
    • Especificaciones de las tareas del examen (pp. 173-182): las Tablas 6.1 y 6.2 presentan, respectivamente:
      • la cantidad de ítemes por categoría y subcategoría temática
      • la cantidad de ítemes por tipo de tarea en la prueba estudiada
  • En cuanto a la confiabilidad, la sección 'Comportamiento estadístico del examen' (pp. 186-197) muestra la naturaleza netamente cuantitativa de esta cualidad:
    • el coeficiente alfa en la Figura 6.2 (p. 186), que nos dice que los resultados de la prueba son 91% confiables
    • la Figura 6.3 (p. 188), que nos presenta el comportamiento del primer ítem del examen, con sus índices de dificultad y discriminación
    • todo el resto de esta sección (para la cual no tuvimos tiempo en clase), que nos presenta más evidencia cuantitativa que apoya la confiabilidad del examen

Finalmente, se hizo una demostración visual de los índices de dificultad y de discriminación.

Asignación: Con el fin de que tengan un instrumento práctico para analizar pruebas de clase con ítemes de selección simple, se les pide bajar el software CITAS (Classical Item and Test Analysis Spreadsheet). Es gratuito, se baja como un archivo comprimido que, una vez descomprimido, da un archivo Excel y un PDF (Thompson, 2009). Las instrucciones resumidas están en el propio archivo Excel. En el PDF se explica lo que hay detrás del coeficiente de confiabilidad y los índices de dificultad y discriminación. Su asignación consiste en examinar los datos (hipotéticos) que trae el archivo Excel, particularmente en las hojas Output y Response Counts con el fin de comentar sobre la dificultad y la discriminación de las preguntas 5 y 7 así como sobre la confiabilidad del examen.

Semana 10 (14 de junio de 2016)

Ayer martes en clase comenzamos reelaborando la demostración visual de los índices de dificultad y discriminación. Luego, nos fuimos al laboratorio de computadoras y allí cubrimos con cierto detalle la interpretación de la estadísticas clásicas usuales para medir la calidad de un examen. Para ello, utilizamos el software CITAS, que funciona en Excel, en el cual exploramos:

  • La pestaña que trae las instrucciones para usar el software (Instructions).
  • La pestaña que permite introducir datos, es decir, respuestas de máximo 50 estudiantes a máximo 50 preguntas de selección simple (Input).
  • La pestaña Scored 0-1 es para cálculos internos del software y no tiene nada de interés para nosotros.
  • La pestaña que muestra los resultados del análisis, tanto ítem por ítem como globalmente para el examen (Output).
    • Comentamos en particular los índices de dificultad y discriminación, el error estándar de la medida (SEM) y el coeficiente de confiabilidad (alpha y Kuder-Richardson 20, abreviado KR20).
    • Jenny se dio cuenta de que los comentarios que trae el software para las celdas N16 (Min P) y N17 (Max P) están invertidos. Esto fue una excelente oportunidad para recalcar que el índice de dificultad corre en sentido contraintuitivo, es decir, mientras mayor es el índice, menor es la dificultad (porque una mayor proporción de estudiantes tuvo bien la pregunta).
  • La pestaña que muestra el análisis de frecuencias de respuestas por opción en cada pregunta del examen (Response counts). Esta viene con unas útiles preguntas para interpretar el análisis.

La siguiente parte de la clase consistió en interpretar los análisis de dos juegos de datos de examen: el primero, de una muestra de los primero 50 estudiantes que contestaron la prueba de ubicación EX12; el segundo, de una muestra aleatoria estratificada representativa de todos los estudiantes que contestaron EX12. Aquí pudimos comparar la diferencia en la calidad de los análisis según los datos. Para terminar esta parte, recalcamos un factor que modifica la confiabilidad: la longitud del examen. Pudimos comprobar que al reducir el número de preguntas en la pestaña de introducción de datos, disminuía la confiabilidad apreciablemente.

En la última parte de la clase entramos en la página de Quia.com, donde hicieron el primer intento de contestar un examen para verificar comprensión de lo que hemos venido cubriendo desde la semana 7.

Asignación: Deben completar en casa el examen que comenzaron a presentar en el laboratorio. En realidad, como se fue internet justo antes de que pudieran guardar lo que habían hecho, lo que hicieron en clase lo pueden considerar una práctica para el examen. Yo verifiqué los registros de Quia y aparecían todos como que habían abandonado el examen. Aprovechando esta situación, terminé de formatear bien el examen, corregí el problema que Grace me había apuntado en la última pregunta y añadí algunas preguntas adicionales. Su asignación consiste, pues, en volver a tomar el examen modificado, que ahora se llama Examen Semana 10. Las condiciones para presentarlo aparecen en el encabezado del examen.

Semana 11 (21 de junio de 2016)

El martes tuvimos nuestra clase en EGE211A, con acceso a computadoras. Utilizamos la primera media hora de clase para comenzar a observar dos pruebas de vocabulario.

  • Mirada crítica a dos pruebas de vocabulario
    • Ignacio y Leonardo pudieron “tomar” en clase dos pruebas de vocabulario que constituyen el material que todos ustedes van a criticar. En realidad no las presentaron en su totalidad sino que pudieron entrar en cada una de ellas y hacerme preguntas y comentarios que me permitieran elaborar un documento que sirva de contexto a la crítica.
    • Grace y Jenny no pudieron venir, pero eso no les impedirá hacer la crítica a la par que sus compañeros puesto que las dos pruebas están activas al pie de esta página. Las instrucciones precisas forman parte del Examen Semana 11.
    • Quedamos comprometidos a que yo les enviaría el examen el miércoles. Problemas técnicos y personales me lo han impedido, de modo que el plan de evaluación que tenía pensado cambia porque no pretendo perjudicarlos. Mis disculpas por este retraso.

No podíamos terminar este curso sin hacer un breve paseo por algunos contenidos que, si bien no serán evaluados, merecían ser al menos mencionados. Estos son:

  • El Marco común europeo de referencia para las lenguas
    • Esta obra es referencia no sólo para Europa: muchos exámenes estandarizados del resto del mundo incluyen ahora entre su documentación impresa y digital la equivalencia de sus puntuaciones con el MCER. Para la lengua española, la versión oficial es la del Instituto Cervantes (2002), la cual pueden bajar en el enlace al pie de esta página.
    • El MCER tiene nueve capítulos y varios anexos.
    • Desde la perspectiva de nuestro curso, resultan particularmente interesantes el capítulo 3 (que presenta descriptores por cada nivel de competencia), el 4 y el 5 (que aportan un esquema de categorías para describir el uso de la lengua y las competencias del usuario), el 7 (que trata sobre tareas de la “vida real” y “pedagógicas” que pueden usarse para la enseñanza y la evaluación de la L2) y, por último, el 9 (que versa ya específicamente sobre la evaluación).
  • Introducción a la teoría de respuesta al ítem
    • Las puntuaciones brutas de un examen no constituyen una medida científica pues son sólo cantidades ordinales y no de intervalo. Sin embargo, solemos tratarlas como si lo fueran. En su libro Applying the Rasch model, Bond y Fox (2001) refieren la necesidad de crear verdaderas medidas en las ciencias sociales y humanidades.
    • Una visión probabilista de los datos de examen nos permite una perspectiva más útil que la visión a la que estamos acostumbrados como docentes. El modelo Rasch (uno de varios modelos de la teoría de respuesta al ítem) nos aporta esa visión y puede llevarnos a abstraer de dichos datos verdaderas medidas de la habilidad de los estudiantes y de la dificultad de los ítemes.
    • Para mostrar esto, hicimos una inspección visual de los datos de una prueba de ubicación administrada en 2001 (EX01) con el fin de aplicarles el procedimiento sugerido por Bond y Fox, el cual también está explicado más sencillamente en A guide to language testing de Henning (1987). No pudimos avanzar lo suficiente para terminar el procedimiento, pero sí pudimos ver los datos con una mirada probabilista.
Asignación: Originalmente pensaba asignar dos evaluaciones para esta semana, pero debido a mi retraso eso equivaldría a sobrecargarlos innecesariamente. Su asignación, pues, consiste en presentar el Examen Semana 11. Las condiciones para presentarlo aparecen en el mismo.

Semana 12 (28 de junio de 2016)

Hoy martes es el último día de clases.

Para culminar lo relativo a la teoría de respuesta al ítem, utilizaremos el primer tercio de la clase para volver a apreciar lo que Bond y Fox (2001) llaman inspección visual de los datos. Si hay tiempo, veremos cómo dichos datos se convierten en medidas.

El segundo tercio lo usaremos para comentar, a partir de un análisis de ítemes hecho por Leonardo en CITAS, qué medidas se podrían tomar para mejorar un par de preguntas de un examen real. Este ejercicio surgió de una consulta que me hizo Leonardo. Yo le sugerí que hiciera el análisis y que lo viéramos todos en clase como última actividad evaluada. El ejercicio será evaluado por ustedes mismos de modo informal (autoevaluación y coevaluación) en la misma clase.

El resto de la clase lo utilizaremos para que continúen el Examen Semana 11 (si no lo han podido completar, que creo que es lo que va a suceder) y/o vean sus asignaciones anteriores calificadas. Si es posible, podrán calcular la nota final que tendrán en la asignatura. Finalmente, a modo de cierre, también sería útil comentar sobre el curso.

My Quia activities and quizzes
Examen Semana 10
https://www.quia.com/quiz/5916047.html
Examen Semana 11
https://www.quia.com/quiz/5918984.html
Useful links
Last updated  2016/07/03 18:54:15 PDTHits  126