Estudios
Pedagógicos, Nº 23, 1997, pp. 51-63 ENSAYOS
USO DE LA DISTRIBUCION NORMAL EN LA EVALUACION DEL APRENDIZAJE Use of the normal distribution in evaluating the learning process
Prof. Aquiles Fernández V. Resumen En los usos habituales
de la evaluación del aprendizaje, se suele considerar al modelo
normal de distribución de notas como ligado permanentemente al
tipo de evaluación conocido como por norma y aparte,
también de un modo definitivo, del tipo de evaluación conocido
como por criterios. Es frecuente pensar, además, que
la evaluación por norma corresponde a un tipo tradicional
de evaluación, mientras que la evaluación por criterios
representa el punto de vista actualizado. Sin embargo, el entender estos
asuntos de un modo tan simple es peligroso y puede llevar a los usuarios
que no son especialistas en evaluación a caer en gruesos errores.
Abstract Talking about subjects
related to assessing the learning process, it is frequent to refer to
the normal model of distribution of grades, linking it always with the
type of evaluation known as by norm and taking it aside in
a definite way from the evaluation known as by criteria. In
addition, it is usually maintained that the first evaluation method is
traditional, whereas the second is a modern one. However, such an oversimplification
is dangerous and may lead users who are not specialists in evaluation
to make serious mistakes.
1. INTRODUCCION Es frecuente que, tratándose de temas relacionados con la evaluación del aprendizaje, se haga referencia al modelo normal de distribución de calificaciones asociándolo de un modo indisoluble al tipo de evaluación conocido como por norma y apartándolo, también de un modo tajante y definitivo, del tipo de evaluación conocido como por criterios. Se suele decir, también, que la evaluación por norma corresponde a un tipo tradicional de evaluación, mientras que la evaluación por criterios corresponde a un punto de vista actualizado. Más aún, suele afirmarse que no sería lógico que la distribución de las calificaciones pudiese corresponder a un modelo probabilístico tras un período dedicado a la enseñanza-aprendizaje; supuestamente, el azar no tendría cabida cuando ha existido un esfuerzo sistemático (no aleatorio) por mejorar los niveles del conocimiento. En cambio, sí podría tener cabida antes de que ese esfuerzo se hubiese realizado. Algunos libros dedicados a los temas generales de evaluación educacional (que, naturalmente, no profundizan en los fundamentos teóricos subyacentes en algunos de sus procedimientos) han contribuido a difundir los puntos de vista que hemos señalado. Entendidas las cosas de esa manera, el modelo normal sólo sería aplicable en aquellos casos en que las calificaciones deben responder a la necesidad de ordenar a un determinado grupo de individuos de mejor a peor, para elegir de entre ellos a los mejores, sin que en esta elección exista referencia alguna a determinados objetivos de aprendizaje previamente señalados como metas que deberían estar cumplidas. No sería aplicable, en cambio, en aquellos otros casos en que las calificaciones deben reflejar el grado de concordancia entre el rendimiento de cada individuo y los objetivos previstos que éste debe alcanzar, independientemente de lo que ocurra con el resto de los individuos calificados. Las puntualizaciones anteriores describen formas de posicionamiento que están bastante difundidas entre evaluadores del aprendizaje y que en una primera aproximación parecen razonables. Sin embargo, el entender estos asuntos de un modo tan simple es peligroso y puede llevar a los usuarios que no son especialistas en evaluación a caer en gruesos errores. En este trabajo intentamos adentrarnos en una mejor comprensión del tema. Procuraremos aclarar, hasta donde las dificultades teóricas lo permitan, las zonas más oscuras de toda esta situación, comenzando por explicar cuál es el uso general del modelo probabilístico normal; veremos, a continuación, en qué circunstancias éste es aplicable a la evaluación educacional y, finalmente, examinaremos sus posibles relaciones con los tipos de evaluación por criterios y por norma. 2. USO DE LA DISTRIBUCION NORMAL El Teorema Central del Límite (que hace referencia explícita al modelo normal) es, quizás, el resultado más importante de toda la teoría estadística desarrollada hasta ahora. Descubierto por De Moivre en 1733 y estudiado posteriormente por Laplace y Gauss, su forma definitiva sólo fue alcanzada a comienzos del presente siglo (Kendall 1980). Aunque su importancia teórica es muy grande, su interés radica también en la enorme cantidad de aplicaciones prácticas que su generalidad permite. Son, precisamente, estas aplicaciones las que han contribuido a popularizar el modelo normal hasta hacer que su conocimiento sea universal entre los usuarios de la estadística. Tanto es así que el término normal ha llegado a entenderse (equivocadamente, en el contexto de la teoría estadística) como sinónimo de natural o acostumbrado. Es cierto que éste puede ser el modelo habitual o adecuado en muchas circunstancias, pero también es cierto que no lo es, en muchas otras. Por ello, antes de querer aplicarlo o dejarlo de lado a priori, sería necesario verificar si las circunstancias de su correcta aplicación, en cada caso, están dadas o no lo están. Enunciaremos este teorema del modo más simple que podamos, pero antes, para una mejor comprensión del mismo, daremos explicaciones breves de lo que es el modelo normal y del significado de algunos de los términos técnicos que (inevitablemente) tendremos que utilizar en el enunciado.
Finalmente, diremos
que dos o más variables aleatorias son independientes si ninguna
de ellas puede explicar o ser explicada por una (o más) de
las otras, bajo ninguna circunstancia. Aunque en la práctica
ésta es una condición difícil de establecer fehacientemente,
lo usual, sin embargo, es suponer tal independencia cada vez que ello
parezca suficientemente aceptable por el sentido común. Por
ejemplo, si tomamos una vez más los ejemplos que hemos utilizado,
podemos suponer que el resultado de nuestra prueba es independiente
del número semanal de incendios que se declaren en la ciudad.
Nadie podría probar si esas variables son realmente independientes,
pero hasta que no sea hallada la relación entre ambas bien
podemos suponer que sí lo son. A partir de las explicaciones anteriores, estamos en condiciones de dar un enunciado del Teorema Central del Límite: Teorema central del límite. Si se tiene un conjunto numeroso de variables aleatorias independientes, digamos: X1, X2, X3, Xn, entonces la suma de todas ellas es una variable aleatoria, S, que sigue una distribución aproximadamente normal, cuyo valor esperado y cuya varianza son, respectivamente:
E(S) = E(X1)
+ E(X2) + E(X3) + ... + E(Xn)
La aproximación al modelo normal es tanto mejor cuanto más numeroso sea el conjunto de variables sumadas. El teorema se llama del límite porque si el número de variables sumadas fuese infinito, entonces el modelo resultante sería exactamente normal. No obstante lo anterior, para cualquier finalidad práctica, la aproximación al modelo normal es bastante buena a partir, más o menos, de 40 sumandos (esto depende de cada caso particular). Por el contrario, dicha aproximación es tanto peor cuanto menor sea el número de variables que se sumen (excepto si esas variables sumadas son, cada una de ellas, normales). Por ejemplo, si lanzamos 5 dados (independientes) y sumamos los números obtenidos, la variable resultante no es una variable aleatoria normal. Pero si lanzamos 50 dados y sumamos los números obtenidos, la variable aleatoria resultante sí quedaría explicada por un modelo normal, con un valor esperado y una varianza esperada perfectamente calculables. Es decir, el comportamiento probabilístico de esta variable (la suma de los números obtenidos en 50 lanzamientos de un dado) sería suficientemente conocido y manejable por medio del modelo normal correspondiente. El principal mérito y utilidad de este teorema radica en el hecho de que no hace ningún supuesto sobre las variables sumadas, aparte de que deban ser independientes y deban tener, cada una de ellas, un valor esperado y una varianza que sean sumables con todos los demás valores esperados y varianzas. Las variables involucradas pueden ser de las más diversas índoles: grandes o pequeñas, discretas o continuas, conocidas o desconocidas, parecidas entre sí o por completo diferentes, etc. Todo esto hace que el Teorema Central del Límite sea una herramienta sumamente poderosa, ya que permite pronosticar el comportamiento de cualquier variable aleatoria cada vez que ésta pueda ser concebida como una suma de muchas otras variables aleatorias independientes. Si se piensa en ello cuidadosamente, se verá que esta situación es más frecuente de lo que parece ser a primera vista. El ejemplo que sigue puede ayudarnos a comprender mejor los alcances de este famoso y poderoso teorema. En una ciudad, los consumos de electricidad de los clientes de la Compañía Eléctrica local son variables aleatorias. Tenemos así muchas variables aleatorias cuyo comportamiento puede ser previsible, o no, para cada cliente en particular; en realidad, no estamos en condiciones de decir qué modelos podrían seguir estas variables (si es que tales modelos existen). Pero suponiendo que las cuentas de electricidad son muchas y que, además, todas ellas son independientes entre sí, podemos asegurar que el total de electricidad que la Compañía debe suministrar a sus clientes (o sea, la suma de todos los consumos individuales) es, indudablemente, una variable aleatoria que sigue un modelo normal. 3. APLICACIONES A LA EVALUACION EDUCACIONAL Digamos, una vez más, que la afirmación fundamental contenida en el Teorema Central del Límite es que si sumamos muchas variables aleatorias independientes, el resultado de esa adición debe ser una variable aleatoria normal, sin importar cómo hayan podido originarse o qué signifiquen las diferentes variables sumadas. No obstante esta gran generalidad, que la teoría avala plenamente, lo usual en las aplicaciones (en especial las educacionales) es que la suma se obtenga a partir de una misma variable que es medida varias veces en forma independiente. Debe entenderse que es la suma (y no cada una de las variables sumadas) la única variable que el teorema identifica como normal. Así, por ejemplo,
si en nuestro curso de 40 alumnos pudiésemos suponer que las notas
obtenidas en una prueba son independientes unas de otras, de modo tal
que la nota obtenida por un alumno no tenga relación alguna con
la nota obtenida por otro alumno cualquiera, entonces la suma de todas
esas notas será una variable aleatoria normal. Como consecuencia
de esto, el promedio de esas notas (que es la suma de ellas dividida por
40) será también una variable aleatoria normal. Veamos ahora otro ejemplo. Consideremos como variable aleatoria la (única) nota que un solo alumno puede obtener en una prueba determinada. Supongamos que ésta es una prueba de selección múltiple, en la que el alumno suma puntaje a su favor por cada respuesta correcta y disminuye puntaje por cada error. Una vez más pensemos en dos premisas: que el número de preguntas de la prueba es bastante grande (por ejemplo, 60) y que el acierto o fracaso en cualquiera de las preguntas no influye en el acierto o fracaso en cualquier otra. A partir de esas premisas, que son las del Teorema Central del Límite, debemos concluir que el puntaje final acumulado por el alumno en la prueba (y, en consecuencia, su nota final) debe ser una variable aleatoria normal. Y nuevamente podemos observar que es irrelevante si esa nota corresponde, o no, a criterios de logro preestablecidos y también es irrelevante que la nota se use para seleccionar personas, o para eliminarlas, o para cualquier otra finalidad.
4. EL MODELO NORMAL Y LA EVALUACION POR CRITERIOS De acuerdo con los ejemplos que hemos desarrollado, ya debería estar claro para el lector que el hecho de que evaluemos por criterios, es decir, fijando claramente los estándares de rendimiento preestablecidos para asignar las notas correspondientes, no es en absoluto un motivo para descartar de antemano la posibilidad de que tales notas, o sus promedios, puedan tener una distribución normal. Más aún, si se dan exactamente las condiciones que establece el Teorema Central del Límite, tales variables serán inevitablemente normales. No obstante lo anterior, también debemos tener claro que el Teorema Central del Límite sólo nos provee de un modelo aproximado para explicar el comportamiento de las variables que nos interesen (y esto es así tanto si evaluamos por criterios como si lo hacemos de otro modo). Es, pues, perfectamente posible concebir otros modelos, diferentes del normal, que también ofrezcan la posibilidad de darnos buenas descripciones (también aproximadas, como con cualquier modelo teórico) del comportamiento de nuestras variables. Ellos pueden ser usados alternativamente, sobre todo en aquellos casos en que las referidas condiciones del Teorema Central del Límite no se den o parezcan dudosas. En relación con este punto, se ha propuesto (Fernández 1987) un modelo probabilístico, llamado Modelo Edumétrico, especialmente concebido para ser aplicado a distribuciones de notas en un contexto de evaluaciones por criterios. A modo de ejemplo, en la Ilustración Nº 3 se puede ver una distribución edumétrica de notas cuyo valor esperado es 5.5 y cuya desviación estándar es 0.90 (en escala de 1 a 7). En línea de puntos más suaves se insinúa la distribución normal con igual valor esperado e igual desviación estándar. Obsérvese que una parte de la cola derecha de la curva normal queda fuera del cuadro, es decir, se sale del rango de las notas, lo que es ciertamente no deseable, ya que el modelo supone la existencia de notas allí donde no las puede haber. En síntesis, diremos que cuando se evalúa por criterios la distribución de notas puede ser convenientemente explicada mediante un modelo normal o no serlo, dependiendo esto de que se den, o no, las condiciones del Teorema Central del Límite. Si no se dan estas condiciones, el modelo adecuado podría ser algún otro diferente del normal, por ejemplo el modelo edumétrico. 5. EL MODELO NORMAL Y LA EVALUACION POR NORMA Como sabemos, la característica esencial de la evaluación por norma consiste en relativizar la escala de calificaciones, ajustándola convenientemente de acuerdo con los resultados obtenidos por un grupo (relativamente numeroso) de alumnos sometidos a una misma prueba. En este contexto no interesa tanto que los alumnos evaluados demuestren dominio de ciertos objetivos predeterminados, sino que interesa hacer una selección de los alumnos que, en relación con el grupo evaluado, demuestren ser los mejores. Como es obvio, lo más simple para el propósito anterior es ordenar todos los puntajes obtenidos, de mayor a menor o viceversa, y hacer un corte en el lugar que convenga a los propósitos de la selección. Sin embargo, si queremos presentar los resultados como notas (por ejemplo, en escala de l a 7) y de modo tal que sólo los alumnos de rendimiento igual o superior al promedio del grupo tengan una nota igual o superior a la nota de aprobación (por ejemplo, 4.0), entonces el problema es algo más complicado. Consideremos un ejemplo. Para llenar 8 vacantes en cierto trabajo, han rendido un examen escrito de suficiencia 52 postulantes. Supongamos que la prueba se ha diseñado para medir el porcentaje de logro de ciertos objetivos predeterminados (criterios) y que sus resultados se expresan en un puntaje comprendido entre 0 y 100 puntos. Los siguientes son los resultados, ya ordenados, obtenidos por los postulantes:
Está claro que los
postulantes seleccionados deben ser aquellos cuyos puntajes fueron: 94,
88, 82, 79, 74, 71, 65 y 64. Sin embargo, ¿qué notas les
corresponden?
Una vez estandarizados los puntajes, éstos son convertidos a notas definitivas adecuándolos a la escala que se quiera utilizar. En nuestro caso, ello se logra simplemente sumando 4 puntos a cada puntaje estandarizado. Hecho eso, las notas finales resultan ser:
El promedio de estas notas es 4.0 y la varianza es 1. Es un teorema de la teoría estadística que si la distribución de los puntajes originales es normal, entonces la distribución de los puntajes estandarizados debe ser una normal estándar. Ya hemos dicho que así se llama el modelo normal cuyo valor esperado vale 0 y cuya varianza vale 1. La forma de este modelo es la de la Ilustración Nº 1, en la que debe entenderse que casi todos los datos (aproximadamente el 99.74% de ellos) deben encontrarse entre los valores -3, por la izquierda, y +3, por la derecha. Sin embargo, si la distribución original no es normal entonces la distribución de las notas estandarizadas y, en consecuencia, la distribución de las notas finales, no tienen por qué ser normales. La Ilustración Nº 4, que representa gráficamente a la tabla anterior, expresa mejor lo dicho en relación con ella. Debe ponerse atención a los números puestos en su parte inferior, que representan a las tres principales marcas de clase.
Comparemos el perfil anterior
con los que corresponden a una distribución normal (en línea
punteada) y a una distribución edumétrica (en línea
gruesa): A simple vista, ninguno
de los dos modelos parece representar muy bien al conjunto de datos. Sin
embargo, la prueba de bondad de ajuste de Kolmogorov-Smirnov (Canavos
1988) permite aceptar ambos modelos como válidos, con un nivel
de significación En síntesis, queremos afirmar una vez más que no basta estandarizar los puntajes, o utilizarlos para discriminar a los mejores entre un grupo de alumnos sometidos a una misma prueba, para que el modelo normal sea automáticamente la mejor herramienta disponible. No depende de la estandarización el que las notas finales resulten ajustadas, o no, a un modelo normal. Todavía más, es posible que otros modelos sean tan válidos como el normal, o aun mejores, incluso cuando se esté evaluando por norma, como en el caso del ejemplo.
6. CONCLUSION En este trabajo hemos intentado establecer dos ideas: i) Existen dos formas de evaluación, que sirven a propósitos diferentes, denominadas por criterios y por norma, respectivamente. Ambas formas de evaluar son actuales y ambas son válidas en su respectivo contexto. ii) Existen varios modelos probabilísticos que son aplicables a la evaluación del aprendizaje; entre ellos se cuenta el modelo normal. El correcto uso del modelo normal no está sujeto a la forma de evaluación a la que se le quiera aplicar; su aplicabilidad depende de otras premisas, independientes del tipo de evaluación que se use.
Av. J.P. Alessandri Nº
1701-J
7. BIBLIOGRAFIA AHUMADA, P. 1983. Principios y procedimientos de evaluación educacional. Ediciones Universitarias de Valparaíso, Chile. CANAVOS, G.C. 1988. Probabilidad y estadística. Aplicaciones y métodos. Mc Graw-Hill, México. FERNANDEZ V., A. 1987. Medición y uso del tiempo en un contexto de aprendizaje para el dominio, Estudios Pedagógicos 13: 15-27. Universidad Austral, Valdivia, Chile. KENDALL & BUCKLAND. 1980. Diccionario de estadística. Ediciones Pirámide, Madrid. MEZA, OLIVARES y PASCUAL. 1986. Evaluación educacional. Manual para educadores. Instituto de Servicio Educacional Chile.
|