Estudios Pedagógicos XXXIII, N° 2: 101-120, 2007 INVESTIGACIONES UNA APLICACIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA EN LA PREDICCIÓN DEL RENDIMIENTO ESTUDIANTIL* An application of the model logistic regression in the prediction of the student performance Jimmy Reyes Rocabado, Carlos Escobar Flores, Juan Duarte Vargas, Pedro Ramirez Peradotto Universidad de Antofagasta, Departamento de Matemáticas, Avenida Angamos 601, Antofagasta, Chile. jreyes@uantof.cl Resumen Este trabajo presenta una metodología para realizar predicciones del éxito en el primer semestre de los estudiantes de la carrera de Ingeniería Plan Común, en una cohorte estudiantil de primer año de la Universidad de Antofagasta. Para realizar los análisis se consideraron tres criterios de exigencia para clasificar como exitoso a un estudiante en el primer semestre de su carrera. Aplicando un modelo de regresión logística, los resultados fueron comparados con los del método de análisis discriminante, analizando además su concordancia e índice de predictibilidad. Palabras clave: rendimiento estudiantil, regresión logística, concordancia, índice de predictibilidad. Abstract This work presents a methodology to carry out predictions of the success in the first semester of the students of the Common Plan Engineering career, in a student cohort of first year of the University of Antofagasta. To carry out the analyses were considered three criteria of demand for classify as successful to a student in the first semester of their career. Applying a model of logistic regression, the results were compared with the of the discriminant analysis method, analyzing besides their agreement and index of predactibility. Key words: student performance, logistic regression, agreement, index of predactibility.
INTRODUCCIÓN Los directivos superiores asociados a la actividad docente de instituciones de educación superior asumen que la mayoría de los estudiantes que ingresan a una carrera universitaria lo hacen con la intención de permanecer en ella hasta su graduación y les resulta disonante aceptar que esos estudiantes, en altos porcentajes, puedan no tener éxito en varias de las asignaturas que cursan en el primer semestre de ingreso, debiendo prolongar sus estudios hasta casi duplicar sus tiempos normales para titulación. A su vez, la mayoría de ellos asume que las altas tasas de reprobación estudiantil (no éxito) se deben principalmente a métodos de enseñanza inadecuados, instrumentos de medición de resultados del aprendizaje no isométricos respecto a los resultados del aprendizaje, contenidos complejos, por su nivel de abstracción, contenidos innecesarios (a su juicio) para el futuro ejercicio profesional y mal diseño de la estructura de prerequisites entre asignaturas (Ramírez et al. 2004). Los encargados de realizar la actividad docente asumen que las altas tasas de reprobación se deben a fallas de formación de los estudiantes lograda en enseñanza media, carencia de responsabilidad y de perseverancia del estudiante, problemas de inteligencia y carencia de aptitudes verbales y/o matemáticas (Ramírez et al. 2004). Ante la situación descrita en forma general se hace necesario definir las variables que puedan estar involucradas en este mal rendimiento estudiantil durante el semestre inicial de su carrera y mediante un modelo relacionar estas variables con el rendimiento de tal forma de poder predecirlo con alta precisión antes de que este ocurra, para poder tomar las medidas preventivas. METODOLOGÍA Para obtener el modelo de predicción se consideraron las siguientes variables: VARIABLE DEPENDIENTE Rendimiento: Variable por la cual se considera exitoso un rendimiento sobre la base de los tres siguientes criterios. Criterio 1: Aprobar tres o más asignaturas en el primer semestre. Criterio 2: Aprobar cuatro o más asignaturas en el primer semestre. Criterio 3: Aprobar todas las asignaturas en el primer semestre. VARIABLES INDEPENDIENTES 1. Expectativa (EX): Juicio que hace una persona respecto a su rendimiento esperado (por ejemplo, aprobar una signatura), que haga posible un logro deseado (por ejemplo, ser promovido de curso). 2. Valencia (VA): Importancia que asigna una persona a un resultado específico. 3. Instrumentalidad (INS): Valoración de la relación entre el esfuerzo que se realiza y lo que se logra sobre la base de ese esfuerzo. 4. Puntaje de notas de enseñanza media (PtNt): Puntaje asignado al promedio de calificaciones obtenida por el estudiante en Enseñanza Media. 5. Puntaje en la PSU de matemáticas (PtMt): Puntaje estandarizado correspondiente a la parte matemática de la PSU. 6. Puntaje en la PSU de lenguaje (PtLg): Puntaje estandarizado correspondiente a la parte de lenguaje de la PSU. 7. Puntaje en ciencias (PtCs): Puntaje estandarizado correspondiente a la prueba de ciencias de la PSU. Los datos de las tres primeras variables corresponden a los tres constructos considerados por la teoría de Vroom y fueron obtenidos mediante un instrumento denominado "Inventario PEI-EDU-UA 93/94" estandarizado para alumnos de primer año universitario en una investigación anterior (Ramírez et al. 2004), financiada por la Dirección de Investigación de la Universidad de Antofagasta. Los datos para las otras variables fueron obtenidos de la base de datos confeccionada por la Dirección de Admisión y Registro Curricular de la Universidad de Antofagasta (DARC). EL MODELO Para realizar las predicciones se aplicó un modelo de regresión logística, caracterizado de la siguiente forma (Barón López, Téllez Montiel 2000): Si tenemos una variable que describe una respuesta en forma dicotómica (Éxito o fracaso) y queremos estudiar el efecto que otras variables (independientes) tienen sobre ella, el modelo de regresión logística binaria puede ser de gran utilidad para lo siguiente: * Estimar la probabilidad de que se presente el evento de interés (por ejemplo, tener éxito en el primer semestre), dado los valores de las variables independientes, * Evaluar la influencia que cada variable independiente tiene sobre la respuesta en forma de OR (ODD RATIO). Una OR mayor que uno indica aumento en la probabilidad del evento y una OR menor que uno, implica una disminución. El modelo de regresión logística puede escribirse como: donde p es la probabilidad de que ocurra el evento de interés (en nuestro caso tener éxito en el primer semestre). Dado el valor de las variables independientes, podemos calcular directamente la estimación de la probabilidad de que ocurra el evento de interés de la siguiente forma: En este caso también se puede establecer la significación de los coeficientes del modelo usando el estadístico de Wald (Lehmann 1974) que es equivalente al del modelo de regresión lineal múltiple. Si una variable independiente resulta no significativa podemos considerar eliminarla del modelo. RESULTADOS OBTENIDOS Para realizar el análisis se consideraron los tres criterios, mencionados anteriormente, para asignar éxito en el primer semestre: Criterio
1: Aprobar tres o más asignaturas en el primer semestre. CRITERIO 1 Al realizar el análisis con este criterio y todas las variables involucradas, utilizando Statgraphics Plus 5.1, se observó que las variables puntaje en notas (PtNt) y puntaje en matemáticas de la PSU (PtMt) fueron las más significativas en el modelo (p-valor menor que 0,01), todas las demás fueron eliminadas del análisis. Variable dependiente: RENDIMIENTO Factores: PtNt, PtMt
Porcentaje de varianza explicado por el modelo = 22,8638% Porcentaje ajustado = 20,7787%
La Tabla 1 muestra el resultado de ajustar un modelo de regresión logístico para describir la relación entre RENDIMIENTO según criterio 1 y las dos variables independientes. La ecuación del modelo ajustado es Dado que el p-valor para el modelo en la tabla 2 de Análisis de la Varianza es inferior a 0,01, hay una relación estadísticamente significativa entre las variables al 99% de confianza. Los resultados también muestran que el porcentaje de varianza de RENDIMIENTO explicado por el modelo es igual a 22,8638% sobre la base de las variables PtNt y PtMt, en este caso. Para determinar el punto de corte (frontera) donde se clasifica a un estudiante como exitoso o no exitoso en el primer semestre, se calculan las siguientes probabilidades para diferentes puntos de corte usando el modelo de predicción: * Probabilidad de predecir éxito dado que el estudiante tuvo éxito (Sensibilidad) * Probabilidad de predecir no éxito dado que el estudiante no tuvo éxito (Especificidad) * Probabilidad de acertar en la predicción para todos los estudiantes. (Total) Los resultados se muestran en la siguiente tabla para diferentes puntos de corte (frontera): La tabla 4 muestra un resumen de la capacidad de predicción del modelo ajustado. En primer lugar, el modelo se utiliza para predecir la respuesta utilizando la información en cada fila del fichero de datos. Si el valor predicho es más grande que la frontera, se clasifica al estudiante como "exitoso". Si el valor predicho es inferior a o igual a la frontera, se clasifica al estudiante como "no exitoso". La tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de la frontera. Por ejemplo, utilizando una frontera igual a 0,50, de todos los estudiantes exitosos el 60,98% se predijo correctamente, mientras que de todos los estudiantes no exitosos el 85,19% se predijo correctamente, con un 76,04% de predicciones correctas sobre el total de estudiantes. El criterio utilizado para determinar el punto de corte (frontera) fue considerar el valor de frontera con el máximo porcentaje total de aciertos, además puede proporcionar un buen valor para utilizarlo en la predicción de valores adicionales. Con este criterio se realizaron las predicciones de rendimiento para los 217 estudiantes de la cohorte analizada y se comparó con los rendimientos reales obtenidos en el primer semestre de su carrera. Se obtuvo el siguiente cuadro: CRITERIO 2 Al realizar el análisis con este criterio y todas las variables involucradas, se observó que las variables Expectativa (EX), puntaje en notas (PtNt) y puntaje en matemáticas de la PSU (PtMt) fueron las más significativas en el modelo (p-valor menor que 0,01), todas las demás fueron eliminadas del análisis. Variable dependiente: RENDIMIENTO Factores: EX, PtNt, PtMt Porcentaje de varianza explicado por el modelo = 27,2987% Porcentaje ajustado = 23,6429% La Tabla 6 muestra el resultado de ajustar un modelo de regresión logístico para describir la relación entre RENDIMIENTO con el criterio 2 y las tres variables independientes. La ecuación del modelo ajustado es Dado que el p-valor para el modelo en la tabla 7 de Análisis de la Varianza es inferior a 0,01, hay una relación estadísticamente significativa entre las variables al 99% de confianza.
Los resultados también muestran que el porcentaje de varianza de RENDIMIENTO explicado por el modelo es igual a 27,2987% sobre la base de las otras variables EX, PtNt y PtMt, en este caso. Usando el mismo criterio anterior se puede obtener el punto de corte (Frontera) a partir de la siguiente tabla: La tabla 9 muestra un resumen de la capacidad de predicción del modelo ajustado. En primer lugar, el modelo se utiliza para predecir la respuesta utilizando la información en cada fila del fichero de datos. Si el valor predicho es más grande que la frontera, se considera al estudiante como "exitoso". Si el valor predicho es inferior a o igual a la frontera, se considera al estudiante como "no exitoso". La tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de frontera. Por ejemplo, utilizando una frontera igual a 0,55, de todos los estudiantes exitosos el 34,09% se predijo correctamente, mientras que de todos los estudiantes no exitosos el 96,53% se predijo correctamente, con un 83,87% de predicciones correctas sobre el total de estudiantes. En este caso la capacidad de predicción del modelo se muestra en la figura 4: Con este criterio se realizaron las predicciones de rendimiento para los 217 estudiantes de la cohorte analizada y se comparó con los rendimientos reales obtenidos en el primer semestre de su carrera. Se obtuvo el siguiente cuadro: CRITERIO 3 Al realizar el análisis con este criterio y todas las variables involucradas, se observó que las variables puntaje en notas (PtNt), puntaje en matemáticas de la PSU (PtMt) y puntaje en ciencias (PtCs) fueron las más significativas en el modelo (p-valor menor que 0,01); todas las demás fueron eliminadas del análisis. Variable
dependiente: RENDIMIENTO Porcentaje
de varianza explicado por el modelo = 29,2959% La tabla 11 muestra el resultado de ajustar un modelo de regresión logístico para describir la relación entre RENDIMIENTO según criterio 3 y las tres variables independientes.
La ecuación del modelo ajustado es Dado que el p-valor para el modelo en la tabla 12 de Análisis de la Varianza es inferior a 0,01 hay una relación estadísticamente significativa entre las variables al 99% de confianza. La ventana también muestra que el porcentaje de varianza de RENDIMIENTO explicado por el modelo es igual a 29,2959% sobre la base de las variables PtNt, PtMt y PtCs, en este caso. Usando el mismo criterio anterior se puede obtener el punto de corte (Frontera) a partir de la tabla 14. La tabla 14 muestra un resumen de la capacidad de predicción del modelo ajustado. En primer lugar, el modelo se utiliza para predecir la respuesta utilizando la información en cada fila del fichero de datos. Si el valor predicho es más grande que la frontera, se considera al estudiante como "exitoso". Si el valor predicho es inferior a o igual a la frontera, se considera al estudiante como "no exitoso". La tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de frontera. Por ejemplo, utilizando una frontera igual a 0,50, de todos los estudiantes exitosos el 27,27% se predijo correctamente, mientras que de todos los estudiantes no exitosos el 98,97%, se predijo correctamente, con un 91,71% de predicciones correctas sobre el total de estudiantes. En este caso la capacidad de predicción del modelo se muestra en la figura 6: Con este criterio se realizaron las predicciones de rendimiento para los 217 estudiantes de la cohorte analizada y se comparó con los rendimientos reales obtenidos en el primer semestre de su carrera. Se obtuvo la siguiente tabla:
RESULTADOS OBTENIDOS CON EL MÉTODO DE ANÁLISIS DISCRIMINANTE Utilizando el método de análisis discriminante (Morrison 1976) para los tres criterios se obtuvieron las siguientes tablas de clasificación: VALIDACIÓN DEL DIAGNOSTICO Una forma de validar los resultados obtenidos con los modelos de predicción es usando el estadístico de Me Nemar (Lehmann 1974) para los tres criterios. Para esto consideramos lo siguiente: f¡= Número de estudiantes que tuvieron éxito en el primer semestre según criterio f2= Número de estudiantes considerados exitosos por el modelo de predicción En este caso se puede estructurar la siguiente tabla: ÍNDICE KAPPA Para establecer la concordancia de los resultados de rendimientos estimados con el modelo de predicción y los resultados reales se usa el índice Kappa (Landis, Koch 1977), el cual se puede definir de la siguiente forma: Dada una tabla estructurada de la siguiente forma: El índice Kappa se define en este caso por: ÍNDICE DE PREDICTIBILIDAD Definamos los siguientes eventos: E = {Éxito en el primer semestre} Ec = {Fracaso en el primer semestre} D+ = {Predicción de rendimiento positivo (éxito)} D = {Predicción de rendimiento negativo (fracaso)} Se define el índice de predictibilidad de verdaderos positivos como la probabilidad de tener éxito en el primer semestre, dado que su predicción fue de éxito y se denota por P(E/D+) Se define el índice de predictibilidad de verdaderos negativos como la probabilidad de fracasar en el primer semestre, dado que su predicción fue de fracaso y se denota por P(EC/D~) CONCLUSIONES - El modelo de regresión logística es un buen procedimiento para predecir el éxito en el primer semestre si se toma un criterio no tan exigente para considerar el "éxito" (criterio 1), de esta forma la prueba de validación del método no rechaza la hipótesis de igualdad de la probabilidad de éxito estimada con la verdadera probabilidad de éxito con un nivel de significación no mayor a 0,05, sin embargo con los otros dos criterios esta hipótesis es rechazada. Análogamente se concluye si consideramos el método de análisis discriminante. - A medida que el criterio para considerar exitoso a un estudiante es más exigente se puede observar que la sensibilidad va disminuyendo y la especificidad va aumentando, en la determinación del punto de corte. - De los estudiantes que fueron diagnosticados como exitosos en el primer semestre de su carrera, usando el criterio 1 con el modelo de regresión logística, el 71,4% realmente tuvo éxito y este porcentaje se mantiene si usamos el criterio 2 y aumenta a 75% si usamos el criterio 3. - De los estudiantes que fueron diagnosticados como no exitosos en el primer semestre de su carrera, usando el criterio 1 con el modelo de regresión logística, el 78,23% realmente no tuvo éxito y este porcentaje aumenta a 85,2% si usamos el criterio 2 y aumenta a 92,34% si usamos el criterio 3. - De los estudiantes que fueron diagnosticados como exitosos en el primer semestre de su carrera, usando el criterio 1 con el método de análisis discriminante, el 63,3% realmente tuvo éxito y este porcentaje baja a 44% si usamos el criterio 2 y baja a 26,23% si usamos el criterio 3. - De los estudiantes que fueron diagnosticados como no exitosos en el primer semestre de su carrera, usando el criterio 1 con el método de análisis discriminante, el 80,31% realmente no tuvo éxito y este porcentaje aumenta a 92,25% si usamos el criterio 2 y aumenta a 96,15% si usamos el criterio 3 - La concordancia, utilizando ambos procedimientos de predicción (regresión logística y análisis discriminante), resulta moderada si se toma un criterio no tan exigente para considerar el "éxito" (criterio 1). REFERENCIAS Dobson, A. (2002). An Introduction to Generalized Linear Models. Editorial Chapman y Hall. Barón López, R J., R Téllez Montiel (2000). Apuntes de Bioestadística: 52-57. Duarte, J., C. Escobar; J. Reyes, (1997). Un método de estimación de parámetros para modelar fenómenos biológicos. Anales VII Congreso de Matemática Capricornio COMCA 97, U. Católica del Norte, Antofagasta, Chile. Duarte, J., C. Escobar; J. Reyes (1998). El problema de estimación de parámetros en modelos con error en las variables. Anales VIII Congreso de Matemática Capricornio COMCA 98, U. de Tarapacá, Arica, Chile. Ramírez, P. et al. (2004). Motivación y rendimiento académico en cuatro carreras del área biológica de la U. de Antofagasta, cohortes 2004. Seminario de título. Facultad de Educación y Ciencias Humanas, U. de Antofagasta, Antofagasta, Chile. Lehmann, E. L. (1974). Nonparametrics-Statistical Methods Based on Ranks. John Wiley & Sons. New York. Landis J. R., G. G. Koch (1977). The measurement of observer agreement for categorical data. Biometrics 33: 159-174. Morrison, D. R (1976). Multivariate Statistical Methods. 2" edición. New York: McGraw-Hill. Duarte, J., C. Escobar, J. Reyes (1987). Efectos del cambio de ponderadores de los requisitos de ingreso en las carreras de la Universidad de Antofagasta, año 1986. Resúmenes del IX Encuentro Nacional de Investigadores en Educación. Pontificia Universidad Católica de Chile. Duarte, J., C. Escobar, J. Reyes (1988). Dos métodos multivariados: Una aplicación en el ambiente educacional. Resúmenes de la Séptima Jornada de Matemáticas. Universidad. Católica del Norte, Antofagasta, Chile. Proyecto de investigación financiado por la Dirección de Investigaciones de la Universidad de Antofagasta.
|