INVESTIGACIONES

 

La distribución Beta Generalizada como un modelo de sobrevivencia para analizar la evasión universitaria

Beta Generalized Distribution as Survival Model for the Analysis of University Dropouts

A distribuição Beta Generalizada como um modelo de sobrevivência para analisar a evasão universitaria

 

José González C.,a Diana Galvis S.b y Luis Hurtado T.b

a Departamento de Matemática y Estadística, Facultad de Ciencias Naturales y Exactas, Universidad de Playa Ancha, Chile. Correo electrónico: labesam.upla@gmail.com
b Facultad de Ciencias Básicas y Tecnologías, Universidad del Quindío, Armenia, Quindío, Colombia. Telf.: 55-1987185039. Correo electrónico: dianagalvis@uniquindio.edu.co


RESUMEN

En este artículo se propone el modelo Beta Generalizado como un modelo de sobrevivencia para analizar la evasión universitaria. Este modelo permite capturar algunas características reales de los datos, que no siempre son bien representadas con los modelos tradicionales. Los resultados obtenidos son comparados entre dos modelos, uno el propuesto y el otro el log-normal, tradicionalmente usado, permitiendo observar que existen situaciones en las que el supuesto de un soporte positivo e ilimitado en la distribución utilizada, no siempre es el adecuado. Este trabajo presenta un nuevo aporte al proceso de discusión sobre la evasión y, por lo tanto, se convierte en una nueva herramienta para el análisis de un tema de actualidad, como lo es el abandono de los estudios en la población universitaria.

Palabras clave: modelo beta generalizado, distribución log-normal, unimodalidad, evasión universitaria.


ABSTRACT

In this article, it is proposed the generalized beta model as a survival model to analyze the university dropout. This model captures some real characteristics of the data that not always are captured using the traditional models. The results are compared between two models; from the proposed model and from the traditionally used, lognormal model. It is possible to observe that there are situations in which the assumption of positive and unlimited distribution support is not adequate. This new approach contributes to the discussion about the university dropout. Furthermore this model can be converted into a new tool for the analysis about a current theme which is the dropout in the university population.

Key words: generalized beta model, lognormal distribution, unimodality, university desertion.


RESUMO

Propõe-se o modelo Beta Generalizado como um modelo de sobrevivência para analisar a evasão universitária. Este modelo permite capturar algumas características reais dos dados, as quais nem sempre são bem representadas a partir de modelos tradicionais. Resultados obtidos são comparados a partir de dois modelos: um, o proposto e, outro, tradicionalmente usado, o Log-normal, o que permitiu observar que existem situações nas quais o suporte positivo e ilimitado na distribuição utilizada nem sempre é o adequado. Apresenta-se nova contribuição para o processo da discussão sobre a evasão e, portanto, transformada em nova ferramenta para a análise de um tema atual como o abandono dos estudos por parte da população universitária.

Palavras chave: modelo beta generalizado, distribuição log-normal, unimodalidade, evasão universitária.


 

1. INTRODUCCIÓN

La modelación estadística se ha transformado en una herramienta fundamental para el control y gestión de elementos en el ámbito educativo, en particular en la sección de control y seguimiento de procesos. Actualmente el concepto de modelación estadística esta cambiando. Antiguamente, eran los datos que se debían adaptar o ajustar a un modelo existente y específico, por ejemplo, el modelo normal o gaussiano, que se trasformó en un supuesto natural de muchos estudios, en particular y fuertemente en el ámbito de la evaluación educacional (ver Fernández, 1997). Actualmente se pretende que cada conjunto de datos tenga su propio modelo, es decir que obedezca, por ejemplo, a la asimetría o bimodalidad de estos (ver Arellano-Valle, 2005). Por tanto, los procesos de análisis distribucionales en el ámbito del control y seguimiento educacional se deben adaptar a las nuevas tendencias, pues estos cambios ayudarán a comprender con mayor precisión el fenómeno de la evasión o abandono, por ejemplo, en el camino de buscar la precisión encontramos interesantes trabajos en el ámbito educativo, como determinar con mayor precisión los niveles de competencia de nuestros alumnos (ver Cabrera, 2010). Un modelo estadístico es una representación platónica, ideal y perteneciente al universo de lo posible, más que de lo probable. Particularmente, cuando trabajamos con un modelo de vida, estamos asociando a esa variable un soporte caracterizado por la parte positiva de la recta real, lo que evidentemente da espacio a lo posible, mas, lamentable o afortunadamente, la infinitud no es parte de la actualidad y de muchas de las variables que son esenciales en el proceso de control y seguimiento, pues generalmente sus soportes son acotados, en donde un ejemplo directo son las evaluaciones en el sistema métrico de la gran mayoría de los países o, en particular, los semestres de evasión universitaria.

Nuestra propuesta consiste en la presentación del modelo beta generalizado, como modelo de análisis de sobrevivencia para el estudio de la evasión, como un modelo que atiende de mejor forma las características de muchas de nuestras variables en el ámbito educacional; además presenta variadas formas y flexibilidad, lo que lo convierten en un atractivo modelo. Finalmente, se presenta una aplicación con un conjunto de datos reales, correspondientes a evasiones en semestres de una muestra de alumnos de la Universidad del Quindío, desde el primer semestre académico 2007, permitiendo visualizar las bondades del ajuste en relación al modelo log-normal.

2. EL PROBLEMA DE INVESTIGACIÓN

En la actualidad la filosofía del modelaje esta cambiando, tendiendo a proponer modelos con características de mayor identificación para los datos, como es la asimetría, lo que evidentemente trae consigo consecuencias positivas en el proceso de medición y estudio de comportamiento, aspectos centrales en los procesos de control y seguimiento (ver Cabrera, 2010), sin embargo, es una visión difícil de incorporar, pues el supuesto de normalidad o el uso de modelos de vida con soporte ilimitado son casi una obligación, muchas veces identificados como parte medular en un proceso de análisis de datos en el ámbito educacional. Fernández (1997) indica que el modelo normal es "por norma" la distribución en la evaluación del aprendizaje. Por tal razón queremos presentar y proponer el modelo Beta Generalizado, como una herramienta que responde de mejor forma a las características de nuestro sistema métrico, permitiendo un análisis fidedigno y la superación de algunos supuestos distribucionales.

Por tal razón, el problema de este trabajo es: "Caracterizar la distribución Beta Generalizada como un modelo de análisis de sobrevivencia que se adecua de mejor forma a las características métricas de nuestras escalas de seguimiento y control de la evasión universitaria, y comparar las bondades de ajuste en relación al modelo log-normal basado en un conjunto de datos reales".

3. OBJETIVOS DE LA INVESTIGACIÓN QUE SE PRESENTA

• Describir aspectos formales de la distribución Beta Generalizado como modelo de vida.

• Caracterizar el Modelo Beta Generalizado.

• Promover la distribución Beta Generalizada, como un modelo de análisis de sobrevivencia o seguimiento de la evasión universitaria.

• Presentar las bondades de ajuste del Modelo Beta Generalizado en comparación con el modelo log-normal en una muestra real de semestres de evasión.

• Promover una línea de investigación en torno a las implicancias de considerar modelos con soporte acotado en el ámbito educacional, específicamente en los procesos seguimiento y control de la evasión universitaria.

4. METODOLOGÍA DE LA INVESTIGACIÓN

La metodología de trabajo, es de tipo propositivo, en el sentido de dar comienzo a un nuevo eje de investigación en el ámbito educacional, específicamente en el análisis de evasiones universitarias, considerando características reales de estos procesos, sobrepasando los problemas de sub y sobre estimación generada con la utilización de otros modelos de análisis de sobrevivencia.

Fases de la Investigación:

1. Análisis preliminar.

2. Caracterización del Modelo Beta Generalizado.

3. Aplicación.

4. Análisis a posteriori y evaluación.

5. ALGUNOS ANÁLISIS PRELIMINARES.

5.1. LA MODELACIÓN ESTADÍSTICA

Los modelos estadísticos han sido ampliamente utilizados en una amplia gama de situaciones, por ejemplo para resolver problemas concretos de la ingeniería y de las diferentes áreas científicas y constituyen la base de la formulación teórica de la inferencia y mucho de los métodos estadísticos. Hoy en día, la modelación estadística cuenta con los respaldos metodológicos y tecnológicos que le dan una gran viabilidad como una área de desarrollo en la modelación educacional. Un modelo estadístico, es una concepción teórica y platónica que, de manera muy genérica, puede concebirse como un constructor mental con el que se aspira estudiar y entender de mejor forma un fenómeno en el que subyace una relación causa efecto (ver Ojeda, 2003). Entender este apartado es fundamental para comprender el sentido de este trabajo, pues uno de los objetivos principales de la educación, es la retención de estudiantes y entender este fenómeno incluye la modelación de la evasión universitaria; tiene un modelo ideal que explica perfectamente su comportamiento, sin embargo, difícilmente lo llegaremos a conocer, por tanto, en el proceso de modelación, es decir, en el proceso de proponer modelos, se debe ir considerando cada vez más elementos característicos y propios de los datos que observamos. Es en este sentido que es presentada la propuesta de modelo Beta Generalizado, como un paso más en la comprensión de un fenómeno tan importante, como es la evasión universitaria para el control y seguimiento.

5.2. LA EVASIÓN UNIVERSITARIA

La evasión universitaria, o abandono de los estudios universitarios sin conseguir un título, es la expresión de una multiplicidad de situaciones, en su mayoría comunes a los países de Latinoamérica; las explicaciones tienen que ver con la desorientación vocacional de quienes ingresan a las universidades, los problemas de desarrollo cognitivo, familiares y económicos, entre otros.

En un principio, con cierta ligereza, se afirmaba que la evasión universitaria era producto de la situación económica de las familias de los estudiantes, pero los primeros análisis, por lo menos en Colombia, mostraron que si bien lo económico interviene de alguna manera en la evasión, no es el factor determinante y, antes que él, existen otros con mayor peso, que son de tipo académico.

Una vez descartado el factor económico como determinante de la evasión, aparece la posibilidad de intervenir en su control desde varios sectores de la academia, lo cual requiere identificar herramientas de análisis, estrategias de intervención y adecuación de modelos de evaluación para su seguimiento.

La deserción de la población universitaria, considerada como una variable del Sistema Social, se puede mirar como una variable explicativa de muchas situaciones de la realidad social, pero también como una resultante o expresión de ineficiencia del Subsistema Educativo.

El abandono de los estudios universitarios sin obtener un título representa, ante todo, una frustración para el individuo y su familia, pero también una pérdida de recursos para el Estado, en el caso de las universidades públicas, y de esfuerzo, para las instituciones educativas en general.

Como variable explicativa, la evasión es uno de los factores de mayor peso en la marginalidad social, y, como variable respuesta en ella, se resumen situaciones de distinto tipo: individual, sociocultural, académico, institucional y económico, que se deben puntualizar en los diferentes contextos específicos, en este caso, las universidades y su entorno. (Ver Galvis, 2010)

Para intervenir la evasión, se requiere de un modelo que permita analizarla en forma global y que, una vez implementada una estrategia de intervención, el modelo responda sobre la eficacia de la misma; es justamente ésta nuestra motivación para proponer el modelo Beta Generalizado como un modelo de sobrevivencia.

6. CARACTERIZACIÓN DEL MODELO BETA GENERALIZADO

La distribución beta generalizada que se presenta en este artículo, es referente a la generalización del soporte, concepto diferente de la generalización presentada por Cordeiro (2012).

En la teoría de probabilidad y estadística, la distribución beta representa una familia de distribuciones de probabilidad continuas con soporte en el intervalo (0,1). La densidad beta es caracterizada por dos parámetros positivos, indicados generalmente por α y β o u y v, que son parámetros de localización y de escala. La distribución beta ha sido aplicada para modelar el comportamiento de variables aleatorias limitadas a intervalos de amplitud finita, en una gran variedad de áreas.

Su densidad es

que puede tener variados comportamientos, dependiendo de los valores de los parámetros, desde comportamientos simétricos hasta totalmente asimétricos, como es presentado en el gráfico de la Figura 1:

 

 
Figura 1. Curva Roja u=2; v=2, Curva verde u=3; v=1, Curva azul u=1; v=3

 

De manera natural, interesa extender estas propiedades a soportes diferentes; es por esta razón que en las secciones siguientes será presentada la distribución beta generalizada, para posteriormente realizar el contraste con el modelo log-normal.

6.1 DISTRIBUCIÓN BETA GENERALIZADA

La distribución beta generalizada nació de manera natural para dar mayor flexibilidad al soporte acotado, donde su función de densidad es definida como:

Donde, del mismo modo que en el modelo estándar, los parámetros u y v son positivos. La distribución Beta estándar es ahora una situación particular de la distribución Beta Generalizada, cuando (a,b)=(0,1).

Si X es una variable aleatoria con distribución Beta Generalizada, entonces la notación será: X~BG(ab)(u,v) o equivalentemente X~BG(u,v,a,b)

6.2 CARACTERÍSTICAS DEL MODELO

Para facilitar la operabilidad del modelo, consideraremos que el parámetro b será escrito por b=a+h, de ese modo la densidad queda representada por:

Los elementos siguientes son los que generalmente son presentados para el análisis y comparar evasiones.

Esperanza

Segundo Momento

Varianza

En el proceso de estimación presentaremos dos de los más relevantes; el primero es el de máxima verosimilitud y el segundo es el de momentos.

En este proceso asumiremos que el parámetro h o amplitud del intervalo de los posibles valores de X es conocido.

Para el caso del estimador de máxima verosimilitud, basta resolver el sistema siguiente:

Las estimativas por medio del método de momentos, que representaremos por y respectivamente son:

6.3 FUNCIÓN DE SOBREVIVENCIA PARA UNA VARIABLE ALEATORIA BETA GENERALIZADA

La función de sobrevivencia es una de las principales funciones probabilísticas usadas para describir estudios de sobrevivencia (ver Lee 2003). La función de sobrevivencia es definida como la probabilidad de que una observación no falle hasta un cierto tiempo t, es decir, la probabilidad de que una observación sobreviva hasta el tiempo t. En términos probabilísticos, esto es escrito como S(t) = P(T > t). Por tanto, basado en esta definición, la función de sobrevivencia puede ser determinada por

S(t) = 1 - P(T < t) = 1 - F(t), donde F(t) representa la función de distribución de probabilidades de la variable aleatoria T.

En el Gráfico de la Figura 2, es posible observar la flexibilidad de la función de sobrevivencia de la variable aleatoria beta generalizada, con crecimientos fuertes en el inicio del proceso, para posteriormente estabilizarse casi en un decaimiento lineal, como es posible observar en la curva de color amarillo. De forma similar, podemos obtener funciones de sobrevivencia en la cual el decrecimiento de la curva sea significativo después del 50% de las fallas o muertes, como se muestra en la curva de color negro, y las curvas restantes son una muestra de la flexibilidad y la amplia gama de situaciones con soporte acotado posibles de modelar.

 

 
Figura 2. En el gráfico consideramos los valores 2, 2, 1, 5 y 0.5 para los parámetros α, 2, 5, 3, 1 y 1 para el parámetro β representados de color verde, rojo, azul, preto y amarillo respectivamente y h=3

 

6.4 FUNCIÓN DE RIESGO PARA UNA VARIABLE ALEATORIA BETA GENERALIZADA

La función de Riesgo también es conocida como función de tasa de falla. Para su definición vamos asumir que la probabilidad de que la falla ocurra en el intervalo [t1,t2[ puede ser expresada en términos de la función de sobrevivencia como: S(t1)-S(t2) (ver Lee 2003). La tasa de falla en el intervalo [t1,t2[ es definida como la probabilidad de que la falla ocurra en este intervalo, dado que no ocurrió antes de t1, dividido por la amplitud del intervalo. Así, la tasa de falla en el intervalo [t1,t2[ es expresada por : ((S(t1)-S(t2))/((t2-t1) S(t1))). De forma general la función de riesgo, λ(t), es definida como: λ(t)=(f(t))/(S(t)).

En el gráfico de la Figura 3, es posible observar la flexibilidad de la función de riesgo de una variable aleatoria Beta Generalizada, con incrementos en diferentes velocidades. Una situación muy importante de destacar es la modelación de un riesgo que en el tiempo cero tiene un riesgo diferente de cero.

 

 
Figura 3. En el Gráfico consideraremos los valores 2, 2 y 1 para el parámetro α, 2, 5 y 4 para el parámetro β representados de color verde, amarillo y azul respectivamente y h=3

 

7. APLICACIÓN

La evasión universitaria, "es el proceso de abandono voluntario o forzoso de una carrera en la que se matriculo un estudiante, por influencia positiva o negativa de las circunstancias internas o externas a él." Esto es definido en un estudio sobre "Repitencia y deserción en la educación superior de Guatemala", realizado por el Instituto Internacional para la educación Superior en América Latina y el Caribe (UNESCO).

La evasión en nuestro contexto representa las fallas o muertes en el modelo de vida. Ahora, desde el punto de vista de las posibilidades, el alumno puede evadir cuando él quiera (idea de infinito). Sin embargo, existen normativas que limitan el mundo de las posibilidades; en nuestro problema, un alumno puede evadir hasta un plazo máximo de 7 semestres, sea de manera voluntaria o forzosa.

Para efectos de ilustrar el comportamiento del modelo en la modelación de este tipo de variables con soporte compacto, solo fue considerada una proporción de las evasiones, específicamente las voluntarias, no considerando evasiones con reingreso, especiales u otro tipo.

Los datos corresponden a evasiones de los alumnos de la Universidad de Quindío -Colombia, los datos obtenidos son de un estudio de cohorte en donde fueron seguidos, uno a uno y durante 6 semestres, 605 estudiantes que ingresaron a primer semestre académico en el año de 2007. La escala de los tiempos es semestral, en la cual el semestre indicado representa el tiempo en el cual el alumno evade voluntariamente la carrera. El soporte será asumido conocido, h=7.

El gráfico de la Figura 4 es un ajuste no paramétrico de los tiempos de evasión, en donde es posible observar un comportamiento asimétrico, con la presencia de dos grupos, por lo tanto, un ajuste ideal sería pensar en una mixtura de distribuciones (ver McLanchlan 2000). Sin embargo la propuesta es unimodal. Para efectos de ilustración, posteriormente será comparado con uno de los modelos clásicos de análisis de sobrevivencia, simplemente para evidenciar la necesidad de incorporar nuevos modelos en los análisis de sobrevivencia y en particular si se quiere estudiar las evasiones de los alumnos universitarios.

 

 
Figura 4. Semestre

 

Sobre el supuesto de que la densidad de los tiempos de evasión es beta generalizada, el proceso de estimación de máxima verosimilitud utilizando Newtom-Raphson, indican que α=29; β=17.

En el gráfico de la Figura 5, se presenta el ajuste del modelo beta generalizado (color verde) y el modelo log-normal (color rojo) solo para potenciar la necesidad de incorporar nuevos modelos en el análisis de sobrevivencia, lo que respalda la propuesta de que el modelo beta generalizado es un buen modelo para explicar el comportamiento de las evasiones universitarias y, por tanto, potenciar la significatividad de las conclusiones. La curva de color negro representa el ajuste no paramétrico, considerado, en este caso, el modelo de referencia.

 

 
Figura 5. Semestre

 

Conocer el comportamiento distribucional de las evasiones universitarias, es de suma importancia para el ámbito educacional, pues permite el replanteamiento y evaluar, por ejemplo, la implantación de nuevas metodologías o criterios, por tanto, la modelación estadística aplicada a la educación, particularmente al análisis de evasión, es fundamental para el control y seguimiento, y, particularmente, para caminar hacia la comprensión del fenómeno de la evasión universitaria.

8. ANÁLISIS A POSTERIORI Y EVALUACIÓN

La presentación de esta situación, basada en un conjunto de datos reales, permite visualizar una necesidad inmediata, que es la incorporación de más modelos al ámbito educacional que permitan representar, cada día con mayor fidelidad, el comportamiento real de variables tan importantes como son la evasión universitaria. En el gráfico de la Figura 6, visualmente no resulta compleja la decisión, al comparar con otro modelo de vida, como es el caso del modelo log-normal. Además, la utilización del modelo Beta Generalizado, permite obtener resúmenes, como media y varianza, en los cuales las sobre estimaciones de los modelos con soporte positivo, no afectan.

9. CONCLUSIONES

El modelo propuesto muestra una significativa mejoría en su ajuste, en relación con el modelo de referencia, para la modelización de la evasión y, por lo tanto, es una opción a considerar como herramienta en el control y seguimiento de procesos relacionados con la educación. Es un modelo que considera información adicional de las características de los datos, como es la pertenencia a un soporte acotado, sin los problemas de sobrestimación de elementos improbables en la práctica. Otra gran ventaja del modelo Beta Generalizado en la modelización de la evasión universitaria es su flexibilidad y adecuación a las asimetrías de las distribuciones, lo que nuevamente se transforma en un aspecto relevante en el camino del control y seguimiento del proceso.

La selección de un buen modelo en esta etapa es fundamental para iniciar el estudio de la incidencia de covariables en este proceso, por ejemplo, en el caso del modelo Beta Generalizado, existen una gran cantidad de herramientas para ese tipo de análisis, denominado regresión Beta (Ferrari, 2004).

En definitiva, el modelo Beta Generalizado presenta interesantes propiedades como modelo de vida, que lo transforman en una herramienta potencial para un estudio de la evasión universitaria incorporando otros elementos, ya que el propósito de este trabajo es fundamentalmente introducir un nuevo modelo en el análisis de evasión universitaria, considerando características reales y actuales de los datos, como es, por ejemplo lo acotado de su soporte.

10. AGRADECIMIENTOS.

El autor, José Alejandro González Campos agradece al Laboratorio [EXPERIMENTAL] de Saberes Matemáticos (i.e., Equipo Lab[e]saM) y Laboratorio de análisis de datos y saberes estadísticos (i.e., Equipo LadysE), inserto en el Departamento de Matemática & Estadística, Facultad de Ciencias Naturales & Exactas, Universidad de Playa Ancha / Valparaíso, CHILE. También agradece a CONICYT-BECAS CHILE y "Concurso regular de proyectos de investigación año 2013. Cambios sustantivos en la formación de profesores de la Universidad de Playa Ancha de Ciencias de la Educación. Procesos formativos de excelencia para impactar en el rendimiento escolar y fortalecimiento social de las comunidades educativas, UPA 1203".

Los autores José Alejandro González Campos y Diana Milena Galvis Soto agradecen el apoyo económico de la CAPES-Brasil.

Los autores Luis Hernando Hurtado Tobón y Diana Milena Galvis Soto reconocen el apoyo económico de la Universidad del Quindío y del Ministerio de Educación Nacional de Colombia en el desarrollo del proyecto Programa de Diagnóstico y Apoyo a la deserción de la Universidad del Quindío. Colombia.

 

REFERENCIAS BIBLIOGRÁFICAS

Arellano-Valle, R., Genton, M. (2005). On fundamental skew distributions. Journal of Multivariate Analysis, vol. 96, n.1, 93-116.

Cabrera, E., González, J., Montenegro, E., Nettle, A., Guevara, M. (2010). Test informatizados y el registro del tiempo de respuesta, una vía para la precisión en la determinación del nivel de logro de un saber matemático. Estudios Pedagógicos, vol. XXXVI, n.1, 69-84.

Cabrera, E., González, J., Montenegro, E. et al. (2010). Una didáctica del saber: un camino hacia la optimización de las transposiciones didácticas. Estudios Pedagógicos, vol.36, n.2, 51-61.

Cordeiro, G., Castellares, F., Montenegro, L., & de Castro, M. (2013). The beta generalized gamma distribution. Statistics: A Journal of Theoretical and Applied Statistics, vol.47, n.4, 880-900.

Ferrari S., Cribari F. (2004). Beta regression for modelling rates and proportions. Journal of Applied Statistics, vol.31, n.7, 799-815.

Fernández, A. (1997). Uso de la Distribución normal en la evaluación del aprendizaje. Estudios Pedagógicos, n.23, 51-63.

Galvis, D.M, Garcia, M.D, Hurtado, L.H, Mendez, R.M. (2010). La deserción estudiantil en la Universidad del Quindío, diagnóstico y estrategias de intervención. Colombia: Editorial de la Universidad del Quindío.

Lee, E., Wang J. (2003). Statistical Methods for Survival Data Analysis. Hoboken, NJ: John Wiley and Sons.

McLachlan, G., Peel, D. (2000). Finite Mixture Models. Hoboken, NJ: John Wiley and Sons.

Ojeda, M. (2003). La modelación estadística. México: Universidad Veracruzana, Universidad Juárez Autónoma de Tabasco.