Objetivo y Anotaciones :: Fase 1

[Descripciones Multivariantes]

En términos generales, esta primera etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en un conjunto de datos desde un enfoque de estadística descriptiva multivariante; además, de incluir una prueba estadística de normalidad multivariada sobre ellos.

El conjunto de datos de trabajo es descrito en la sección 2. Cabe anotar que los fundamentos teóricos provienen de notas de clase del curso Análisis Multivariante dictado por el profesor Juan Carlos Rubriche Cárdenas para la Especialización en Estadística Aplicada, modalidad virtual (cohorte 2022-4), de la Fundación Universitaria Los Libertadores; y de los libros: Análisis Multivariante Aplicado con R (Aldás & Uriel, 2017) de Joaquín Aldás y Ezequiel Uriel, Análisis Multivariante de Joseph Hair, Rolph Anderson, Ronald Tatham y William Black (Hair et al., 1999), Análisis Estadístico de Datos Multivariados de Luis Guillermo Díaz Monroy y Mario Alfonso Morales Rivera (Díaz Morales & Morales Rivera, 2012), Introducción a la Teoría Matemática de las Probabilidades y a la Estadística de Howard Tucker (Tucker, 1973) y Análisis Multivariado: Estadística Multivariada Descriptiva de William David Aristizábal Rodríguez (Aristizábal R., 2017).

Este trabajo continúa el hecho en el curso Análisis de Regresión dictado por el profesor Dagoberto Bermúdez para la Especialización en Estadística Aplicada, modalidad virtual (cohorte 2022-4), de la Fundación Universitaria Los Libertadores. En este la bibliografía consultada fue: probabilidad y estadística de Jay L. Devore (Devore, Jay L., 2008), Bioestadística de Wayne W. Daniel (Daniel, Wayne W., 2013), Métodos Matemáticos de Estadística de Harald Cramer (Cramer, Harald, 1953); motivo por el cual se incluyen en las referencias. El trabajo hecho en Análisis de Regresión que puede ser consultado temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.

Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del lunes 13 de febrero de 2023.

2. Descripción de los Datos

2.1. Fuente del Conjunto de Datos

El conjunto de datos de trabajo se obtuvo casi totalmente de Kaggle: https://www.kaggle.com/akshaydattatraykhare. Es conveniente anotar que Kaggle es una compañía subsidiaria de Google LLC que mantiene una comunidad online de científicos de datos y profesionales del aprendizaje automático. Esta empresa permite a sus usuarios encontrar y publicar conjuntos de datos, explorar y crear modelos en un entorno de ciencia de datos basado en la web, trabajar con otros científicos de datos e ingenieros de aprendizaje automático y participar en concursos para resolver desafíos de ciencia de datos.

2.2. Contexto del Conjunto de Datos

El conjunto de datos incluye métricas académicas obtenidas por estudiantes extranjeros para aspirar a acceder a universidades de EE.UU. Este conjunto de datos se actualizó por última vez en julio de 2022.

2.3. Descripción del Conjunto de Datos

El conjunto de datos contiene 10 campos y 400 registros. Uno de los campos es simplemente un identificador numérico secuencial de los registros; otros tres son de naturaleza politómica; y el resto son numéricos estrictamente positivos. La lista siguiente los describe en el mismo orden, de izquierdda a derecha, como aparecen en el rango de datos que los contiene y se establece para cada campo, excepto el campo Serial, el tipo de variable y su escala de medición con base en la nomenclatura (tipo_de_variable::escala_de_medición[ordenamiento]):

  • Serial (identificador): registra un número secuenciado a partir de 1 para identificar de forma única cada registro consignado en el conjunto de datos.

  • Gender (cualitativa::nominal): registra el sexo del estudiante del cual se registraron los datos: 1 corresponde con un estudiante de sexo masculino, 0 con un estudiante de sexo femenino.

  • GRE Score (cuantitativa::razón): registra el puntaje total GRE (examen de acceso a la universidad) obtenido por el estudiante. GRE es un componente común del proceso de admisión a colegios o universidades en EE.UU. que mide el razonamiento verbal, cuantitativo, la escritura analítica y las habilidades de pensamiento crítico que se han adquirido a lo largo de un extenso período de tiempo y que no están relacionados con campo específicos de estudio. El campo solo registra dos de los tres componentes de la evaluación: razonamiento verbal y cuantitativo, en una escala desde 260 hasta 340 puntos. El resultado ausente del puntaje corresponde con el componente de escritura analítica: calificado entre 0 y 6 puntos.

  • TOEFL Score (cuantitativa::razón): registra el puntaje total TOEFL (prueba de inglés como idioma extranjero) obtenido por el estudiante. TOEFL es un componente común del proceso de admisión a colegios o universidades en EE.UU. por parte de estudiantes extranjeros que mide las competencias en comprensión escrita, comprensión oral, expresión oral y expresión escrita, en una escala desde 0 hasta 120 puntos.

  • SOP (cuantitativa::razón): registra el puntaje total SOP (ensayo de declaración de propósitos o de admisión) obtenido por el estudiante. SOP es un componente común del proceso de admisión a colegios o universidades en EE.UU. que consiste en un ensayo de solicitud de ingreso escrito por el estudiante en el cual debe hacer una descripción general de quién es, en quién quiere convertirse y hasta qué punto está preparado para seguir un determinado curso en la institución educativa a la cual aspira ingresar. Este ensayo se califica con un puntaje entre 0 y 5.

  • LOR (cuantitativa::razón): registra el puntaje total LOR (carta de recomendación) obtenido por el estudiante. LOR es un componente común del proceso de admisión a colegios o universidades en EE.UU. que consiste en una recomendación escrita, generalmente por un profesor, en la cual el redactor evalúa las cualidades, características y capacidades del estudiante recomendado en relación con su aptitud para seguir un curso en la institución educativa a la cual el estudiante aspira a ingresar. Esta carta se califica con un puntaje entre 0 y 5.

  • CGPA (cuantitativa::razón): registra el puntaje total CGPA (promedio de calificaciones acumulativo) obtenido por el estudiante. CGPA es un componente común del proceso de admisión a colegios o universidades en EE.UU. que mide el desempeño promedio del estudiante en su escolaridad previa a la solicitud de ingreso a la institución educativa siguiente de su preferencia. Este puntaje se mide entre 0 y 4; sin embargo, en el conjunto de datos fue convertido en una escala entre 0 y 10.

  • Research (cualitativa::nominal): registra la experiencia en investigación que posee el estudiante: 1 corresponde con que el estudiante argumenta experiencia investigativa, 0 corresponde con que no-argumenta experiencia investigativa.

  • University Rating (cualitativa::nominal(ordenada)): registra valoración de la universidad a la cual aspira a ingresar el estudiante. Esta valoración se hace en una escala entre 1 y 5 estrellas, cinco estrellas indica la mejor valoración.

  • Chance of Admit (cuantitativa::razón): registra la probabilidad de que el estudiante sea admitido en la universidad de su preferencia con base en los datos registrados a su nombre, salvo su sexo. Esta probrabilidad se mide entre 0 y 1.

Por último, es necesario aclarar que en el conjunto de datos los registros de las variables cualitativas fueron reescritos, según los casos, por números enteros positivos, incluido el cero. Así, los sexos en la variable Gender fueron reescritos como 0:female y 1:male; en Research el evidenciar o no-evidenciar investigaciones fue reescrito como 0:no-research y 1:research; y en University Rating la valoración de la universidad fue reescrita como 1:one_star, 2:two_stars, 3:three_stars, 4:four_stars y 5:five_stars.

Estructura del Conjunto de Datos Inicial

str(Admission_Dataset_Initial)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Serial           : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Gender           : chr [1:400] "M" "F" "M" "M" ...
##  $ GRE_Score        : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
##  $ TOEFL_Score      : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
##  $ SOP              : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
##  $ LOR              : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
##  $ CGPA             : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
##  $ Research         : chr [1:400] "research" "research" "research" "research" ...
##  $ University_Rating: chr [1:400] "four_stars" "four_stars" "three_stars" "three_stars" ...
##  $ Chance_of_Admit  : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...

Conjunto de Datos Inicial

Admission_Dataset_Initial
## # A tibble: 400 × 10
##    Serial Gender GRE_Score TOEFL_Score   SOP   LOR  CGPA Resea…¹ Unive…² Chanc…³
##     <dbl> <chr>      <dbl>       <dbl> <dbl> <dbl> <dbl> <chr>   <chr>     <dbl>
##  1      1 M            337         118   4.5   4.5  9.65 resear… four_s…    0.92
##  2      2 F            324         107   4     4.5  8.87 resear… four_s…    0.76
##  3      3 M            316         104   3     3.5  8    resear… three_…    0.72
##  4      4 M            322         110   3.5   2.5  8.67 resear… three_…    0.8 
##  5      5 M            314         103   2     3    8.21 no-res… two_st…    0.65
##  6      6 M            330         115   4.5   3    9.34 resear… five_s…    0.9 
##  7      7 M            321         109   3     4    8.2  resear… three_…    0.75
##  8      8 M            308         101   3     4    7.9  no-res… two_st…    0.68
##  9      9 F            302         102   2     1.5  8    no-res… one_st…    0.5 
## 10     10 F            323         108   3.5   3    8.6  no-res… three_…    0.45
## # … with 390 more rows, and abbreviated variable names ¹​Research,
## #   ²​University_Rating, ³​Chance_of_Admit

Estructura del Conjunto de Datos Reescrito

str(Admission_Dataset)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
##  $ Serial           : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
##  $ Gender           : num [1:400] 1 0 1 1 1 1 1 1 0 0 ...
##  $ GRE_Score        : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
##  $ TOEFL_Score      : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
##  $ SOP              : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
##  $ LOR              : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
##  $ CGPA             : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
##  $ Research         : num [1:400] 1 1 1 1 0 1 1 0 0 0 ...
##  $ University_Rating: num [1:400] 4 4 3 3 2 5 3 2 1 3 ...
##  $ Chance_of_Admit  : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...

Conjunto de Datos Reescrito

Admission_Dataset
## # A tibble: 400 × 10
##    Serial Gender GRE_Score TOEFL_Score   SOP   LOR  CGPA Resea…¹ Unive…² Chanc…³
##     <dbl>  <dbl>     <dbl>       <dbl> <dbl> <dbl> <dbl>   <dbl>   <dbl>   <dbl>
##  1      1      1       337         118   4.5   4.5  9.65       1       4    0.92
##  2      2      0       324         107   4     4.5  8.87       1       4    0.76
##  3      3      1       316         104   3     3.5  8          1       3    0.72
##  4      4      1       322         110   3.5   2.5  8.67       1       3    0.8 
##  5      5      1       314         103   2     3    8.21       0       2    0.65
##  6      6      1       330         115   4.5   3    9.34       1       5    0.9 
##  7      7      1       321         109   3     4    8.2        1       3    0.75
##  8      8      1       308         101   3     4    7.9        0       2    0.68
##  9      9      0       302         102   2     1.5  8          0       1    0.5 
## 10     10      0       323         108   3.5   3    8.6        0       3    0.45
## # … with 390 more rows, and abbreviated variable names ¹​Research,
## #   ²​University_Rating, ³​Chance_of_Admit

3. Estimaciones Multivariadas

Como se menciona en (Aristizábal R., 2017) la de media, varianza y covarianza conforman un conjunto de medidas fundamentales para describir describir el comportamiento posicional, dispersivo y correlacional de variables aleatorias. En este sentido, el conjunto de datos de trabajo que posee cinco variables aleatorias numéricas, y que está representado matricialmente, estima las medidas anteriores a partir de vectores y matrices en el estudio descriptivo multivariable.

El vector de medias indica el comportamiento posicional en el sentido de valor esperado o punto medio para cada variable en relación con todos sus registros. La matriz de varianzas-covarianzas estima las dispersiones, en su diagonal principal, de cada variable del conjunto de datos respecto de cada media obtenida del vector de medias. Además, por encima o por debajo de la diagonal principal, se estiman las covarianzas entre las combinaciones de los posibles pares de variables del conjunto de datos. Para más detalles se puede consultar a (Aristizábal R., 2017).

Lo anterior, para el conjunto de datos de trabajo, se desarrolla en la sección 3.2.

3.1. Planteamiento del Problema

Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las variables numéricas, el vector de medias, la matriz de varianzas-covarianzas y la matriz de correlaciones. Se recuerda que las variables numéricas (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.

3.2. Desarrollo del Análisis

La navegación a través de las pestañas muestra el cálculo de los siguientes objetos: Vector de Medias \(\bar x\), Matriz de Varianzas-Covarianzas \(S\) y Matriz de Correlaciones \(R\).

Con base en la pestaña Vector de Medias y Boxplots se puede describir que en general los datos registrados para cada una de las variables tienden a tener colas izquierdas en su distribuciones, así, las medias estimadas tienden a ser altas. Adicionalmente, en relación con la mediana, solo la variable SOP muestra un sesgo notorio en comparación con las demás. Además, todos los casos atípicos son de extremo inferior. Si se revisan los rangos de las variables estudiadas se puede constatar que las medias son altas compradas con los extremos superiores de cada rango.

Con base en la pestaña Matriz de Varianzas-Covarianzas se interpreta que, en general, y como se espera que pase, las relaciones entre las variables, estudiadas por pares, tienden a ser de proporcionalidad directa. Para el caso, se pueden observar la gráfica multivariada mostrada en la pestaña Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA] de la sección 4.2.

Con base en la pestaña Matriz de Correlaciones y al considerar la Matriz de Varianzas-Covarianzas es verificable que la intensidad de las corelaciones es más alta y siempre positiva entre las variables: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit, que es esperado en relación con el fenómeno estudiado, esto se puede revisar con más detalles en la sección 4.2.

Vector de Medias y Boxplots

apply(Admission_Dataset[,-c(1,2,8,9)], 2, mean)
##       GRE_Score     TOEFL_Score             SOP             LOR            CGPA 
##      316.807500      107.410000        3.400000        3.452500        8.598925 
## Chance_of_Admit 
##        0.724350
Admission_Dataset_Reducido = Admission_Dataset[,-c(1,2,8,9)]
par(mfrow = c(1, ncol(Admission_Dataset_Reducido)))
invisible(lapply(1:ncol(Admission_Dataset_Reducido), function(i) boxplot(Admission_Dataset_Reducido[, i])))

Matriz de Varianzas-Covarianzas

round(cov(Admission_Dataset[,-c(1,2,8,9)]),2)
##                 GRE_Score TOEFL_Score  SOP  LOR CGPA Chance_of_Admit
## GRE_Score          131.64       58.22 7.08 5.75 5.70            1.31
## TOEFL_Score         58.22       36.84 4.02 3.10 3.00            0.69
## SOP                  7.08        4.02 1.01 0.66 0.43            0.10
## LOR                  5.75        3.10 0.66 0.81 0.36            0.09
## CGPA                 5.70        3.00 0.43 0.36 0.36            0.07
## Chance_of_Admit      1.31        0.69 0.10 0.09 0.07            0.02

Matriz de Correlaciones

round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
##                 GRE_Score TOEFL_Score  SOP  LOR CGPA Chance_of_Admit
## GRE_Score            1.00        0.84 0.61 0.56 0.83            0.80
## TOEFL_Score          0.84        1.00 0.66 0.57 0.83            0.79
## SOP                  0.61        0.66 1.00 0.73 0.72            0.68
## LOR                  0.56        0.57 0.73 1.00 0.67            0.67
## CGPA                 0.83        0.83 0.72 0.67 1.00            0.87
## Chance_of_Admit      0.80        0.79 0.68 0.67 0.87            1.00

4. Gráficas Multivariadas

En la guía de clase de (Aristizábal R., 2017) se menciona que, en general, los gráficos multivariados cumplen dos objetivos esenciales: primero, ayudan a comparar el comportamiento de poblaciones de estudio con base en variables categóricas y suavizan la comprensión de la estructura de correlación entre varias variables. En este sentido, el conjunto de datos de trabajo tendrá apoyo descritivo gráfico a través de tres diagramas: uno conjunto que integra dispersión, distribución y correlaciones; otro basado en la renderización de polígonos, y por último, uno que recurre a las caras de Chernoff.

4.1. Planteamiento del Problema

Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las variables numéricas, las gráficas multivariadas de diagrama de correlaciones, matriz de diagrama de dispersión, diagrama de estrellas y caras de Chernoff. Se recuerda que las variables numéricas (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.

4.2. Desarrollo del Análisis

La navegación a través de las pestañas muestra las gráficas multivariadas de: Diagrama Conjunto de Dispersión, Distribución y Correlaciones (sin agrupación SA y con agrupación CA (con base en las tres variables categóricas: Gender:GE, Research:RE, University_Rating:UR)), Diagrama de Estrellas y Caras de Chernoff.

Con base en la pestaña Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA] se puede describir que las correlaciones más altas, mayores que \(0.8\), se dan entre variables esperadas como: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit. Estas variables, según las definiciones dadas en la sección 2 de descripción de datos, son nucleares en el fenómeno estudiado, porque están involucradas con el historial de rendimiento académico del estudiante, su desempeño en la prueba de ingreso a la universidad, su nivel de dominio certificado del idioma inglés y sus índice de probabilidad de ingreso a la universidad a la cual aspira. Sin embargo, ninguna de ellas es descollantemente explicativa. Para más detalles puede consultarse el trabajo de análisis de regrresión formulado sobre el mismo conjunto de datos a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.

Complementariamente, con base en las pestañas Diagrama Conjunto de Dispersión, Distribución y Correlaciones en sus versiones basadas en grupos a partir de las variables categóricas: Gender, Research y University_Rating, se puede apreciar que comparativamente la diferenciación basada en Gender no muestra relevancia para elevar la probabilidad de acceso a la universidad de su elección, contrario a lo que sucede con la variable agrupadora Research que muestra diferenciadamente lo contrario. Es decir, que un estudiante pertenezca al grupo de aquellos que evidencia trabajo en investigación al momento de presentar su solicitud de acceso, resulta para él en una característica significativamente a favor de sus pretensiones. Por otro lado, la variable clasificadora University_Rating, que aporta cinco grupos, muestra que las universidades de dos y cuatro estrellas en todos los casos visualizados en el diagrama son significativas a nivel de correlación, pero, como es esperado, las de mejor rating, atraen a los mejores talentos.

Con base en la pestaña Diagrama de Estrellas se interpreta que hay una variedad notoria de estudiantes en términos de desempeños asociados con las variables numéricas estudiadas, incluso con la que mide el examen de proficiencia en lengua extranjera, para el caso inglés: TOEFL_Score. Pero, también es notoria la presencia de grupos de estudiantes con desempeños aproximadamente homogéneos en todas las variables estudiadas, aunque sus escalas de desempeño varian.

Complementariamente a los diagramas de estrellas, la pestaña Caras de Chernoff muestra que la variedad de estudiantes es sensible de establecer. Con relativa claridad, las Caras de Chernoff número 1, 10, 21 y 8, 19, 22, pueden conformar un par de grupos de estudiantes que muestran desempeños significativos en las variables medidas, aunque con cambios de escala; es decir, los del segundo grupo se desempeñan mejor que los del primero considerando todas las variables estudiadas. Esto compagina con lo mostrado en el Diagrama de Estrellas.

Por último, es relevante mencionar que las evidencias descriptivas expuestas en este apartado estén en contra de considerar que el conjunto de datos limitado a las variables numéricas tenga una distribución normal multivariada. Esto se estudia en la sección 5.

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA]

ggpairs(Admission_Dataset[,-c(1,2,8,9)])

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [CA:GE]

ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Gender, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [CA:RE]

ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Research, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama Conjunto de Dispersión, Distribución y Correlaciones [CA:UR]

ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = University_Rating, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas

set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
stars(Admission_Dataset_Muestreado, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

Caras de Chernoff

set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
faces(Admission_Dataset_Muestreado)

## effect of variables:
##  modified item       Var              
##  "height of face   " "GRE_Score"      
##  "width of face    " "TOEFL_Score"    
##  "structure of face" "SOP"            
##  "height of mouth  " "LOR"            
##  "width of mouth   " "CGPA"           
##  "smiling          " "Chance_of_Admit"
##  "height of eyes   " "GRE_Score"      
##  "width of eyes    " "TOEFL_Score"    
##  "height of hair   " "SOP"            
##  "width of hair   "  "LOR"            
##  "style of hair   "  "CGPA"           
##  "height of nose  "  "Chance_of_Admit"
##  "width of nose   "  "GRE_Score"      
##  "width of ear    "  "TOEFL_Score"    
##  "height of ear   "  "SOP"

5. Normalidad Multivariada

Como menciona (Porras C., 2016) para indagar o establecer el tipo de distribución multivariada de un conjunto de datos se puede recurrir a procedimientos descriptivos, como los gráficos, o a procedimientos inferenciales, como las pruebas estadísticas. En este sentido, se alcanza generalización de resultados al usar las estos últimos, si bien los primeros apoyan a las interpretaciones.

En este apartado se contempla el uso de procedimientos inferenciales para determinar si el conjunto de datos de trabajo, en relación con sus variables numéricas, se distribuye normal multivariado (DNM). Las pruebas de normalidad multivariada (PNM) a las que será sometido son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Para estas pruebas de normalidad los test obedecen a un nivel de significancia \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una DNM}\] \[H_1: \text {Las variables NO tienen una DNM}\]

La prueba de Mardia se basa en extensiones de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, la cantidad de variables \(p\) por tratar y la cantidad de registros \(n\). Además, considera que la prueba estadística para la asimetría tiene una distribución \(\chi^2\) y la prueba estadística para la curtosis se distirbuye aproximadamente normal. Los detalles sobre los parámetros de las distribuciones pueden consultarse en el trabajo de (Porras C., 2016).

La prueba de Henze-Zirkler se basa en la distancia funcional, dado que si el conjunto de datos presenta una distribución normal multivariada, el estadístico de la prueba se distribuye aproximadamente como una lognormal, cuyos parámetros de media \(\mu\) y varianza \(\sigma^2\) pueden ser consultados en (Porras C., 2016).

La prueba de Doornik-Hansen está basada en la asimetría y la curtosis de un conjunto de datos multivariados, que se transforma para garantizar la independencia. Es considerada más potente que la prueba de Shapiro-Wilk para casos multivariados. Su estadístico de prueba está definido como la suma de las transformaciones al cuadrado de la asimetría y la curtosis, y sigue, aproximadamente, una distribución \(\chi^2\). Los detalles de la prueba pueden ser consultados en (Doornik & Hansen, 2008).

La prueba de Royston recurre a las pruebas Shapiro-Wilk o Shapiro-Francia para probar la normalidad multivariada. Así, si la curtosis es mayor que 3, la prueba de Royston usa Shapiro-Francia para distribuciones leptocurticas. Mientras que para distribuciones platicurticas usa Shapiro-Wilk. En ella los parámetros son obtenidos por aproximaciones polinomiales, esto puede ser consultado en (Porras C., 2016).

5.1. Planteamiento del Problema

Con base en el conjunto de datos descrito en la sección 2 se hará una prueba estadística de normalidad multivariada, con un nivel de significancia \(\alpha=0.05\), para establecer si sus datos métricos provienen de una población normal multivariada. Se recuerda que las variables numéricas del conjunto de datos (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.

5.2. Desarrollo del Análisis

La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, no se distribuye normal multivariado. En particular:

La PNM de Mardia establece que si ambas pruebas (para asimetría y curtosis) indican una normalidad multivariante, los datos siguen una DNM con un nivel de significancia \(\alpha=0.05\); sin embargo, el caso tratado es contrario a esto. Obsérvese a través de la pestaña PNM Mardia que los \(p-value\) para la asimetría (Skewness) y curtoris (Kurtosis) son mayores que el nivel de significancia. Por lo tanto, las evidencias no apoyan una hipótesis de normalidad multivariada para el conjunto de datos restringido a sus variables numéricas.

La PNM de PNM Henze-Zirkler establece que el estadístico de prueba no se distribuye aproximadamente como lognormal dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\), obsérvese esto a través de la pestaña PNM Henze-Zirkler. Así, por contrarrecíproco de la implicación formulada en la descripción de la prueba en la sección 5, el conjunto de datos no está apoyado por las evidencias para seguir una distribución normal multivariada.

La PNM de Doornik-Hansen establece que su estadístico de prueba no sigue una distribución aproximadamente \(\chi^2\) dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\), obsérvese esto a través de la pestaña PNM Doornik-Hansen. Por lo tanto, las evidencias están lejos de apoyar que el conjunto de datos sigue una DNM.

La PNM de Royston establece que el conjunto de datos reducido a sus variables numéricas no sigue una DNM, dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\). Obsérvese esto a través de la pestaña PNM Royston.

En general, pudo constatarse que para un nivel de significancia \(\alpha=0.05\) el conjunto de datos reducido a sus variabls numéricas no sigue una distribución normal multivariada.

PNM Mardia

mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="mardia")
## $multivariateNormality
##              Test        Statistic              p value Result
## 1 Mardia Skewness 271.779505720825 4.34632487808584e-30     NO
## 2 Mardia Kurtosis 4.02256608402635 5.75674947702609e-05     NO
## 3             MVN             <NA>                 <NA>     NO
## 
## $univariateNormality
##               Test        Variable Statistic   p value Normality
## 1 Anderson-Darling    GRE_Score       1.1168  0.0063      NO    
## 2 Anderson-Darling   TOEFL_Score      1.1416  0.0055      NO    
## 3 Anderson-Darling       SOP          5.4710  <0.001      NO    
## 4 Anderson-Darling       LOR          5.9416  <0.001      NO    
## 5 Anderson-Darling      CGPA          0.5320  0.1729      YES   
## 6 Anderson-Darling Chance_of_Admit    1.5949   4e-04      NO    
## 
## $Descriptives
##                   n       Mean    Std.Dev Median    Min    Max   25th     75th
## GRE_Score       400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score     400 107.410000  6.0695138 107.00  92.00 120.00 103.00 112.0000
## SOP             400   3.400000  1.0068686   3.50   1.00   5.00   2.50   4.0000
## LOR             400   3.452500  0.8984775   3.50   1.00   5.00   3.00   4.0000
## CGPA            400   8.598925  0.5963171   8.61   6.80   9.92   8.17   9.0625
## Chance_of_Admit 400   0.724350  0.1426093   0.73   0.34   0.97   0.64   0.8300
##                        Skew   Kurtosis
## GRE_Score       -0.06242254 -0.7181786
## TOEFL_Score      0.05678751 -0.5985838
## SOP             -0.27369641 -0.6937320
## LOR             -0.10619038 -0.6808341
## CGPA            -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290

PNM Henze-Zirkler

mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="hz")
## $multivariateNormality
##            Test       HZ p value MVN
## 1 Henze-Zirkler 1.675143       0  NO
## 
## $univariateNormality
##               Test        Variable Statistic   p value Normality
## 1 Anderson-Darling    GRE_Score       1.1168  0.0063      NO    
## 2 Anderson-Darling   TOEFL_Score      1.1416  0.0055      NO    
## 3 Anderson-Darling       SOP          5.4710  <0.001      NO    
## 4 Anderson-Darling       LOR          5.9416  <0.001      NO    
## 5 Anderson-Darling      CGPA          0.5320  0.1729      YES   
## 6 Anderson-Darling Chance_of_Admit    1.5949   4e-04      NO    
## 
## $Descriptives
##                   n       Mean    Std.Dev Median    Min    Max   25th     75th
## GRE_Score       400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score     400 107.410000  6.0695138 107.00  92.00 120.00 103.00 112.0000
## SOP             400   3.400000  1.0068686   3.50   1.00   5.00   2.50   4.0000
## LOR             400   3.452500  0.8984775   3.50   1.00   5.00   3.00   4.0000
## CGPA            400   8.598925  0.5963171   8.61   6.80   9.92   8.17   9.0625
## Chance_of_Admit 400   0.724350  0.1426093   0.73   0.34   0.97   0.64   0.8300
##                        Skew   Kurtosis
## GRE_Score       -0.06242254 -0.7181786
## TOEFL_Score      0.05678751 -0.5985838
## SOP             -0.27369641 -0.6937320
## LOR             -0.10619038 -0.6808341
## CGPA            -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290

PNM Doornik-Hansen

mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="dh")
## $multivariateNormality
##             Test        E df p value MVN
## 1 Doornik-Hansen 1844.957 12       0  NO
## 
## $univariateNormality
##               Test        Variable Statistic   p value Normality
## 1 Anderson-Darling    GRE_Score       1.1168  0.0063      NO    
## 2 Anderson-Darling   TOEFL_Score      1.1416  0.0055      NO    
## 3 Anderson-Darling       SOP          5.4710  <0.001      NO    
## 4 Anderson-Darling       LOR          5.9416  <0.001      NO    
## 5 Anderson-Darling      CGPA          0.5320  0.1729      YES   
## 6 Anderson-Darling Chance_of_Admit    1.5949   4e-04      NO    
## 
## $Descriptives
##                   n       Mean    Std.Dev Median    Min    Max   25th     75th
## GRE_Score       400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score     400 107.410000  6.0695138 107.00  92.00 120.00 103.00 112.0000
## SOP             400   3.400000  1.0068686   3.50   1.00   5.00   2.50   4.0000
## LOR             400   3.452500  0.8984775   3.50   1.00   5.00   3.00   4.0000
## CGPA            400   8.598925  0.5963171   8.61   6.80   9.92   8.17   9.0625
## Chance_of_Admit 400   0.724350  0.1426093   0.73   0.34   0.97   0.64   0.8300
##                        Skew   Kurtosis
## GRE_Score       -0.06242254 -0.7181786
## TOEFL_Score      0.05678751 -0.5985838
## SOP             -0.27369641 -0.6937320
## LOR             -0.10619038 -0.6808341
## CGPA            -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290

PNM Royston

mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="royston")
## $multivariateNormality
##      Test        H      p value MVN
## 1 Royston 83.73469 4.306446e-17  NO
## 
## $univariateNormality
##               Test        Variable Statistic   p value Normality
## 1 Anderson-Darling    GRE_Score       1.1168  0.0063      NO    
## 2 Anderson-Darling   TOEFL_Score      1.1416  0.0055      NO    
## 3 Anderson-Darling       SOP          5.4710  <0.001      NO    
## 4 Anderson-Darling       LOR          5.9416  <0.001      NO    
## 5 Anderson-Darling      CGPA          0.5320  0.1729      YES   
## 6 Anderson-Darling Chance_of_Admit    1.5949   4e-04      NO    
## 
## $Descriptives
##                   n       Mean    Std.Dev Median    Min    Max   25th     75th
## GRE_Score       400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score     400 107.410000  6.0695138 107.00  92.00 120.00 103.00 112.0000
## SOP             400   3.400000  1.0068686   3.50   1.00   5.00   2.50   4.0000
## LOR             400   3.452500  0.8984775   3.50   1.00   5.00   3.00   4.0000
## CGPA            400   8.598925  0.5963171   8.61   6.80   9.92   8.17   9.0625
## Chance_of_Admit 400   0.724350  0.1426093   0.73   0.34   0.97   0.64   0.8300
##                        Skew   Kurtosis
## GRE_Score       -0.06242254 -0.7181786
## TOEFL_Score      0.05678751 -0.5985838
## SOP             -0.27369641 -0.6937320
## LOR             -0.10619038 -0.6808341
## CGPA            -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290

Objetivo y Anotaciones :: Fase 2

[Componentes Principales]

En términos generales, esta segunda etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en el conjunto de datos tratado en la fase 1, pero ahora desde un enfoque de análisis de componentes principales sobre las variables cuantitativas, que incluirá: selección, calidad de representación, contribuciones e interpretación.

Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.

Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del domingo 26 de febrero de 2023.

7. Selección de Componentes

Como es mencionado en el trabajo de (Díaz Morales & Morales Rivera, 2012) el Análisis de Componentes Principales (en adelante ACP) reestructura un conjunto de datos multivariado a través de la reducción de la cantidad de sus variables, en cuyo transfondo es innecesario asumir ninguna distribución de probabilidad de ellas. Esta reducción es lograda a través de combinaciones lineales de las variables originales, que deberán contener la mayor variabilidad posible presente en el conjunto de datos. En este sentido, el ACP logra crear nuevas variables, conocidas como componentes principales, que poseen características estadísticas de independencia (con base en el supuesto de normalidad) y no correlación.

El ACP se logra a lo largo de las siguientes fases: generación de nuevas variables, reducción dimensional del espacio de los datos, eliminación de varaibles de poco aporte e interpretación de los componentes resultantes en el contexto del problema del cual se obtuvieron los datos. Estas fases se desarrollan entre las secciones 7, 8, 9 y 10.

7.1. Planteamiento del Problema

Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda primero establecer el porcentaje de varianza explicado por cada dimensión una vez procesado el ACP; y posteriormente, con base en el autovalor medio o usando un diagrama de sedimentación, decidir cuántos componentes retener.

7.2. Desarrollo del Análisis

La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, puede ser representado por un conjuto de variables más pequeño que retiene el \(77.05\) \(\%\) de la variabilidad del conjunto. En particular:

La Matriz ACP muestra seis dimensiones donde solo la primera retiene el \(77.05\) \(\%\), la siguiente el \(10.33\) \(\%\) y las demás solo porcentajes con parte entera de una cifra. En este sentido, la representatividad de la combinación lineal que define a la dimensión 1 es significativamente alta en comparación con las demás. Como esta matriz es muda en relación con las variables originales se sigue indagando la identificación de las variables que más contribuyan a la dimensión de valor propio más alto.

La Matriz de Correlaciones permite continuar con las descripciones de las combinaciones lineales que conforman a la dimensión de mayor interés: la dimensión 1. Así, esta matriz, como se mostró en la sección 3.2., ayuda a verificar que la intensidad de las corelaciones es más alta y siempre positiva entre las variables: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit, asunto esperado en relación con el fenómeno estudiado, por lo tanto, se podría esperar que estas variables participaran en la combinación lineal que define a la dimensión 1.

La pestaña de Valores y Vectores Propios muestra estos objetos calculados a partir de la matriz de correlaciones del conjunto de datos. En este sentido, se garantiza que la suma de los valores propios sea igual a la dimensión de dicha matriz y a la variabilidad total del conjunto, por lo cual las proporciones de retención de variabilidad son de cálculo inmediato. Además, la matriz de vectores propios define para cada componente, en relación con cada variable del conjunto de datos, los coeficientes de la combinación lineal que la conforman, por ejemplo, con un ajuste a dos cifras decimales, la componente 1 estaría representada por la combinación lineal (donde \(G\) es GRE_Score, \(T\) es TOEFL_Score, \(S\) es SOP, \(L\) es LOR, \(CG\) es CGPA y \(CA\) es Chance_of_Admit y además, son variables estandarizadas):\[Componente_1 = 0.41*G+0.42*T+0.39*S+0.37*L+0.44*CG+0.43*CA\]Hasta este punto, se puede observar que se dispone de un número de dimensiones igual al número de variables tratadas, con la salvedad que las variables nuevas son incorreladas entre sí, ver la pestaña Correlaciones Comparadas.

Por último, el Gráfico de Cattell y el Gráfico de Cattell-Kaiser, de codo y sedimentación, inducen a la elección de una componente en la reducción de dimensión que retiene la cantidad de variabilidad suficiente para tratar el problema. Sin embargo, debe resaltarse que se propone elegir con base en criterios más usados, a cambio de criterios de aceptación universal. El Gráfico de Cattell muestra que los cambios en la pendiente indican que la capacidad explicativa de la dimensión 1 es alta comparada con el resto. Así, el de Cattell-Kaiser al conjugar el instrumento gráfico anterior con el criterio de Kaiser en la misma gráfica apoya que la cantidad de dimensiones suficientes por retener es una, aclarando que esta elección retenga un porcentaje de variabilidad adecuado para estudiar el problema.

Matriz ACP

get_eigenvalue(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  4.6229170        77.048617                    77.04862
## Dim.2  0.6197827        10.329711                    87.37833
## Dim.3  0.2820316         4.700527                    92.07885
## Dim.4  0.1992199         3.320332                    95.39919
## Dim.5  0.1581864         2.636441                    98.03563
## Dim.6  0.1178624         1.964373                   100.00000

Matriz de Correlaciones

round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
##                 GRE_Score TOEFL_Score  SOP  LOR CGPA Chance_of_Admit
## GRE_Score            1.00        0.84 0.61 0.56 0.83            0.80
## TOEFL_Score          0.84        1.00 0.66 0.57 0.83            0.79
## SOP                  0.61        0.66 1.00 0.73 0.72            0.68
## LOR                  0.56        0.57 0.73 1.00 0.67            0.67
## CGPA                 0.83        0.83 0.72 0.67 1.00            0.87
## Chance_of_Admit      0.80        0.79 0.68 0.67 0.87            1.00

Valores y Vectores Propios

princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$sdev^2
##    Comp.1    Comp.2    Comp.3    Comp.4    Comp.5    Comp.6 
## 4.6229170 0.6197827 0.2820316 0.1992199 0.1581864 0.1178624
princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$loadings[ ,1:6]
##                    Comp.1     Comp.2      Comp.3     Comp.4      Comp.5
## GRE_Score       0.4127781  0.4077294  0.02539719  0.3509029  0.72123826
## TOEFL_Score     0.4160056  0.3397387 -0.24669025  0.4574809 -0.65951168
## SOP             0.3855091 -0.4887667 -0.73602577 -0.1872366  0.15066692
## LOR             0.3662513 -0.6631878  0.52149384  0.3899370 -0.03811828
## CGPA            0.4372217  0.1447341  0.08859141 -0.3349520 -0.01437723
## Chance_of_Admit 0.4273564  0.1366578  0.34199519 -0.6068585 -0.14317642
##                      Comp.6
## GRE_Score        0.13931437
## TOEFL_Score      0.08010298
## SOP              0.11400812
## LOR             -0.02412840
## CGPA            -0.81709316
## Chance_of_Admit  0.54125202

Correlaciones Comparadas

par(mfrow=c(1,2))
corrplot::corrplot(cor(Admission_Dataset[,-c(1,2,8,9)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell

fviz_eig(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")

Gráfico de Cattell-Kaiser

scree(Admission_Dataset[,-c(1,2,8,9)],factors = FALSE, pc = TRUE, main ="")

8. Calidad de Representación

Al retomar el trabajo de (Díaz Morales & Morales Rivera, 2012) se verifica que, una vez reducida la dimensionalidad del conjunto de datos y entendido que sus variables (estandarizadas) están representadas gráficamente por proyecciones de la hiperesfera de correlaciones, es necesario iniciar la interpretación de componentes a partir de dichas correlaciones, para luego la calidad de sus representaciones dada la reducción dimensional del conjunto de datos en términos de sus variables.

8.1. Planteamiento del Problema

Con base en el conjunto de datos descrito en la sección 2 se demanda determinar la calidad de representación de las variables cuantitativas respecto a la cantidad de dimensiones calculadas que retienen la mayor cantidad de variabilidad, ver la sección 7.

8.2. Desarrollo del Análisis

La navegación a través de las pestañas muestra que la reducción de la dimensionalidad del conjunto de datos conduce analizar las calidades de representación en términos de la escala de contribuciones relativas basada en un cociente de proyecciones con propiedades aditivas y de respuesta en escala continua entre \(0\) y \(1\). Así, en particular:

El Círculo de Correlaciones expresa que se puede concebir una compenente tipo tamaño en el sentido de que la dimensión 1 muestra en él una correlación positiva con las seis variables de interés, además cercanas a la frontera del círculo unitario y significativamente próximas al eje que la representa. Por otro lado, la dimensión 2 contrapone a las variables LOR y SOP con las demás. Otro aspecto por resaltar es la correlación mostrada entre pares de variables, que en términos del fenómeno estudiado conservan su naturaleza correlacional esperada hasta este punto del análisis. Un ejemplo resaltable es el par SOP y LOR que, en cierto sentido, están influidas por la subjetividad, véase la sección 2.

La Matriz de Representación, por otro lado, muestra valores significativamente cercanos a 1 del cociente de proyecciones coseno cuadrado en relación con la dimensión 1. En este sentido, los puntos proyectados están altamente asociados con este componente. Así, la estaña que muestra la Calidad de Representación indica en su escala un piso alto de \(0.84\) de esta manera las calidades de representación, en relación con la componente 1, están encabezadas por CGPA y cierran con SOP. Cabe aclarar que la dimensión 2 sostiene una mejor representación de LOR que de SOP, por lo tanto, la calidad de representación de la primera en relación con la dimensión 1 se ve afectada.

Por último, las Coordenadas Individuales ayudan, aunque de manera menos digestiva, a identificar a nivel de observaciones a los perfiles de los registros, en este caso estudiantes, en relación con las, por lo menos, dimensiones más importantes de retención de variabilidad: las componentes 1 y 2. Por ejemplo, al observar los registros 1, 9, 23, se manifiestan las semejanzas entre 1 y 23 en oposición de ambos con 9, incluso al considerar a la variable peor representada SOP.

Círculo de Correlaciones

fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())

Matriz de Representación

(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$cos2
##                     Dim.1      Dim.2        Dim.3       Dim.4        Dim.5
## GRE_Score       0.7876792 0.10303471 0.0001819152 0.024530510 8.228615e-02
## TOEFL_Score     0.8000450 0.07153678 0.0171633381 0.041694489 6.880409e-02
## SOP             0.6870452 0.14806169 0.1527860873 0.006984159 3.590915e-03
## LOR             0.6201182 0.27259164 0.0767001373 0.030291557 2.298454e-04
## CGPA            0.8837298 0.01298318 0.0022135076 0.022351052 3.269787e-05
## Chance_of_Admit 0.8442996 0.01157466 0.0329866161 0.073368148 3.242741e-03
##                        Dim.6
## GRE_Score       2.287532e-03
## TOEFL_Score     7.562625e-04
## SOP             1.531958e-03
## LOR             6.861706e-05
## CGPA            7.868979e-02
## Chance_of_Admit 3.452823e-02

Calidad de Representación

fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales

head((PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
##          Dim.1       Dim.2       Dim.3       Dim.4        Dim.5       Dim.6
## 1   3.66199019 -0.44632765 -0.04355921  0.24316486  0.017016882 -0.21656303
## 2   1.19446218  0.73276087 -0.32814709  0.22842243  0.500315331 -0.11454589
## 3  -0.84979414  0.21025529 -0.35781782  0.16841716  0.277052946  0.70366065
## 4   0.29352000 -1.07510412  0.52840810 -0.44035081  0.022712146  0.32426628
## 5  -1.63376006 -0.50197420 -0.69858584  0.18077296  0.196680136  0.01208760
## 6   2.30415785 -1.04317671  0.81572439 -0.58984239 -0.005863787  0.04832797
## 7   0.11435288  0.04426511 -0.55778114  0.67583330 -0.008454658  0.65668699
## 8  -1.33319919  1.09523940 -0.64182557  0.14097961  0.121311282  0.53850632
## 9  -3.35109245 -0.93258034  0.55044116 -0.15675362 -0.230221499 -0.38858777
## 10 -0.70518251 -0.27624655  1.00503641  1.18722583  0.635525284 -0.93744778
## 11 -0.29903917  0.48517068  0.19973837  1.34630477  0.870978323 -0.42605295
## 12  1.91250151  0.29349042 -0.38344367  0.20818908  0.170392628  0.10043733
## 13  1.91053416  0.23513132 -0.21577217  0.51368146  0.182435980 -0.23939216
## 14 -0.95161415  0.46272070  1.12821047  0.29277119 -0.561789232  0.40712161
## 15 -1.63366474 -0.42045583  1.12531747 -0.37340051  0.206735944  0.04749185
## 16 -1.38952108 -0.17085741  1.02199451  0.25321293  0.333470659 -0.31946818
## 17 -0.09475078  0.01051262  0.82448700 -0.11605999  0.228086329 -0.30609341
## 18 -0.63522387  0.17510274  0.90749587  0.30600586  0.489710926  0.62737017
## 19  0.13054730 -0.18871990  1.00151472  0.21254670 -0.007618938 -0.50549162
## 20 -1.40069985  0.63282752  0.41187500 -0.54609747 -0.138958575 -0.47666697
## 21 -1.71366787 -0.82306966  0.85181743  0.01762092 -0.154540513  0.56819308
## 22 -0.21792196 -1.85700802  0.88942803  0.40713293 -0.170286359  0.36076889
## 23  3.54618997  0.61579548 -0.05532575 -0.06004547 -0.294653496 -0.02737099

9. Contribuciones

Según el trabajo de (Díaz Morales & Morales Rivera, 2012) la interpretación de resultados está vinculada con el cálculo de coordenadas, contribuciones, cosenos cuadrados, etc, por lo tanto, la conceptualización de las variables debe ser clara para establecerla con la mayor claridad posible, es decir, los datos deben ponerse en contexto. En este sentido, la contribución de una variable a una componente allana el camino de la interpretación de resultados. Esto se hace en este apartado en el sentido de calcular lor aportes con que cada variable participa para definir a cada componente generada.

9.1. Planteamiento del Problema

Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda determinar las contribuciones que hace cada variable a la construcción de cada componente.

9.2. Desarrollo del Análisis

La navegación a través de las pestañas permite reconocer en representaciones numéricas y gráficas las contribuciones de las variables del conjunto de datos a la construcción de cada componente. Así, se entiende cuánta variabilidad explica cada variable de la variabilidad total de la componente con que esté involucrada. en particular:

La Matriz de Contribuciones muestra en términos relativos la retención de variabilidad que tiene cada variable en la construcción de cada componente. Así, los diagramas de barras visualizados a través de las pestañas desde Contribuciones a D1 hasta Contribuciones a D6, muestran con base en diagramas de barras las respectivas contribuciones que hacen las variables para explicar la varianzar en cada componente; además, cada gráfico incluye una línea que ayuda a identificar la contribución media, esto ayuda a identificar con mayor facilidad a las variables que contribuyen con mayor explicación de variabilidad de los componentes que conforman.

En Contribuciones a D1 se visualiza que las variables por enciama de la contribución media: CGPA, Chance_of_Admit, TOEFL_Score y GRE_Score retienen aproximadamente el \(71.72\) \(\%\) de la variabilidad del componente 1.

En Contribuciones a D2 se visualiza que las variables por enciama de la contribución media: LOR y SOP retienen aproximadamente el \(67.87\) \(\%\) de la variabilidad del componente 2.

En Contribuciones a D3 se visualiza que las variables por enciama de la contribución media: SOP y LOR retienen aproximadamente el \(81.37\) \(\%\) de la variabilidad del componente 3.

En Contribuciones a D4 se visualiza que las variables por enciama de la contribución media: Chance_of_Admit y TOEFL_Score retienen aproximadamente el \(57.76\) \(\%\) de la variabilidad del componente 4.

En Contribuciones a D5 se visualiza que las variables por enciama de la contribución media: GRE_Score y TOEFL_Score retienen aproximadamente el \(95.51\) \(\%\) de la variabilidad del componente 5.

Por último, en Contribuciones a D6 se visualiza que las variables por enciama de la contribución media: CGPA y Chance_of_Admit retienen aproximadamente el \(96.06\) \(\%\) de la variabilidad del componente 6.

Con los datos procesados hasta ahora se puede proceder con la intepretación de los componentes.

Matriz de Contribuciones

(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$contrib
##                    Dim.1     Dim.2       Dim.3     Dim.4       Dim.5
## GRE_Score       17.03858 16.624329  0.06450171 12.313282 52.01846278
## TOEFL_Score     17.30607 11.542236  6.08560812 20.928876 43.49556571
## SOP             14.86172 23.889292 54.17339277  3.505753  2.27005215
## LOR             13.41400 43.981812 27.19558265 15.205085  0.14530029
## CGPA            19.11628  2.094796  0.78484383 11.219286  0.02067047
## Chance_of_Admit 18.26335  1.867535 11.69607091 36.827718  2.04994861
##                       Dim.6
## GRE_Score        1.94084948
## TOEFL_Score      0.64164873
## SOP              1.29978503
## LOR              0.05821794
## CGPA            66.76412347
## Chance_of_Admit 29.29537534

Contribuciones a D1

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

Contribuciones a D6

fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 6, top = 10)

10. Interpretación

Con base en (Díaz Morales & Morales Rivera, 2012) se sabe que a partir de las coordenadas de los registros dimensionalmente reducidos se puede ubicar en un plano de factores para efectos de análisis e interpretación. Así, las variables reducidas son las componentes principales que se grafican como ejes en un plano, y los valores que tomen son los puntajes de las componentes. Como bien se explica en el mismo trabajo, las distancias entre los puntos definidos por los puntajes de las componentes tiene un significado relevante al ayudar a establecer semejanzas de perfiles en las observaciones hechas. Sin embargo, los valores semejantes de las variables pueden darse solo en algunas de ellas, sin esperar necesariamente a que suceda en todas. Así, se espera que las distancias en el espacio dimensional original de las observaciones queden bien representadas en el espacio reducido de las componentes.

10.1. Planteamiento del Problema

Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda definir e interpretar sus componentes principales.

10.2. Desarrollo del Análisis

La navegación a través de las pestañas permite visualizar objetos gráficos y matriciales que, al incluir lo hecho en las secciones anteriores, ayudan a robustecer la interpretación de las componentes calculadas. Como se mostró en la sección 7, la cantidad de componentes seleccionadas se redujo (según el criterio de Kaiser) a una y se estableció que la componente 1 retiene el \(77.05\) \(\%\) de la variabilidad de los datos. Así, en el círculo de correlaciones de la sección 8 se aprecia que la representación de las variables conjugadas en la componente 1 la configuran como una de tipo tamaño, lo que puede interpretarse como una especie de índice de proporcionalidad directa. Esto también se apoya con base en el hecho de que todas las variables presentan calidades de representación entre \(0.62\) y \(0.88\). En consecuencia, cuanto mayor sea el valor las variables mayor será el estado de favorabilidad de que el estudiante sea admitido por la univrsidad de su preferencia. Así, dada la naturaleza de las variables esta componente puede representar para un estudiante su medida de competitividad formativa. Al respecto:

Las pestañas Biplot de Variables y Registros Totales en UR (University Rating), G (Gender) y R (Research), muestran, con base en las agrupaciones que estas variables categóricas pueden establecer, la representación en dimensionalidad reducida en el plano de factores de registros y dimensiones con base en los puntajes por componentes. En este sentido, es posible apreciar que las agrupaciones con base en University_Rating y Research capturan diferencias acentuadas en la distribuciones de las observaciones, contrario a la agrupación con base en Gender.

Por último, para facilitar la verificación de la ubicación de puntajes en el plano de componentes (en particular, siempre conformado por las componentes 1 y 2 por el interés que sucitan) y, asimismo, las semejanzas de perfiles y las correlaciones entre variables, se dispuso de las pestañas Coordenadas Individuales [Subconjunto UR] y Biplot de Variables y Registros [Subconjunto UR]. Estas muestran, con base en un subconjuto de 61 registros muestrado aleatorio simple, los puntajes por componentes y el biplot de ese subconjunto, con base en la agrupación provista por la varaible categórica University_Rating, sin pérdida significativa de detalles. Esto, se insiste, solo tiene fines didácticos, debido a la dificultad de identificación visual que presenta el conjunto original que contiene 400 registros.

Biplot de Variables y Registros [Total UR]

data_UR <- Admission_Dataset_Initial[,-c(1,2,8)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$University_Rating)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Biplot de Variables y Registros [Total G]

data_UR <- Admission_Dataset_Initial[,-c(1,8,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Gender)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Biplot de Variables y Registros [Total R]

data_UR <- Admission_Dataset_Initial[,-c(1,2,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Research)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Coordenadas Individuales [Subconjunto UR]

set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
head(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7)$ind$coord, n = 61L)
##          Dim.1       Dim.2        Dim.3         Dim.4       Dim.5       Dim.6
## 1   2.68761751  0.02450021 -0.174588047 -0.3744681469  0.20243105  0.09714639
## 2  -0.68733407  0.09559234 -0.429878544  0.3006483758  0.55882375 -0.41539839
## 3  -2.66688446  0.99297045 -0.154631808  0.2955375778  0.91070623 -0.54643606
## 4  -2.60547963  0.90034536 -0.019614410 -0.0213467292 -0.11686267  0.21276009
## 5   1.08112756  0.40126269  0.092843433  0.0881547303 -0.54870098  0.12868982
## 6   1.84519346  0.73863622  0.122725654  0.3044756351 -0.25870078 -0.29131881
## 7  -0.58747951 -0.02256539  0.456341153 -1.2163134978 -0.01333260 -0.94317535
## 8   4.01404297  0.07462346  0.109467778 -0.6287994639  0.60476060 -0.09211162
## 9  -0.91086676  0.33014131 -0.213824989 -0.4796112753 -0.27321962  0.17828584
## 10  1.99972822 -0.51428654 -0.239308944 -0.1615319470  0.04151905 -0.01116718
## 11 -0.95952733 -0.26982240 -0.628357160 -0.2695572128 -0.41111602  0.24409785
## 12 -0.19766524 -0.28396958 -0.159860979 -0.1187760407 -0.35433595  0.16222254
## 13 -0.11229774  0.04922496 -0.520651363 -0.2764481615 -0.23244849  0.60623579
## 14  1.31908921 -0.83063861  0.459124717  0.0260651127 -0.26542984 -0.06860382
## 15  0.72561624  0.69347072  0.441628837 -0.4125443603  1.09108940  0.54905112
## 16 -3.05518824 -1.00327852 -0.517772977  0.0169673161  0.11745016 -0.48627516
## 17 -0.32128795  1.31505890 -0.334220920  0.5188724696 -0.63373067 -0.31543233
## 18  0.59398643  1.05012623  0.823718459  0.0006562314  0.39817645  0.37906406
## 19  4.31763412 -0.76639535  0.305614507  0.3514348648  0.06165635  0.10729655
## 20 -2.66850653 -0.88007178 -1.150343969  0.4998803377  0.64189881  0.47161684
## 21  2.49833145  0.33680478 -0.497108151 -0.1493167937  0.73518345 -0.01616226
## 22  4.42861912 -1.19651010 -0.065398012 -0.0662251616 -0.12480678 -0.21829986
## 23 -0.10138583  0.26657454  1.025802277  0.1844089350 -0.23952973  0.21237382
## 24  0.77832836  0.51483734 -0.586749977 -0.3660228511 -0.22881809  0.03093306
## 25 -3.34603035 -0.73197519  0.572679946 -0.2522335792  0.45386536  0.58574083
## 26 -1.12156436  0.47009460  0.710676700 -0.2693120533  0.03905343  0.28650198
## 27  1.12573128 -0.17577080 -0.100141703 -0.1546231843 -0.24919779 -0.45040087
## 28  3.07067126  0.35323879  0.757028987  0.4247162580 -0.12499666 -0.09729370
## 29 -2.92576647  0.11991747  0.250445228 -0.2299849763  0.13108636  0.13961852
## 30 -1.57082897  0.82519550  0.448043093 -0.0817267972 -0.19123476 -0.01806606
## 31  3.88893564  0.20786100  0.370786584  0.4214452559 -0.27081769  0.18277722
## 32 -0.09514144  0.11557851  0.021320640  0.6302141984  0.72768874 -0.64366773
## 33  0.08471986  1.61655715 -0.188909993 -0.7008855995  0.13920525 -0.02845328
## 34 -0.59184199 -0.22876447 -0.926126623 -0.2235325185 -0.17851703  0.48899087
## 35 -3.27720201 -0.87836770  0.823764048 -0.3562505606  0.97461197  0.27193935
## 36 -1.00907062 -0.60981916 -0.366548178 -0.0095160479 -0.74853286 -0.07287862
## 37 -3.44740002  0.09518884 -0.279026284  1.2727724524 -0.29958247 -0.03048890
## 38 -0.61814715  1.35139235 -0.147464086  0.5287327428 -0.26151384  0.23159263
## 39 -0.95360489  0.60765498 -0.840617577  0.0538599827 -0.37791331  0.27308231
## 40 -0.50218812 -0.31602204 -0.856741467 -0.2330804793 -0.02917330  0.27512267
## 41  2.10626250 -1.04424439 -0.963150163  0.3392035768  0.31987492  0.03821925
## 42  1.28322709 -0.62926111  0.441965914 -0.3562454098 -0.40127799  0.01056439
## 43  2.86084387 -0.97743658 -0.189055903 -0.3257769792 -0.24103693 -0.02533912
## 44  0.11095420  0.09104799  0.329152682 -0.2503309611 -0.05860961 -0.31122317
## 45  0.86048677 -1.06837705  1.669752773  0.7807790722 -0.18776456  0.15605708
## 46 -2.01348062 -0.35196960  0.153198506 -0.2101122481 -0.33640760 -0.24733626
## 47  0.49914560  0.99619621  0.203342566 -0.6055245095 -0.15223639 -0.39848712
## 48 -0.18678673  0.07290830  0.277304278  0.2073225308 -0.11177696  0.50750739
## 49  0.53103836  0.64282486 -0.737406584  0.0797141721  0.64352663  0.29279878
## 50 -3.35949243 -0.44687930  0.006172428 -0.0045161417 -0.38323628 -0.43416026
## 51 -1.76561250 -0.71357365  0.119940618  0.3131484601 -0.39483497 -0.13067773
## 52 -0.61646599  0.78723572  0.792587313  0.0458368814 -0.47170228 -0.07547270
## 53 -1.13208355  0.23098651  0.334020200 -0.9375383689 -0.14012116 -0.18977532
## 54 -0.27645335  1.39981251 -0.625640992  0.8891418808 -0.14251466 -0.21940402
## 55  2.88576942  1.38441807 -0.193040456  0.1296641060 -0.02106329  0.03478427
## 56 -5.04977695 -0.90629264  0.026357340 -0.5769148808  0.38735732 -0.21288001
## 57  1.92705611 -0.90735952 -0.718194109 -0.2719132197 -0.22644798 -0.26096780
## 58  3.43755620 -1.17933752 -0.453693737 -0.0563528841  0.04013918  0.18174093
## 59  0.07536328 -0.43227807  0.549529614  0.5870839780  0.36357097  0.78670503
## 60  0.69062813 -0.65223897  0.232067290  1.0279357809  0.99227537 -0.88356806
## 61 -2.99486239 -1.13477288  0.350664541  0.3286601252 -0.87440821  0.01140428

Biplot de Variables y Registros [Subconjunto UR]

set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
fviz_pca_biplot(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7), axes = c(1, 2), repel = T, habillage = 7)

Objetivo y Anotaciones :: Fase 3

[Correspondencias]

En términos generales, esta tercera etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en el conjunto de datos tratado en la fase 1 y 2, pero ahora desde un enfoque de análisis de correspondencias simples y múltiples sobre las variables cuanlitativas, que incluirá: construcción de tablas de contingencias y disyuntivas completas, calidades de representación, contribuciones e interpretaciones.

Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.

Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del domingo 5 de marzo de 2023.

11. Correspondencias Simples

Con base en el trabajo de (Aldás & Uriel, 2017) se sabe que el análisis de correspondencias simple (ACS) busca representar en un espacio multidimensional reducido la relación que exista entre las categorías de un par de variables categóricas. En este sentido, el ACS muestra las distancia entre los niveles de dos variables categóricas y, en consecuencia, ayuda a visualizar tablas de contingencia. Además, se establece que el número máximo de dimensiones que expliquen la asociación entre variables fila y columna es igual a uno menos el menor número de categorías de alguna de las variables involucradas. En consecuencia, el análisis de correspondencias permite describir la proximidad existente entre los perfiles de los objetos observados. Además, el ACS, que basa sus cálculos en tablas de contingencia, puede extenderse a más de dos variables categóricas, conociéndose como anáslisis de correspondencias múltiples (ACM), con base en una objeto llamado tabla disyuntiva completa.

Esta sección trata el análisis de correspondecias simple con base en pares de variables categóricas del conjunto de datos descrito en la sección 2. Complementariamente, la sección 12 muestra el análisis de correspondencias múltiples con base en las varaibles categóricas del mismo conjunto de datos.

11.1. Planteamiento del Problema

Con base en las variables cualitativas del conjunto de datos descrito en la sección 2 se demanda desarrollar el análisis de correspondencias, en principio simple, apoyado en tablas de contingencia y de frecuencias relativas y gráficos de perfiles y de puntos superpuestos en el primer plano factorial.

11.2. Desarrollo del Análisis

La navegación a través de las pestañas permite visualizar objetos matriciales y gráficos que ayudan a robustecer la interpretación del análisis de correspondencias simple (binario) entre cada par de varaibles categóricas del conjunto de datos: Gender, Research y University_Rating. Por ser baja la cantidad de variables categóricas se trabaja el ACS sobre las tres combinaciones posibles.

La pestaña AC Parejas Totales agrupa los cálculos para todas las combinaciones de parejas de variables. En particular, en Contingencias se hacen las siguientes lecturas de ejemplo de las tablas de contingencias: en la tabla de contingencias Gender vs. Research se encontró que 80 estudiantes de un total de 151 de sexo femenino adjuntaron evidencias de participación en actividades de investigación; además, de los 181 estudiantes que no argumentaron investigación, de un total de 400 postulados, 71 son de sexo femenino y 110 de sexo masculino. En la tabla de contingencias Gender vs. University_Rating se calculó que 14 estudiantes de un total de 249 de sexo masculino presentaron aspiraciones de ingreso a unna universidad de una estrella; además, de los 60 estudiantes que presentaron solicitudes de ingreso a universidades de cinco estrellas, 23 eran de sexo femenino y 37 de sexo masculino. Por último, en la tabla de contingencia Research vs. University_Rating se puede determinar que 59 estudiantes, de un total de 219, que presentaron evidencias de haber participado en procesos de investigación, presentaron sus aspiraciones de ingreso en universidades de cuatro estrellas; además, 75 estudiantes, de un total de 107, que se postularon en universidades de dos estrellas, lo hicieron sin evidenciar participación en procesos de investigación.

Al tomar como base las tablas de contingencia descritas antes, se presenta a través de la subpestaña Probabilidades las proporciones relativas en términos de los pares de variables examininados. En este sentido, a nivel de ejemplo se presentan algunas lecturas de ellas: en la tabla de probabilidades Gender vs. Research el \(20.00\) \(\%\) del total de estudiantes son de sexo femenino que presentaron evidencias en su aplicación de haber participado en procesos de investigación; además, el \(45.25\) \(\%\) del total de estudiantes no argumentó en su postulación haber participado en procesos de investigación, donde el \(17.75\) \(\%\) eran hombres y el \(27.50\) \(\%\) mujeres. En la tabla de probabilidades Gender vs. University_Rating que el \(3.50\) \(\%\) del total de estudiantes fueron hombres que presentaron sus postulaciones a universidades de una estrella; además, del \(15.00\) \(\%\) de postulados a universidades de cinco estrellas, aditivamente el \(9.25\) \(\%\) eran hombres y el \(5.75\) \(\%\) mujeres. Por último, en la tabla de probabilidades Research vs. University_Rating el \(14.75\) \(\%\) del total de estudiantes presentaron evidencias de participación en procesos investigativos y se postularon a universidades de cuatro estrellas; además, el \(18.75\) \(\%\) del total de estudiantes se postularon para ingresar a universidades de dos estrellas sin presentar evidencias de haber participado en procesos de investigación.

Como ocurre con las tablas de probabilidades o proporciones, en la subpestaña Frecuencias [CPF y CPC], las frecuencias condicionadas por filas y condicionadas por columnas (respectivamente) se calcularon con base en las tablas de contingencia respectivas. Así, se pueden presentar las siguientes lecturas de ejemplo: según la matriz de frecuencias CPF de Gender vs. Research de los estudiantes de sexo femenino el \(52.98\) \(\%\) se postuló presentando evidencias de haber participado en procesos de investigación, por otro lado, entre los estudiantes de sexo masculino lo hizo el \(55.82\) \(\%\); además, según la misma matriz pero condicionada por columnas, el \(39.23\) \(\%\) de los estudiantes que no presentaron evidencias de haber participado en procesos de investigación fueron de sexo femenino, mientras que el \(60.77\) \(\%\) eran de sexo masculino. Ahora, según la matriz de frecuencias CPF de Gender vs. University_Rating el \(5.62\) \(\%\) de los estudiantes de sexo masculino se postuló a universidades de una estrella, mientras que el \(7.95\) \(\%\) de las mujeres hizo lo mismo; además, según la misma matriz pero condicionada por columnas, del total de estudiantes que se presentaron a universidades de una estrella el \(46.15\) \(\%\) fueron mujeres y el \(53.85\) \(\%\) hombres. Por último, según la matriz de frecuencias CPF de Research vs. University_Rating solo el \(4.42\) \(\%\) de los estudiantes que no evidenciaron participaciones en procesos de investigación se postularon para universidades de cinco estrellas, mientras que a ellas se presentaron el \(23.74\) \(\%\) de estudiantes que sí tenían evidencias de participación en dichos procesos. Complementariamente, según la misma matriz pero condicionada por columnas, el \(13.33\) \(\%\) del total de estudiantes que se presentaron a universidades de cinco estrellas estos no argumentaron haber participado en procesos de investigación, mientras que el \(86.67\) \(\%\) sí lo hizo.

Con base en las matrices de frecuencias se entienden los perfiles condicionados por filas y columnas que se exhiben en la subpestaña Perfiles [CPF y CPC]. Los gráficos de perfiles se muestran en el mismo orden de los objetos anteriormente descritos. Sin embargo, en los gráficos de perfiles se pueden cotejar las proporciones contra un individuo promedio o un perfil promedio, etiquetado con marg. En este sentido, los perfiles fila y columna que corresponden con las variables Gender y Research muestran distribuciones marginales cercanas entre sí; es decir, si son calculadas las proporciones totales serán aproximadamente iguales, por ejemplo: (perfiles fila) las proporciones de estudiantes de sexo masculino y femenino que se postularon sin credenciales investigativas fueron, respectivamente, \(44.18\) \(\%\) y \(47.02\) \(\%\); también, (perfiles columna) la proporción de estudiantes de sexo femenino que se postularon con o sin credenciales fueron, respectivamente, \(36.53\) \(\%\) y \(39.23\) \(\%\). Asimismo, los perfiles fila y columna que corresponden con las variables Gender y University_Rating muestran distribuciones marginales cercanas entre sí, por ejemplo: (perfiles fila) las proporciones de estudiantes de sexo masculino y femenino que se postularon a universidades de tres estrellas fueron, respectivamente, \(32.13\) \(\%\) y \(35.10\) \(\%\); también, (perfiles columna) la proporción de estudiantes de sexo femenino que se presentaron a universidades de cinco, tres y dos estrellas fueron, respectivamente, \(38.33\) \(\%\), \(39.85\) \(\%\) y \(38.32\) \(\%\). Por último, los perfiles fila y columna que corresponden con las variables Research y University_Rating muestran distribuciones marginales lejanas entre sí, por ejemplo: (perfiles fila) las proporciones de estudiantes que se presentaron sin o con credenciales de investigación a universidades de cinco estrellas fueron: \(4.42\) \(\%\) y \(23.74\) \(\%\); también, (perfiles columna) la proporción de estudiantes que presentaron credenciales de investigación para postularse en universidades de cinco, tres y dos estrellas fueron, respectivamente, \(86.67\) \(\%\), \(53.38\) \(\%\) y \(29.91\) \(\%\).

con base en las descripciones hechas es posible anticipar que los pares de variables categóricas Gender vs. Research y Gender vs. University_Rating sean independientes. Este juicio se apoya en los resultados de las pruebas de hipótesis visualizadas a través de la sub-pestaña homónima.Para estas pruebas, a un nivel de significancia \(\alpha = 0.05\), las hipótesis formuladas fueron:\[H_0: \text {Las variables categóricas son independientes}\] \[H_1: \text {las variables categóricas son dependientes}\]Asimismo, el par de variables que tuvo las pruebas a favor de la dependencia fueron Research y University_Rating, en esta prueba el \(p-valor\) resultó menor o igual que el nivel de significancia y, comparativamente, el valor del estadístico \(\chi^2\) fue grande. Por lo tanto, el par de variables que continuaron en análisis fueron estas últimas.

A través de la pestaña AC Pareja Única se despliegan las sub-pestañas relacionadas con la continuación del análisis de correspondencias entre ellas. En Contingencias y Residuales [R-UR] (R: Research y UR: University_Rating) se pueden visualizar las tablas de contingencias, valores esperados y residuales de la pareja de variables en curso. Respecto de las dos primeras es visualizable que el recuento observado y el recuento esperado bajo la hipótesis nula respecto de cada variable son lejanos entre sí, en este sentido, la dependencia entre las variables se robustece. “rango_observado” son los recuentos asociados con cada categoría de datos y “rango_esperado” son los recuentos esperados para cada categoría bajo la hipótesis nula. Además, el análisis de residuales de Pearson y estandarizados muestran que las mayores desviaciones respecto a los valores esperados ocurren entre las universidades de cinco, cuatro, dos y una estrella. Asimismo, en la sub-pestaña Contribuciones [R-UR] puede apreciarse, comentado lo anterior, que el valor tres estrellas de la variable University_Rating contribuye poco en la explicación de la variabilidad del conjunto en comparación con los demás.

Por último, el resultado definitivo del análisis de correspondencias simple se muestra a través de la sub-pestaña Correspondencia Simple Unidimensional [R-UR]. En este apartado se establece que solo una dimensión absorbe toda la variabilidad de la pareja, por lo que la representación bidimensional en el palno de factores es irrealizable. Sin embargo, es posible hacer una interpretación unidimensional de los resultados. Al ser requeridas las variables de soporte del AC, primero por columnas y luego por filas, las coordenadas proyectadas de la variable University_Rating en relación con las categorías de cinco y cuatro estrellas se presentan del lado positivo del eje dimensional creando oposiciones binarias con, respectivamente, cinco estrellas con una estrella y cuatro estrellas con dos estrellas, mientras que las universidades de tres estrellas se enccuentra técnicamente en el centro del eje. Así mismo, los tipos de universidades cinco, cuatro, dos y de una estrella, son las que más contribuyen en la configuración de la dimensión, de nuevo quedan rezagadas las universidades de tres estrellas. Además, es determinante que la calidad de representación alcanza el máximo con cada una de las variables. Un comportamiento semejante a lo expuesto puede apreciarse con la variable fila Research, su calidad de representación es máxima, las coordenadas de sus categorías se yuxtaponen en el eje unidimensional y sus contribuciones son aproximadamente equilibradas. De lo mencionado se interpreta que presentan asociación relevante, postiva o negativa, entre filas y columnas, las categorías (de las respectivas variables) cinco y cuatro estrellas con research, y una y dos estrellas con no-research.

Dado que la representación gráfica bidimensional fue irrealizable, se presenta en la sección 12 el análisis de correspondencias múltiples para lograrla.

AC Parejas Totales

Contingencias
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
##      
##       no-research research Sum
##   F            71       80 151
##   M           110      139 249
##   Sum         181      219 400
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
##      
##       five_stars four_stars one_star three_stars two_stars Sum
##   F           23         22       12          53        41 151
##   M           37         52       14          80        66 249
##   Sum         60         74       26         133       107 400
addmargins(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
##              
##               five_stars four_stars one_star three_stars two_stars Sum
##   no-research          8         15       21          62        75 181
##   research            52         59        5          71        32 219
##   Sum                 60         74       26         133       107 400
Probabilidades
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))*100)
##      
##       no-research research    Sum
##   F         17.75    20.00  37.75
##   M         27.50    34.75  62.25
##   Sum       45.25    54.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))*100)
##      
##       five_stars four_stars one_star three_stars two_stars    Sum
##   F         5.75       5.50     3.00       13.25     10.25  37.75
##   M         9.25      13.00     3.50       20.00     16.50  62.25
##   Sum      15.00      18.50     6.50       33.25     26.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))*100)
##              
##               five_stars four_stars one_star three_stars two_stars    Sum
##   no-research       2.00       3.75     5.25       15.50     18.75  45.25
##   research         13.00      14.75     1.25       17.75      8.00  54.75
##   Sum              15.00      18.50     6.50       33.25     26.75 100.00
Frecuencias [CPF y CPC]
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 1)*100, 2), 2)
##    
##     no-research research    Sum
##   F       47.02    52.98 100.00
##   M       44.18    55.82 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 2)*100, 1), 2)
##      
##       no-research research
##   F         39.23    36.53
##   M         60.77    63.47
##   Sum      100.00   100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 1)*100, 2), 2)
##    
##     five_stars four_stars one_star three_stars two_stars    Sum
##   F      15.23      14.57     7.95       35.10     27.15 100.00
##   M      14.86      20.88     5.62       32.13     26.51 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 2)*100, 1), 2)
##      
##       five_stars four_stars one_star three_stars two_stars
##   F        38.33      29.73    46.15       39.85     38.32
##   M        61.67      70.27    53.85       60.15     61.68
##   Sum     100.00     100.00   100.00      100.00    100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 1)*100, 2), 2)
##              
##               five_stars four_stars one_star three_stars two_stars    Sum
##   no-research       4.42       8.29    11.60       34.25     41.44 100.00
##   research         23.74      26.94     2.28       32.42     14.61 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 2)*100, 1), 2)
##              
##               five_stars four_stars one_star three_stars two_stars
##   no-research      13.33      20.27    80.77       46.62     70.09
##   research         86.67      79.73    19.23       53.38     29.91
##   Sum             100.00     100.00   100.00      100.00    100.00
Perfiles [CPF y CPC]
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"row")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"col")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"row")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"col")

plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"row")

plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"col")

Pruebas de Hipótesis
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research)
## X-squared = 0.20268, df = 1, p-value = 0.6526
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
## 
##  Pearson's Chi-squared test
## 
## data:  table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating)
## X-squared = 3.0799, df = 4, p-value = 0.5445
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
## 
##  Pearson's Chi-squared test
## 
## data:  table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating)
## X-squared = 83.306, df = 4, p-value < 2.2e-16

AC Pareja Única

Contingencias y Residuales [R-UR]
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$observed
##              
##               five_stars four_stars one_star three_stars two_stars
##   no-research          8         15       21          62        75
##   research            52         59        5          71        32
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$expected 
##              
##               five_stars four_stars one_star three_stars two_stars
##   no-research      27.15     33.485   11.765     60.1825   48.4175
##   research         32.85     40.515   14.235     72.8175   58.5825
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals
##              
##               five_stars four_stars   one_star three_stars  two_stars
##   no-research -3.6752244 -3.1944368  2.6924084   0.2342822  3.8202751
##   research     3.3411894  2.9040998 -2.4476999  -0.2129887 -3.4730567
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$stdres
##              
##               five_stars four_stars   one_star three_stars  two_stars
##   no-research -5.3874386 -4.7821527  3.7630767   0.3875445  6.0325199
##   research     5.3874386  4.7821527 -3.7630767  -0.3875445 -6.0325199
Contribuciones [R-UR]
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals^2/chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$statistic*100
##              
##                five_stars  four_stars    one_star three_stars   two_stars
##   no-research 16.21400512 12.24929770  8.70170691  0.06588722 17.51910304
##   research    13.40061611 10.12384879  7.19182169  0.05445474 14.47925868
Correspondencia Simple Unidimensional [R-UR]
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$eig
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1  0.2082655                    100                               100
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$col
## $coord
##                   [,1]
## five_stars   0.6412335
## four_stars   0.5018644
## one_star    -0.7136121
## three_stars -0.0274550
## two_stars   -0.4991266
## 
## $contrib
##                  [,1]
## five_stars  29.614621
## four_stars  22.373146
## one_star    15.893529
## three_stars  0.120342
## two_stars   31.998362
## 
## $cos2
##             [,1]
## five_stars     1
## four_stars     1
## one_star       1
## three_stars    1
## two_stars      1
## 
## $inertia
## [1] 0.0616770521 0.0465955553 0.0331007438 0.0002506308 0.0666415622
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$row
## $coord
## no-research    research 
##  -0.5019859   0.4148833 
## 
## $contrib
## no-research    research 
##       54.75       45.25 
## 
## $cos2
## no-research    research 
##           1           1 
## 
## $inertia
## [1] 0.11402539 0.09424016

12. Correspondencias Múltiples

Recuperando de nuevo el trabajo de (Díaz Morales & Morales Rivera, 2012) se dice que el ACS se puede extender desde tablas de contingencia hacia tablas disyuntivas completas. En estas las filas son los objetos a los cuales se les registran características de interés a través de las columnas que compilan las modalidades de las variables categóricas estudiadas de ellos. Así, el análisis de correspondencias múltiple (ACM) es el AC aplicado a una tabla disyuntiva completa. Por lo tanto, en el ACM una variable categórica asigna a cada objeto de una población una modalidad a través de la cual los particiona exclusiva y exhaustivamente.

Esta sección es desarrollada como alternativa de completitud del análisis de correspondencias simples que en la sección 11 fue inapreciable debido a la unidimensionalidad de la representación de los datos a nivel de proyección de las variables categóricas que cumplieron la hipótesis de dependencia. Por lo tanto, del tratamiento conjunto de todas las varaibles categóricas se espera obtener una representación en el primer plano factorial.

12.1. Planteamiento del Problema

Con base en las variables cualitativas del conjunto de datos descrito en la sección 2 se demanda desarrollar el análisis de correspondencias múltiples para lograr una representación gráfica en el primer plano factorial, debido a la imposibilidad de lograrlo en el análisis de correspondencias simple.

12.2. Desarrollo del Análisis

La navegación a través de las pestañas permite visualizar objetos matriciales y gráficos que ayudan a desarrollar e interpretar el análisis de correspondencias múltiple (ACM) entre las variables categóricas del conjunto de datos descrito en la sección 2.

La pestaña ACM muestra la multidimensionalidad esperada, comparada con la unidimensionalidad del ACS de la sección 11, al trabajar conjuntamente con las tres variables categóricas del conjunto de datos: Gender, University_Rating y Research. Muestra además que las dimensiones del plano principal explican el \(42.16\) \(%\) del conjunto (será sobre este plano que se continuará con las interpretaciones del ACM). Además, la evidente baja concentración de absorción de varianza por parte de alguna o algunas dimensiones se reflejará en las distancias entre los perfiles de las variables categóricas.

En la pestaña Biplot ACM se muestran las semejanzas de perfiles entre estudiantes representados por puntos azules sobrepuestos que indican coordenadas de convergencia y las asociaciones entre algunas categorías de las variables y conjuntos de estudiantes. Cabe anotar que las semejanzas entre categoría de las variables están presentadas por sus coordenas respecto de los semiejes dimensionales, más que por sus proximidades, esto concuerda con los resultados obtenidos en la sección 11. Por ejemplo, en semejanza a nivel de categorías de las variables destacan los grupos: one_stars, two_stars, F y no-research por un lado, por otro, five_stars, four_stars, M y research, así como ciertos grupos evidentes de estudiantes. Complementariamente, a nivel de asociación se destaca la del grupo de estudiantes cercanos a two_stars y la de otro grupo nutrido cercano a four_stars. En general se pueden visualizar fácilmente las asociaciones entre las categorías de las variables y los grupos de estudiantes afines con ellas.

Seguidamente, la pestaña Calidad de Representación muestra que las categorías de la variable Research fueron las mejor representadas, en oposición a las categorías one_star y three_strars de la variable University_Rating. El resto quedó en un rango intermedio-alto de calidad de representación. Como la calidad de representación en subespacios de dimensión reducida se mide en porcentajes de inercia con respecto a la total la cercanía de un punto al origen del plano factorial indica una baja calidad de representación en él, por lo tanto, la categoría three_stars la presenta. La matriz de calidad de representación evidencia numéricamente la situación mencionada: para ella la suma de los cosenos cuadrados en las dimensiones del primer plano plano factorial solo ascienden a \(0.09\), seguida de one_star que suma \(0.18\).

Complementariamente, la pestaña Contribuciones muestra que para las dimensiones del primer plano factorial, y en concordancia con lo expresado en el párrafo anterior, las categorías de la variable University_Rating: one_star y three_stars, en ambas dimensiones quedan por debajop de la línea media de contribución, mientras que las categorías de la misma variable: four_stars y five_stars, aportan en ambos casos por enncima de la línea media. En este sentido, en la pestaña Biplot con Contribuciones se ´visualiza una representación en el primer plano factorial semejante a la obtenida en la pestaña calidad de Representación.

ACM

round(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE)$eig,2)
##       eigenvalue percentage of variance cumulative percentage of variance
## dim 1       0.49                  24.39                             24.39
## dim 2       0.36                  17.77                             42.16
## dim 3       0.33                  16.67                             58.83
## dim 4       0.33                  16.67                             75.50
## dim 5       0.31                  15.46                             90.95
## dim 6       0.18                   9.05                            100.00

Biplot ACM

fviz_mca_biplot(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), repel = TRUE)

Calidad de Representación

fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)

MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE)$var$cos2
##                   Dim 1       Dim 2        Dim 3        Dim 4      Dim 5
## F           0.022900818 0.498308895 2.554960e-29 4.720861e-39 0.47790244
## M           0.022900818 0.498308895 2.787969e-29 1.349092e-31 0.47790244
## no-research 0.716530767 0.008125276 4.802834e-29 2.529855e-31 0.00571241
## research    0.716530767 0.008125276 4.969681e-29 6.103069e-31 0.00571241
## five_stars  0.240330906 0.177277183 3.799446e-01 1.101815e-03 0.10790338
## four_stars  0.213771791 0.265633197 5.310651e-02 1.393417e-01 0.25154509
## one_star    0.128521905 0.053547982 1.386161e-02 6.998290e-01 0.05726901
## three_stars 0.002057811 0.089900789 5.691895e-01 2.649186e-01 0.07335710
## two_stars   0.305912712 0.112570001 3.288337e-01 7.416609e-02 0.06078939

Contribuciones

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 1, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 2, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 3, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 4, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 5, top = 15)

Biplot con Contribuciones

fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="contrib", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)

Objetivo y Anotaciones :: Fase 4

[Conglomerados]

En términos generales, esta cuarta etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en el conjunto de datos tratado en las fases 1, 2 y 3, pero ahora desde un enfoque de análisis de conglomerados en versión jerárquica (dendogramas) y no-jerárquica (K-medias).

Recuérdese que el conjunto de datos de trabajo está descrito en la sección 2 y los referentes teóricos en la sección 1.

Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del domingo 12 de marzo de 2023.

13. Agrupación Jerárquica

Según (Díaz Morales & Morales Rivera, 2012), quienes citan el trabajo de Everitt de 1980 titulado Cluster Analysis, los conglomerados pueden concebirse como regiones continuas de un espacio que contienen una relativamente alta densidad de puntos, que a su vez están separadas por regiones (¿continuas?) que contienen una relativamente baja densidad de puntos. Para conformar tales regiones de puntos se han propuesto, por ejemplo, métodos jerárquicos. Estos inician con el cálculo de la matriz de distancias entre los objetos tratados, con los cuales se conforman grupos por aglomeración a través de etapas que empiezan por conglomerados unitarios (el caso trivial inicial, como también el caso trivial final: un conglomerado total). Entre las opciones restantes se presentan fusiones y divisiones de grupos que especifican jerarquías por similaridades que permiten una representación gráfica conocida como dendograma.

13.1. Planteamiento del Problema

Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda desarrollar el análisis de conglomerados con base agrupaciones jerárquicas que se representen con dendogramas, esto implica clasificar a los objetos de trabajo con métodos aglomerativos del vecino más cercano, más lejano y de la unión mediante el promedio, soportados en la distancia euclidiana.

13.2. Desarrollo del Análisis

La navegación a través de las pestañas permite visualizar objetos matriciales y gráficos que ayudan a desarrollar e interpretar el análisis de conglomerados entre las variables cuantitativas del conjunto de datos descrito en la sección 2.

Con el fin de visualar adecuadamente los datos, y solo con propósitos académicos, el conjunto de datos descrito en la sección 2 fue modificado de tres maneras. Primero, se le agregó una variable categórica clasificadora: Nationality. Esta variable se obtuvo del Institute of International Education (Instituto de Educación Internacional) para una fecha equivalente a la del conjunto de datos inicial. La modificación consistió en agregar un campo que registrase para cada estudante extranjero su nacionalidad. Como las proporciones de participación de las nacionalidades de los estudiantes fueron diferentes, pero conocidas, el método de asignación fue aleatorio y ponderado con base en ellas (véase la pestaña Campo Clasificador). Cabe mencionar que la asignación se hizo directamente en el libro de cálculo con base en la fórmula =INDICE([RANGO_DE_ETIQUETAS]; CONTAR.SI([RANGO_DE_PROPORCIONES_ACUMULADAS]; “<=” & ALEATORIO()) + 1) para 400 registros. Además, el campo Nationality registra junto con la nacionalidad del estudiante la posición que ocupa dicho país como aportante de estudiantes extranjeros en el periodo de medición. Segundo, se estandarizaron en una escala de \(0\) a \(1\) todas las variables cuantitativas. Por último, se aplicó un filtro a los registros con base en la variable clasificadora y se calcularon nuevos registros promedio de las variables cuantitativas. Así, el análisis de conglomerados se hizo con base en el conjunto de datos mostrado en la pestaña Conjunto Modificado, esta indica los primeros registros y la estructura del conjunto.

La pestaña Disimilaridad muestra visualmente los registros de proximidad entre las categorías de la variable clasificadora Nationality. Con base en una escala de colores que indica las distancias entre las observaciones, puede observarse que valores como: Taiwán, Alemania e Indonesia están intensamente distantes del resto. También, por ejemplo, en oposición a los valores mencionados, Tailandia, Malasia y Colombia son menos disímiles. Así, se esperaría que los valores mencionados se agruparan entre sí o formaran grupos de jerarquías propias, con distancias de aglomeración grandes en el paso correspondiente.

Complementariamente, la pestaña Optimización de Mojena muestra separadamente el número óptimo de conglomerados jerárquicos que deberían configurarse de tal forma que las heurísticas usadas entregaran los mejores resultados posibles de intra e inter similaridad. En este sentido, la estrategia del vecino más cercano (Unión Simple) establece que ese número es tres, la del vecino más lejano (unión completa) dicta que también es tres y la de Unión Promedio muestra que es cuatro, a cada una de estas cantidades de conglomerados se le asociará su respectivo dendograma.

Efectivamente, en la pestaña Dendogramas Optimizados se avalan gráficamente las menciones hechas en el párrafo sobre Disimilaridad (por ejemplo, la similaridad entre los valores de Tailandia y Malasia por un lado, y Alemanania y Taiwan por otro, a conglomerarse), además de verificar con más precisión las alturas jerárquicas, en particular para el Enlace Completo y el Enlace Promedio, en estos los niveles de similitud son fácilmente apreciables y efectivamente decisorios sobre la cantidad de conglomerados óptimos precalculados. Es decir, el dendograma de Enlace Simple que se creó con base en tres conglomerados a un nivel de similitud de aproximadamente \(2.3\) presenta distancias de aglomeración cercanas con la horizontal de corte, y en general entre otros niveles de similitud, esto hace que los conglomerados sean difícilmente discernibles. Caso contrario ocurre con el Enlace Completo y el Enlace Promedio en los cuales las distancias de aglomeración son altas y facilitan la apreciación de los conglomerados, en el primero, a un nivel de similitud de aproximadamente \(5.0\) se visualizan tres conglomerados de 7, 1, y 16 observaciones, contadas de izquierda a derecha; en el segundo, a un nivel de similitud superior a \(3.5\) se aprecian cuatro conglomerados conformados por 1, 2, 1 y 20 observaciones, contadas de izquierda a derecha. En ambos casos, se entiende que si los dendogramas se cortaran más arriba de los respectivos niveles de similitud indicados, entonces resultarían menos conglomerados finales, con niveles de similitud mayor; opuestamente, si fuesen cortados más abajo, entonces los niveles de similitud serían menores, pero serían obtenidos más conglomerados finales, de ahí el cálculo del núemro óptimo de conglomerados.

Campo Clasificador

as.data.frame(Nationalities)[1:24,-c(4,5,6)]
##          Nationality Ratio Cumulative_Ratio
## 1           1. China 0.353            0.353
## 2           2. India 0.183            0.536
## 3   3. Corea del Sur 0.058            0.594
## 4  4. Arabia Saudita 0.035            0.629
## 5          5. Canadá 0.031            0.660
## 6         6. Vietnam 0.025            0.685
## 7          7. Brasil 0.023            0.708
## 8          8. Taiwán 0.021            0.729
## 9           9. Japón 0.018            0.747
## 10        10. México 0.016            0.763
## 11         11. Nepal 0.014            0.777
## 12          12. Irán 0.013            0.790
## 13       13. Turquía 0.012            0.802
## 14      14. Colombia 0.012            0.814
## 15       15. Nigeria 0.010            0.824
## 16     16. Tailandia 0.009            0.833
## 17     17. Indonesia 0.009            0.842
## 18       18. Francia 0.009            0.851
## 19       19. Malasia 0.008            0.859
## 20     20. Filipinas 0.008            0.867
## 21      21. Pakistán 0.008            0.875
## 22      22. Alemania 0.007            0.882
## 23   23. Reino Unido 0.007            0.889
## 24  24. Otros países 0.111            1.000

Conjunto Modificado

head(as.data.frame(Admission_Dataset_Initial_Nat_Average))
##    Nationality Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1     1. China             0.7237676               0.9003521       0.6838028
## 2   10. México             0.7652778               0.9055556       0.7555556
## 3    11. Nepal             0.7500000               0.9145833       0.7750000
## 4     12. Irán             0.6714286               0.8833333       0.6714286
## 5  13. Turquía             0.7875000               0.8976190       0.6714286
## 6 14. Colombia             0.5875000               0.8854167       0.5750000
##   Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1        0.6978873        0.8635141                    0.7395070
## 2        0.7333333        0.8705556                    0.7622222
## 3        0.8500000        0.8907500                    0.7550000
## 4        0.7285714        0.8457143                    0.7314286
## 5        0.7000000        0.8664286                    0.7742857
## 6        0.6500000        0.8435000                    0.6975000
str(as.data.frame(Admission_Dataset_Initial_Nat_Average))
## 'data.frame':    24 obs. of  7 variables:
##  $ Nationality                 : chr  "1. China" "10. México" "11. Nepal" "12. Irán" ...
##  $ Average_GRE_Score_S01       : num  0.724 0.765 0.75 0.671 0.787 ...
##  $ Average_TOEFL_Score_S01     : num  0.9 0.906 0.915 0.883 0.898 ...
##  $ Average_SOP_S01             : num  0.684 0.756 0.775 0.671 0.671 ...
##  $ Average_LOR _S01            : num  0.698 0.733 0.85 0.729 0.7 ...
##  $ Average_CGPA_S01            : num  0.864 0.871 0.891 0.846 0.866 ...
##  $ Average_Chance_of_Admit _S01: num  0.74 0.762 0.755 0.731 0.774 ...

Disimilaridad

data_ = as.data.frame(Admission_Dataset_Initial_Nat_Average)[, -c(1)]
rownames(data_) = unclass(Admission_Dataset_Initial_Nat_Average$Nationality)
fviz_dist(get_dist(data_, stand = T, method = "euclidean"), gradient = list(low = "#00AFBB", mid = "white", high = "#FC4E07"))

Optimización de Mojena

Unión Simple
hc_single = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "single")

mojena = function(hc){
  n_hd = length(hc$height)
  alp_g = 0 ; alpha = hc$height[n_hd:1]
  for(i in 1:(n_hd-1)){
    alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
  }
  nog = sum(alp_g<= alpha[-n_hd]) + 1
  plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
       ylab = expression(alpha[g]), xlab="Nodes")}

mojena(hc_single)

Unión Completa
hc_complete = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "complete")

mojena = function(hc){
  n_hd = length(hc$height)
  alp_g = 0 ; alpha = hc$height[n_hd:1]
  for(i in 1:(n_hd-1)){
    alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
  }
  nog = sum(alp_g<= alpha[-n_hd]) + 1
  plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
       ylab = expression(alpha[g]), xlab="Nodes")}

mojena(hc_complete)

Unión Promedio
hc_average = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "average")

mojena = function(hc){
  n_hd = length(hc$height)
  alp_g = 0 ; alpha = hc$height[n_hd:1]
  for(i in 1:(n_hd-1)){
    alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
  }
  nog = sum(alp_g<= alpha[-n_hd]) + 1
  plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
       ylab = expression(alpha[g]), xlab="Nodes")}

mojena(hc_average)

Dendogramas Optimizados

Enlace Simple
suppressWarnings(fviz_dend(hc_single, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T))

Enlace Completo
fviz_dend(hc_complete, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)

Enlace Promedio
fviz_dend(hc_average, k = 4, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)

14. Agrupación no-Jerárquica

En el trabajo de (Díaz Morales & Morales Rivera, 2012) se establece que, en términos generales, los métodos de aglomeración no-jerárquicos (o de partición) se implementan con base en la determinación inicial de alguna partición del conjunto de datos, que, evidentemente, genera subconjuntos de datos, es decir, otras particiones a las cuales se les calcula sus respectivos centroides; luego, las observaciones se vinculan con el conglomerado cuyo centroide esté más cercano para calcular de nuevo el centroide de los conglomerados y se hacen comparaciones voraces, para continuar recursivamente hasta que las observaciones sean irremovibles de sus respectivas particiones. Así, contrario a los métodos jerárquicos, la ubicación de una observación en un conglomerado puede variar.

El método no-jerárquico con el que se cerrará el estudio del conjunto de datos con el que se ha trabajado hasta ahora es el de K-medias. Este particiona un conjunto de \(n\) objetos en \(k\) grupos, lo hace al escoger los centroides de los grupos que minimizan la distancia (euclidiana) entre cada objeto y ellos, para asignar, en consecuencia, a cada individuo al conglomerado cuyo centroide esté más cercano a él. Por lo tanto, el método tiene como objetivo reubicar a los objetos en grupos tales que presenten la menor variabilidad posible.

14.1. Planteamiento del Problema

Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda desarrollar el análisis de conglomerados con base agrupaciones no-jerárquicas a través del método de las K-medias y la representación gráfica diferenciada de las agrupaciones con base en códigos de colores.

14.2. Desarrollo del Análisis

La navegación a través de las pestañas permite visualizar objetos matriciales y gráficos que ayudan a desarrollar e interpretar el análisis de conglomerados entre las variables cuantitativas del conjunto de datos descrito en la sección 2.

Como el método de K-medias requiere la especificación del número de conglomerados que se generarán, resulta indispensable determinarlo previamente y que además sea el mejor posible. A través de la pestaña K-óptimos se accede a las sub-pestañas de resultado de los cálculos de K-óptimos con base en los métodos de codo (Elbow), silueta (Silhouette), brecha (Gap) y mayoría (Majority Rule). El primero, ayudó a establecer que el número óptimo de agrupamientos que minimizan la variación total dentro de cada uno de los grupos es 3. El segundo, a través de la calidad de los agrupamientos (una silueta alta), determinó que el número óptimo de agrupamientos es 2. El tercero, con base en la estimación de los conglomerados óptimos que hacen que se maximice la estadística de brecha de tal manera que la estructura de agrupamiento está muy lejos de una distribución aleatoria uniforme de puntos, estableció que tal número óptimo fuese 1. Por último, el cuarto método, que se basa en el cálculo de 30 índices para determinar el número óptimo de conglomerados al variar todas las combinaciones de número de conglomerados, medidas de distancia y métodos de conglomerado, determinó que tal número es 2. Por lo tanto, la continuación del análisis de conglomerados se continuó con la representación gráfica de los agrupamientos basados en dos y tres conglomerados. Así, la pestaña Resultados K-means muestra para números óptimos de 3 y 2 agrupamientos las cantidades de observaciones, las ubicaciones de los centroides de los conglomerados, el vector de agrupamiento y la medida de la bondad de la clasificación (cohesión interna contra separación externa), que, evidentemente es más cercana a uno para el agrupamiento con base en 3 conglomerados.

Por último, la pestaña Gráficos K-means exhibe los conglomerados en términos de 3 y 2 (número óptimo) grupos en el primer plano factorial que explica el \(85.4\) \(\%\) de la variabilidad de los datos. Al hacer la reasignación de 3 a 2 centroides se aprecia que el conglomerado que contiene a Colombia solo absorbe a Malasia, es decir solo aumenta una observación, en comparación con el conglomerado que contenía a China que absorbe a todo el conglomerado que contenía a Turquía. Así, puede argumentarse a favor del número óptimo de conglomerados igual a 2, porque la reasignación de centroides se reorientó a mejorar la cohesión interna con baja reducción de separación externa entre dos conglomerados que presentaban más homogeneidad. Sin embargo, las comparaciones entre los métodos tratados, jerárquicos y no-jerárquicos, generaron diferentes cantidades de grupos óptimos, pero ambos métodos coincidieron en que, en general, Indonesia y Nepal son casos por tratar con más detenimiento, por ejemplo, a través de métodos que soporten mejor la afectación que provocan valores extraños, por ejemplo, el método de K-medioides.

K-óptimos

Elbow
fviz_nbclust(data_, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)

Silhouette
fviz_nbclust(data_, kmeans, method = "silhouette")

Gap Statistic
fviz_nbclust(data_, kmeans, method = "gap_stat")

Majority Rule
suppressWarnings(NbClust(data = data_, diss = NULL, distance = "euclidean", min.nc = 2, max.nc = 10, method = "kmeans")$Best.nc)

## *** : The Hubert index is a graphical method of determining the number of clusters.
##                 In the plot of Hubert index, we seek a significant knee that corresponds to a 
##                 significant increase of the value of the measure i.e the significant peak in Hubert
##                 index second differences plot. 
## 

## *** : The D index is a graphical method of determining the number of clusters. 
##                 In the plot of D index, we seek a significant knee (the significant peak in Dindex
##                 second differences plot) that corresponds to a significant increase of the value of
##                 the measure. 
##  
## ******************************************************************* 
## * Among all indices:                                                
## * 9 proposed 2 as the best number of clusters 
## * 1 proposed 3 as the best number of clusters 
## * 3 proposed 4 as the best number of clusters 
## * 1 proposed 5 as the best number of clusters 
## * 2 proposed 6 as the best number of clusters 
## * 2 proposed 7 as the best number of clusters 
## * 6 proposed 10 as the best number of clusters 
## 
##                    ***** Conclusion *****                            
##  
## * According to the majority rule, the best number of clusters is  2 
##  
##  
## *******************************************************************
##                      KL      CH Hartigan     CCC   Scott Marriot TrCovW TraceW
## Number_clusters  7.0000  2.0000   6.0000  2.0000 10.0000       4  5e+00 4.0000
## Value_Index     19.5453 16.2126   4.0447 20.8994 41.2452       0  7e-04 0.0218
##                 Friedman     Rubin Cindex     DB Silhouette   Duda PseudoT2
## Number_clusters    10.00    7.0000 10.000 10.000     2.0000 2.0000   2.0000
## Value_Index     11400.81 -128.9452  0.042  0.724     0.3989 0.8208   3.2753
##                  Beale Ratkowsky   Ball PtBiserial   Frey McClain    Dunn
## Number_clusters 2.0000     2.000 3.0000     4.0000 2.0000   2.000 10.0000
## Value_Index     0.7906     0.437 0.0487     0.5674 5.8425   0.366  0.2686
##                 Hubert SDindex Dindex    SDbw
## Number_clusters      0  6.0000      0 10.0000
## Value_Index          0 27.7721      0  0.0927

Resultados K-means

K-óptimo [wws]
set.seed(780728)
print(kmeans(data_, 3, nstart = 25))
## K-means clustering with 3 clusters of sizes 5, 14, 5
## 
## Cluster means:
##   Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1             0.6057500               0.8748333       0.5880000
## 2             0.6908445               0.8863805       0.6788959
## 3             0.7669444               0.9082429       0.7226190
##   Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1        0.5815000        0.8282300                    0.6591000
## 2        0.6821275        0.8537663                    0.7090436
## 3        0.7166667        0.8844579                    0.7872275
## 
## Clustering vector:
##          1. China        10. México         11. Nepal          12. Irán 
##                 2                 3                 3                 2 
##       13. Turquía      14. Colombia       15. Nigeria     16. Tailandia 
##                 3                 1                 2                 1 
##     17. Indonesia       18. Francia       19. Malasia          2. India 
##                 3                 2                 2                 2 
##     20. Filipinas      21. Pakistán      22. Alemania   23. Reino Unido 
##                 2                 2                 1                 1 
##  24. Otros países  3. Corea del Sur 4. Arabia Saudita         5. Canadá 
##                 3                 2                 2                 2 
##        6. Vietnam         7. Brasil         8. Taiwán          9. Japón 
##                 2                 2                 1                 2 
## 
## Within cluster sum of squares by cluster:
## [1] 0.05248085 0.05772177 0.05814394
##  (between_SS / total_SS =  56.5 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"
K-óptimo [sil]
set.seed(780728)
print(kmeans(data_, 2, nstart = 25))
## K-means clustering with 2 clusters of sizes 6, 18
## 
## Cluster means:
##   Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1             0.6157292               0.8759028       0.5983333
## 2             0.7133845               0.8927385       0.6926466
##   Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1        0.5887500        0.8301083                    0.6596667
## 2        0.6948955        0.8630843                    0.7333471
## 
## Clustering vector:
##          1. China        10. México         11. Nepal          12. Irán 
##                 2                 2                 2                 2 
##       13. Turquía      14. Colombia       15. Nigeria     16. Tailandia 
##                 2                 1                 2                 1 
##     17. Indonesia       18. Francia       19. Malasia          2. India 
##                 2                 2                 1                 2 
##     20. Filipinas      21. Pakistán      22. Alemania   23. Reino Unido 
##                 2                 2                 1                 1 
##  24. Otros países  3. Corea del Sur 4. Arabia Saudita         5. Canadá 
##                 2                 2                 2                 2 
##        6. Vietnam         7. Brasil         8. Taiwán          9. Japón 
##                 2                 2                 1                 2 
## 
## Within cluster sum of squares by cluster:
## [1] 0.06039836 0.16247254
##  (between_SS / total_SS =  42.4 %)
## 
## Available components:
## 
## [1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
## [6] "betweenss"    "size"         "iter"         "ifault"

Gráficos K-means

K-óptimo [wws]
fviz_cluster(kmeans(data_, 3, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)

K-óptimo [sil]
fviz_cluster(kmeans(data_, 2, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)

Conclusiones

Complementariamente a los análisis que fueron expuestos en las secciones de estudio es importante hacer una mención global sobre el problema considerado a la luz de lo obtenido.

Como se menciona en el trabajo hecho en el curso Análisis de Regresión (que puede ser consultado temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL), las aspiraciones de un estudiante extranjero para ingresar a una universidad norteamericana se enfrentan a un elevado grado de competición. Además, se constata, desde la perspectiva de estudio multivariable, que, por lo menos descriptivamente, una variable clasificadora categórica como el sexo, resulta muy poco significativa formar grupos diferenciados entre los estudiantes con aspiraciones de ingreso, asunto que contrasta con los relatos socio-populistas basados en falacias ad hominem. El dato, si es fino, siempre será objetivo.

Complementariamente, todas las pruebas de normalidad multivariante resultaron negativas, salvo que a nivel univariado la variable CGPA presentó distribución normal en todas ellas. Así, el deterioro de las propiedades de independencia lineal juegan a favor de la síntesis de información a través de la estimación de componentes principales. Este pudo describir una medida de competitividad formativa que conjuga, con una retención de \(77.05\) \(\%\) la variabilidad del conjunto de datos, la naturaleza interpretativa del fenómeno estudiado. Así, cuanto mayor sea el valor de las variables que registra un estudiante para aplicar a una plaza en una universidad de su elección, mayor será el estado de favorabilidad de que el estudiante sea admitido por la universidad de su preferencia.

Asimismo, el análisis de correspondencias, simple y múltiple, mostró que las universidades de mejor calificación, en particular, las de tres y cuatro estrellas tienden a captar a los estudiantes de mejor medida de competitividad formativa, algo esperado dada la naturaleza del fenómeno estudiado. Además, la variable categórica Research juega un papel determinante en la selectividad, mientras que la varaible Gender es indeterminante estadísticamente para aumentar las probabilidades de ingreso de un estudiante a una universidad de su preferencia.

Adicionalmente, el análisis de conglomerados muestró que efectivamente existían en el conjunto de datos registros significativamente homogéneos entre sí y a su vez se parados de otros. En este sentido, los métodos de aglomeración jerárquicos y no-jerárquicos ayudaron a comprender cómo estaban dispuestos esos grupos y los valores extraños por reevaluar. Así, es relevante la semejanza de perfiles de estudiantes que por nacionalidad abarcan el cercano, medio y lejano oriente al conformar un conglomerado de alta masa, aunque las nacionalidades de Japón, Indonesia y Nepal tomen distancia de su centroide, tales que pudiesen conformar jerárquicamente conglomerados por sí mismos. Por otro lado, el conglomerado al cual pertenece Colombia podría interpretarse como uno que recoge estudiantes muy comprometidos con su formación, dado que son reconocidas las diferencias de los sistemas educativos en vigor en las nacionalidades que lo conforman.

Por último, es importante resaltar el aspecto técnico relacionado con el procesamiento estadístico hecho en este estudio a nivel de robustez, eficiencia e integración que R, RStudio y RMarkdown ofrecen al usuario para que este se pueda enfocar en él sin pasar mayores inconvenientes con el soporte documental para presentarlo.

Referencias

Aldás, J., & Uriel, E. (2017). Análisis multivariante aplicado con R (2nd ed.). ALFACENTAURO.
Aristizábal R., W. D. (2017). Análisis multivariado unidad 1 estadística descriptiva multivariada. In Fundación Universitaria Los Libertadores.
Cramer, Harald. (1953). Métodos matemáticos de estadística (1st ed.). AGUILAR.
Daniel, Wayne W. (2013). Bioestadística base para el análisis de las ciencias de la salud (4th ed.). LIMUSA WILEY.
Devore, Jay L. (2008). Probabilidad y estadı́stica para ingenierı́a y ciencias (7th ed.). CENGAGE LEARNING.
Díaz Morales, L. G., & Morales Rivera, M. A. (2012). Análisis estadístico de datos multivariados (1st ed.). UNAL.
Doornik, J. A., & Hansen, H. (2008). An omnibus test for univariate and multivariate normality. Oxford Bulletin of Economics and Statistics. https://doi.org/10.1111/j.1468-0084.2008.00537.x
Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1999). Análisis multivariante (5th ed.). PRENTICE HALL.
Porras C., J. C. (2016). Comparison test mutivariate normal. Anales Científicos. https://dialnet.unirioja.es/descarga/articulo/6171231.pdf
Tucker, H. G. (1973). Introducción a la teoría matemática de las probabilidades y a la estadítica (1st ed.). VICENS-VIVES.
