Objetivo y Anotaciones :: Fase 1
[Descripciones Multivariantes]
En términos generales, esta primera etapa de estudio mostrará
cálculos, visualizaciones e interpretaciones con base en un conjunto de
datos desde un enfoque de estadística descriptiva multivariante; además,
de incluir una prueba estadística de normalidad multivariada sobre
ellos.
El conjunto de datos de trabajo es descrito en la sección 2. Cabe anotar que los fundamentos teóricos
provienen de notas de clase del curso Análisis
Multivariante dictado por el profesor Juan Carlos Rubriche
Cárdenas para la Especialización en Estadística Aplicada, modalidad
virtual (cohorte 2022-4), de la Fundación Universitaria Los
Libertadores; y de los libros: Análisis Multivariante Aplicado con R
(Aldás & Uriel, 2017) de Joaquín
Aldás y Ezequiel Uriel, Análisis Multivariante de Joseph Hair, Rolph
Anderson, Ronald Tatham y William Black (Hair et al.,
1999), Análisis Estadístico de Datos Multivariados de Luis
Guillermo Díaz Monroy y Mario Alfonso Morales Rivera (Díaz Morales & Morales Rivera,
2012), Introducción a la Teoría Matemática de las
Probabilidades y a la Estadística de Howard Tucker (Tucker, 1973) y Análisis Multivariado:
Estadística Multivariada Descriptiva de William David Aristizábal
Rodríguez (Aristizábal R., 2017).
Este trabajo continúa el hecho en el curso Análisis de
Regresión dictado por el profesor Dagoberto Bermúdez para la
Especialización en Estadística Aplicada, modalidad virtual (cohorte
2022-4), de la Fundación Universitaria Los Libertadores. En este la
bibliografía consultada fue: probabilidad y estadística de Jay L. Devore
(Devore, Jay L., 2008), Bioestadística de
Wayne W. Daniel (Daniel, Wayne W., 2013), Métodos
Matemáticos de Estadística de Harald Cramer (Cramer, Harald,
1953); motivo por el cual se incluyen en las referencias. El
trabajo hecho en Análisis de Regresión que puede ser consultado
temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.
Por último, este trabajo fue procesado con R version 4.2.2
(2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una
plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación
en línea y para cumplir con el requisito temporal de entrega, será
actualizado, como máximo, hasta las 11:59 p.m. del lunes 13 de febrero
de 2023.
2. Descripción de los Datos
2.1. Fuente del Conjunto de Datos
El conjunto de datos de trabajo se obtuvo casi totalmente de
Kaggle: https://www.kaggle.com/akshaydattatraykhare. Es
conveniente anotar que Kaggle es una compañía
subsidiaria de Google LLC que mantiene una comunidad online de
científicos de datos y profesionales del aprendizaje automático. Esta
empresa permite a sus usuarios encontrar y publicar conjuntos de datos,
explorar y crear modelos en un entorno de ciencia de datos basado en la
web, trabajar con otros científicos de datos e ingenieros de aprendizaje
automático y participar en concursos para resolver desafíos de ciencia
de datos.
2.2. Contexto del Conjunto de Datos
El conjunto de datos incluye métricas académicas obtenidas por
estudiantes extranjeros para aspirar a acceder a universidades de EE.UU.
Este conjunto de datos se actualizó por última vez en julio de 2022.
2.3. Descripción del Conjunto de
Datos
El conjunto de datos contiene 10 campos y 400 registros. Uno de los
campos es simplemente un identificador numérico secuencial de los
registros; otros tres son de naturaleza politómica; y el resto son
numéricos estrictamente positivos. La lista siguiente los describe en el
mismo orden, de izquierdda a derecha, como aparecen en el rango de datos
que los contiene y se establece para cada campo, excepto el campo
Serial, el tipo de variable y su escala de medición con
base en la nomenclatura
(tipo_de_variable::escala_de_medición[ordenamiento]):
Serial (identificador): registra un número
secuenciado a partir de 1 para identificar de forma única cada registro
consignado en el conjunto de datos.
Gender (cualitativa::nominal): registra el sexo
del estudiante del cual se registraron los datos: 1 corresponde con un
estudiante de sexo masculino, 0 con un estudiante de sexo
femenino.
GRE Score (cuantitativa::razón): registra el
puntaje total GRE (examen de acceso a la universidad) obtenido por el
estudiante. GRE es un componente común del proceso de admisión a
colegios o universidades en EE.UU. que mide el razonamiento verbal,
cuantitativo, la escritura analítica y las habilidades de pensamiento
crítico que se han adquirido a lo largo de un extenso período de tiempo
y que no están relacionados con campo específicos de estudio. El campo
solo registra dos de los tres componentes de la evaluación: razonamiento
verbal y cuantitativo, en una escala desde 260 hasta 340 puntos. El
resultado ausente del puntaje corresponde con el componente de escritura
analítica: calificado entre 0 y 6 puntos.
TOEFL Score (cuantitativa::razón): registra el
puntaje total TOEFL (prueba de inglés como idioma extranjero) obtenido
por el estudiante. TOEFL es un componente común del proceso de admisión
a colegios o universidades en EE.UU. por parte de estudiantes
extranjeros que mide las competencias en comprensión escrita,
comprensión oral, expresión oral y expresión escrita, en una escala
desde 0 hasta 120 puntos.
SOP (cuantitativa::razón): registra el puntaje
total SOP (ensayo de declaración de propósitos o de admisión) obtenido
por el estudiante. SOP es un componente común del proceso de admisión a
colegios o universidades en EE.UU. que consiste en un ensayo de
solicitud de ingreso escrito por el estudiante en el cual debe hacer una
descripción general de quién es, en quién quiere convertirse y hasta qué
punto está preparado para seguir un determinado curso en la institución
educativa a la cual aspira ingresar. Este ensayo se califica con un
puntaje entre 0 y 5.
LOR (cuantitativa::razón): registra el puntaje
total LOR (carta de recomendación) obtenido por el estudiante. LOR es un
componente común del proceso de admisión a colegios o universidades en
EE.UU. que consiste en una recomendación escrita, generalmente por un
profesor, en la cual el redactor evalúa las cualidades, características
y capacidades del estudiante recomendado en relación con su aptitud para
seguir un curso en la institución educativa a la cual el estudiante
aspira a ingresar. Esta carta se califica con un puntaje entre 0 y
5.
CGPA (cuantitativa::razón): registra el puntaje
total CGPA (promedio de calificaciones acumulativo) obtenido por el
estudiante. CGPA es un componente común del proceso de admisión a
colegios o universidades en EE.UU. que mide el desempeño promedio del
estudiante en su escolaridad previa a la solicitud de ingreso a la
institución educativa siguiente de su preferencia. Este puntaje se mide
entre 0 y 4; sin embargo, en el conjunto de datos fue convertido en una
escala entre 0 y 10.
Research (cualitativa::nominal): registra la
experiencia en investigación que posee el estudiante: 1 corresponde con
que el estudiante argumenta experiencia investigativa, 0 corresponde con
que no-argumenta experiencia investigativa.
University Rating
(cualitativa::nominal(ordenada)): registra valoración de la universidad
a la cual aspira a ingresar el estudiante. Esta valoración se hace en
una escala entre 1 y 5 estrellas, cinco estrellas indica la mejor
valoración.
Chance of Admit (cuantitativa::razón): registra
la probabilidad de que el estudiante sea admitido en la universidad de
su preferencia con base en los datos registrados a su nombre, salvo su
sexo. Esta probrabilidad se mide entre 0 y 1.
Por último, es necesario aclarar que en el conjunto de datos los
registros de las variables cualitativas fueron reescritos, según los
casos, por números enteros positivos, incluido el cero. Así, los sexos
en la variable Gender fueron reescritos como
0:female y
1:male; en Research
el evidenciar o no-evidenciar investigaciones fue reescrito como
0:no-research y
1:research; y en University
Rating la valoración de la universidad fue reescrita como
1:one_star,
2:two_stars,
3:three_stars,
4:four_stars y
5:five_stars.
Estructura del Conjunto de Datos Inicial
str(Admission_Dataset_Initial)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
## $ Serial : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
## $ Gender : chr [1:400] "M" "F" "M" "M" ...
## $ GRE_Score : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
## $ TOEFL_Score : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
## $ SOP : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
## $ LOR : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
## $ CGPA : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
## $ Research : chr [1:400] "research" "research" "research" "research" ...
## $ University_Rating: chr [1:400] "four_stars" "four_stars" "three_stars" "three_stars" ...
## $ Chance_of_Admit : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...
Conjunto de Datos Inicial
Admission_Dataset_Initial
## # A tibble: 400 × 10
## Serial Gender GRE_Score TOEFL_Score SOP LOR CGPA Resea…¹ Unive…² Chanc…³
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr> <dbl>
## 1 1 M 337 118 4.5 4.5 9.65 resear… four_s… 0.92
## 2 2 F 324 107 4 4.5 8.87 resear… four_s… 0.76
## 3 3 M 316 104 3 3.5 8 resear… three_… 0.72
## 4 4 M 322 110 3.5 2.5 8.67 resear… three_… 0.8
## 5 5 M 314 103 2 3 8.21 no-res… two_st… 0.65
## 6 6 M 330 115 4.5 3 9.34 resear… five_s… 0.9
## 7 7 M 321 109 3 4 8.2 resear… three_… 0.75
## 8 8 M 308 101 3 4 7.9 no-res… two_st… 0.68
## 9 9 F 302 102 2 1.5 8 no-res… one_st… 0.5
## 10 10 F 323 108 3.5 3 8.6 no-res… three_… 0.45
## # … with 390 more rows, and abbreviated variable names ¹Research,
## # ²University_Rating, ³Chance_of_Admit
Estructura del Conjunto de Datos Reescrito
str(Admission_Dataset)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
## $ Serial : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
## $ Gender : num [1:400] 1 0 1 1 1 1 1 1 0 0 ...
## $ GRE_Score : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
## $ TOEFL_Score : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
## $ SOP : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
## $ LOR : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
## $ CGPA : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
## $ Research : num [1:400] 1 1 1 1 0 1 1 0 0 0 ...
## $ University_Rating: num [1:400] 4 4 3 3 2 5 3 2 1 3 ...
## $ Chance_of_Admit : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...
Conjunto de Datos Reescrito
Admission_Dataset
## # A tibble: 400 × 10
## Serial Gender GRE_Score TOEFL_Score SOP LOR CGPA Resea…¹ Unive…² Chanc…³
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 337 118 4.5 4.5 9.65 1 4 0.92
## 2 2 0 324 107 4 4.5 8.87 1 4 0.76
## 3 3 1 316 104 3 3.5 8 1 3 0.72
## 4 4 1 322 110 3.5 2.5 8.67 1 3 0.8
## 5 5 1 314 103 2 3 8.21 0 2 0.65
## 6 6 1 330 115 4.5 3 9.34 1 5 0.9
## 7 7 1 321 109 3 4 8.2 1 3 0.75
## 8 8 1 308 101 3 4 7.9 0 2 0.68
## 9 9 0 302 102 2 1.5 8 0 1 0.5
## 10 10 0 323 108 3.5 3 8.6 0 3 0.45
## # … with 390 more rows, and abbreviated variable names ¹Research,
## # ²University_Rating, ³Chance_of_Admit
3. Estimaciones Multivariadas
Como se menciona en (Aristizábal R.,
2017) la de media, varianza y covarianza conforman un
conjunto de medidas fundamentales para describir describir el
comportamiento posicional, dispersivo y correlacional de variables
aleatorias. En este sentido, el conjunto de datos de trabajo que posee
cinco variables aleatorias numéricas, y que está representado
matricialmente, estima las medidas anteriores a partir de vectores y
matrices en el estudio descriptivo multivariable.
El vector de medias indica el comportamiento posicional en el sentido
de valor esperado o punto medio para cada variable en relación con todos
sus registros. La matriz de varianzas-covarianzas estima las
dispersiones, en su diagonal principal, de cada variable del conjunto de
datos respecto de cada media obtenida del vector de medias. Además, por
encima o por debajo de la diagonal principal, se estiman las covarianzas
entre las combinaciones de los posibles pares de variables del conjunto
de datos. Para más detalles se puede consultar a (Aristizábal R., 2017).
Lo anterior, para el conjunto de datos de trabajo, se desarrolla en
la sección 3.2.
3.1. Planteamiento del Problema
Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las
variables numéricas, el vector de medias, la matriz de
varianzas-covarianzas y la matriz de correlaciones. Se recuerda que las
variables numéricas (en escalada de medición de razón) son: GRE
Score, TOEFL Score, SOP,
LOR, CGPA y Chance of
Admit.
3.2. Desarrollo del Análisis
La navegación a través de las pestañas muestra el cálculo de los
siguientes objetos: Vector de Medias \(\bar x\), Matriz de
Varianzas-Covarianzas \(S\) y
Matriz de Correlaciones \(R\).
Con base en la pestaña Vector de Medias y Boxplots
se puede describir que en general los datos registrados para cada una de
las variables tienden a tener colas izquierdas en su distribuciones,
así, las medias estimadas tienden a ser altas. Adicionalmente, en
relación con la mediana, solo la variable SOP muestra
un sesgo notorio en comparación con las demás. Además, todos los casos
atípicos son de extremo inferior. Si se revisan los rangos de las
variables estudiadas se puede constatar que las medias son altas
compradas con los extremos superiores de cada rango.
Con base en la pestaña Matriz de
Varianzas-Covarianzas se interpreta que, en general, y como se
espera que pase, las relaciones entre las variables, estudiadas por
pares, tienden a ser de proporcionalidad directa. Para el caso, se
pueden observar la gráfica multivariada mostrada en la pestaña
Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[SA] de la sección 4.2.
Con base en la pestaña Matriz de Correlaciones y al
considerar la Matriz de Varianzas-Covarianzas es
verificable que la intensidad de las corelaciones es más alta y siempre
positiva entre las variables: TOEFL_Score,
GRE_Score, CGPA y
Chance_of_Admit, que es esperado en relación con el
fenómeno estudiado, esto se puede revisar con más detalles en la sección 4.2.
Matriz de Varianzas-Covarianzas
round(cov(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 131.64 58.22 7.08 5.75 5.70 1.31
## TOEFL_Score 58.22 36.84 4.02 3.10 3.00 0.69
## SOP 7.08 4.02 1.01 0.66 0.43 0.10
## LOR 5.75 3.10 0.66 0.81 0.36 0.09
## CGPA 5.70 3.00 0.43 0.36 0.36 0.07
## Chance_of_Admit 1.31 0.69 0.10 0.09 0.07 0.02
Matriz de Correlaciones
round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 1.00 0.84 0.61 0.56 0.83 0.80
## TOEFL_Score 0.84 1.00 0.66 0.57 0.83 0.79
## SOP 0.61 0.66 1.00 0.73 0.72 0.68
## LOR 0.56 0.57 0.73 1.00 0.67 0.67
## CGPA 0.83 0.83 0.72 0.67 1.00 0.87
## Chance_of_Admit 0.80 0.79 0.68 0.67 0.87 1.00
4. Gráficas Multivariadas
En la guía de clase de (Aristizábal R.,
2017) se menciona que, en general, los gráficos multivariados
cumplen dos objetivos esenciales: primero, ayudan a comparar el
comportamiento de poblaciones de estudio con base en variables
categóricas y suavizan la comprensión de la estructura de correlación
entre varias variables. En este sentido, el conjunto de datos de trabajo
tendrá apoyo descritivo gráfico a través de tres diagramas: uno conjunto
que integra dispersión, distribución y correlaciones; otro basado en la
renderización de polígonos, y por último, uno que recurre a las caras de
Chernoff.
4.1. Planteamiento del Problema
Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las
variables numéricas, las gráficas multivariadas de diagrama de
correlaciones, matriz de diagrama de dispersión, diagrama de estrellas y
caras de Chernoff. Se recuerda que las variables numéricas (en escalada
de medición de razón) son: GRE Score, TOEFL
Score, SOP, LOR,
CGPA y Chance of Admit.
4.2. Desarrollo del Análisis
La navegación a través de las pestañas muestra las gráficas
multivariadas de: Diagrama Conjunto de Dispersión, Distribución
y Correlaciones (sin agrupación SA y con agrupación CA (con
base en las tres variables categóricas: Gender:GE, Research:RE,
University_Rating:UR)), Diagrama de Estrellas y
Caras de Chernoff.
Con base en la pestaña Diagrama Conjunto de Dispersión,
Distribución y Correlaciones [SA] se puede describir que las
correlaciones más altas, mayores que \(0.8\), se dan entre variables esperadas
como: TOEFL_Score, GRE_Score,
CGPA y Chance_of_Admit. Estas
variables, según las definiciones dadas en la sección
2 de descripción de datos, son nucleares en el fenómeno estudiado,
porque están involucradas con el historial de rendimiento académico del
estudiante, su desempeño en la prueba de ingreso a la universidad, su
nivel de dominio certificado del idioma inglés y sus índice de
probabilidad de ingreso a la universidad a la cual aspira. Sin embargo,
ninguna de ellas es descollantemente explicativa. Para más detalles
puede consultarse el trabajo de análisis de regrresión formulado sobre
el mismo conjunto de datos a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.
Complementariamente, con base en las pestañas Diagrama
Conjunto de Dispersión, Distribución y Correlaciones en sus
versiones basadas en grupos a partir de las variables categóricas:
Gender, Research y
University_Rating, se puede apreciar que
comparativamente la diferenciación basada en Gender no
muestra relevancia para elevar la probabilidad de acceso a la
universidad de su elección, contrario a lo que sucede con la variable
agrupadora Research que muestra diferenciadamente lo
contrario. Es decir, que un estudiante pertenezca al grupo de aquellos
que evidencia trabajo en investigación al momento de presentar su
solicitud de acceso, resulta para él en una característica
significativamente a favor de sus pretensiones. Por otro lado, la
variable clasificadora University_Rating, que aporta
cinco grupos, muestra que las universidades de dos y cuatro estrellas en
todos los casos visualizados en el diagrama son significativas a nivel
de correlación, pero, como es esperado, las de mejor rating, atraen a
los mejores talentos.
Con base en la pestaña Diagrama de Estrellas se
interpreta que hay una variedad notoria de estudiantes en términos de
desempeños asociados con las variables numéricas estudiadas, incluso con
la que mide el examen de proficiencia en lengua extranjera, para el caso
inglés: TOEFL_Score. Pero, también es notoria la
presencia de grupos de estudiantes con desempeños aproximadamente
homogéneos en todas las variables estudiadas, aunque sus escalas de
desempeño varian.
Complementariamente a los diagramas de estrellas, la pestaña
Caras de Chernoff muestra que la variedad de
estudiantes es sensible de establecer. Con relativa claridad, las
Caras de Chernoff número 1, 10, 21 y 8, 19, 22, pueden
conformar un par de grupos de estudiantes que muestran desempeños
significativos en las variables medidas, aunque con cambios de escala;
es decir, los del segundo grupo se desempeñan mejor que los del primero
considerando todas las variables estudiadas. Esto compagina con lo
mostrado en el Diagrama de Estrellas.
Por último, es relevante mencionar que las evidencias descriptivas
expuestas en este apartado estén en contra de considerar que el conjunto
de datos limitado a las variables numéricas tenga una distribución
normal multivariada. Esto se estudia en la sección
5.
Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[SA]
ggpairs(Admission_Dataset[,-c(1,2,8,9)])

Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[CA:GE]
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Gender, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[CA:RE]
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Research, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama Conjunto de Dispersión, Distribución y Correlaciones
[CA:UR]
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = University_Rating, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))

Diagrama de Estrellas
set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
stars(Admission_Dataset_Muestreado, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)

Caras de Chernoff
set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
faces(Admission_Dataset_Muestreado)

## effect of variables:
## modified item Var
## "height of face " "GRE_Score"
## "width of face " "TOEFL_Score"
## "structure of face" "SOP"
## "height of mouth " "LOR"
## "width of mouth " "CGPA"
## "smiling " "Chance_of_Admit"
## "height of eyes " "GRE_Score"
## "width of eyes " "TOEFL_Score"
## "height of hair " "SOP"
## "width of hair " "LOR"
## "style of hair " "CGPA"
## "height of nose " "Chance_of_Admit"
## "width of nose " "GRE_Score"
## "width of ear " "TOEFL_Score"
## "height of ear " "SOP"
5. Normalidad Multivariada
Como menciona (Porras C., 2016) para indagar o
establecer el tipo de distribución multivariada de un conjunto de datos
se puede recurrir a procedimientos descriptivos, como los gráficos, o a
procedimientos inferenciales, como las pruebas estadísticas. En este
sentido, se alcanza generalización de resultados al usar las estos
últimos, si bien los primeros apoyan a las interpretaciones.
En este apartado se contempla el uso de procedimientos inferenciales
para determinar si el conjunto de datos de trabajo, en relación con sus
variables numéricas, se distribuye normal multivariado (DNM). Las
pruebas de normalidad multivariada (PNM) a las que será sometido son:
Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Para estas pruebas de
normalidad los test obedecen a un nivel de significancia \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una
DNM}\] \[H_1: \text {Las variables NO
tienen una DNM}\]
La prueba de Mardia se basa en extensiones de asimetría y curtosis,
el cuadrado de la distancia de Mahalanobis, la cantidad de variables
\(p\) por tratar y la cantidad de
registros \(n\). Además, considera que
la prueba estadística para la asimetría tiene una distribución \(\chi^2\) y la prueba estadística para la
curtosis se distirbuye aproximadamente normal. Los detalles sobre los
parámetros de las distribuciones pueden consultarse en el trabajo de
(Porras C., 2016).
La prueba de Henze-Zirkler se basa en la distancia funcional, dado
que si el conjunto de datos presenta una distribución normal
multivariada, el estadístico de la prueba se distribuye aproximadamente
como una lognormal, cuyos parámetros de media \(\mu\) y varianza \(\sigma^2\) pueden ser consultados en (Porras C., 2016).
La prueba de Doornik-Hansen está basada en la asimetría y la curtosis
de un conjunto de datos multivariados, que se transforma para garantizar
la independencia. Es considerada más potente que la prueba de
Shapiro-Wilk para casos multivariados. Su estadístico de prueba está
definido como la suma de las transformaciones al cuadrado de la
asimetría y la curtosis, y sigue, aproximadamente, una distribución
\(\chi^2\). Los detalles de la prueba
pueden ser consultados en (Doornik &
Hansen, 2008).
La prueba de Royston recurre a las pruebas Shapiro-Wilk o
Shapiro-Francia para probar la normalidad multivariada. Así, si la
curtosis es mayor que 3, la prueba de Royston usa Shapiro-Francia para
distribuciones leptocurticas. Mientras que para distribuciones
platicurticas usa Shapiro-Wilk. En ella los parámetros son obtenidos por
aproximaciones polinomiales, esto puede ser consultado en (Porras C., 2016).
5.1. Planteamiento del Problema
Con base en el conjunto de datos descrito en la sección 2 se hará una prueba estadística de normalidad
multivariada, con un nivel de significancia \(\alpha=0.05\), para establecer si sus datos
métricos provienen de una población normal multivariada. Se recuerda que
las variables numéricas del conjunto de datos (en escalada de medición
de razón) son: GRE Score, TOEFL Score,
SOP, LOR, CGPA y
Chance of Admit.
5.2. Desarrollo del Análisis
La navegación a través de las pestañas muestra que el conjunto de
datos, en relación con sus variables numéricas, no se distribuye normal
multivariado. En particular:
La PNM de Mardia establece que si ambas pruebas
(para asimetría y curtosis) indican una normalidad multivariante, los
datos siguen una DNM con un nivel de significancia \(\alpha=0.05\); sin embargo, el caso tratado
es contrario a esto. Obsérvese a través de la pestaña PNM
Mardia que los \(p-value\)
para la asimetría (Skewness) y curtoris (Kurtosis) son mayores que el
nivel de significancia. Por lo tanto, las evidencias no apoyan una
hipótesis de normalidad multivariada para el conjunto de datos
restringido a sus variables numéricas.
La PNM de PNM Henze-Zirkler establece que el
estadístico de prueba no se distribuye aproximadamente como lognormal
dado que su \(p-value\) es menor que el
nivel de significancia \(\alpha=0.05\),
obsérvese esto a través de la pestaña PNM
Henze-Zirkler. Así, por contrarrecíproco de la implicación
formulada en la descripción de la prueba en la sección
5, el conjunto de datos no está apoyado por las evidencias para
seguir una distribución normal multivariada.
La PNM de Doornik-Hansen establece que su
estadístico de prueba no sigue una distribución aproximadamente \(\chi^2\) dado que su \(p-value\) es menor que el nivel de
significancia \(\alpha=0.05\),
obsérvese esto a través de la pestaña PNM
Doornik-Hansen. Por lo tanto, las evidencias están lejos de
apoyar que el conjunto de datos sigue una DNM.
La PNM de Royston establece que el conjunto de datos
reducido a sus variables numéricas no sigue una DNM, dado que su \(p-value\) es menor que el nivel de
significancia \(\alpha=0.05\).
Obsérvese esto a través de la pestaña PNM Royston.
En general, pudo constatarse que para un nivel de significancia \(\alpha=0.05\) el conjunto de datos reducido
a sus variabls numéricas no sigue una distribución normal
multivariada.
PNM Mardia
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="mardia")
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 271.779505720825 4.34632487808584e-30 NO
## 2 Mardia Kurtosis 4.02256608402635 5.75674947702609e-05 NO
## 3 MVN <NA> <NA> NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
PNM Henze-Zirkler
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="hz")
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 1.675143 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
PNM Doornik-Hansen
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="dh")
## $multivariateNormality
## Test E df p value MVN
## 1 Doornik-Hansen 1844.957 12 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
PNM Royston
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="royston")
## $multivariateNormality
## Test H p value MVN
## 1 Royston 83.73469 4.306446e-17 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
Objetivo y Anotaciones :: Fase 2
[Componentes Principales]
En términos generales, esta segunda etapa de estudio mostrará
cálculos, visualizaciones e interpretaciones con base en el conjunto de
datos tratado en la fase 1, pero ahora desde un
enfoque de análisis de componentes principales sobre las variables
cuantitativas, que incluirá: selección, calidad de representación,
contribuciones e interpretación.
Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.
Por último, este trabajo fue procesado con R version 4.2.2
(2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una
plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación
en línea y para cumplir con el requisito temporal de entrega, será
actualizado, como máximo, hasta las 11:59 p.m. del domingo 26 de febrero
de 2023.
7. Selección de Componentes
Como es mencionado en el trabajo de (Díaz Morales &
Morales Rivera, 2012) el Análisis de Componentes Principales
(en adelante ACP) reestructura un conjunto de datos multivariado a
través de la reducción de la cantidad de sus variables, en cuyo
transfondo es innecesario asumir ninguna distribución de probabilidad de
ellas. Esta reducción es lograda a través de combinaciones lineales de
las variables originales, que deberán contener la mayor variabilidad
posible presente en el conjunto de datos. En este sentido, el ACP logra
crear nuevas variables, conocidas como componentes principales, que
poseen características estadísticas de independencia (con base en el
supuesto de normalidad) y no correlación.
El ACP se logra a lo largo de las siguientes fases: generación de
nuevas variables, reducción dimensional del espacio de los datos,
eliminación de varaibles de poco aporte e interpretación de los
componentes resultantes en el contexto del problema del cual se
obtuvieron los datos. Estas fases se desarrollan entre las secciones 7, 8, 9 y 10.
7.1. Planteamiento del Problema
Con base en las variables cuantitativas del conjunto de datos
descrito en la sección 2 se demanda primero
establecer el porcentaje de varianza explicado por cada dimensión una
vez procesado el ACP; y posteriormente, con base en el autovalor medio o
usando un diagrama de sedimentación, decidir cuántos componentes
retener.
7.2. Desarrollo del Análisis
La navegación a través de las pestañas muestra que el conjunto de
datos, en relación con sus variables numéricas, puede ser representado
por un conjuto de variables más pequeño que retiene el \(77.05\) \(\%\) de la variabilidad del conjunto. En
particular:
La Matriz ACP muestra seis dimensiones donde solo la
primera retiene el \(77.05\) \(\%\), la siguiente el \(10.33\) \(\%\) y las demás solo porcentajes con parte
entera de una cifra. En este sentido, la representatividad de la
combinación lineal que define a la dimensión 1 es significativamente
alta en comparación con las demás. Como esta matriz es muda en relación
con las variables originales se sigue indagando la identificación de las
variables que más contribuyan a la dimensión de valor propio más
alto.
La Matriz de Correlaciones permite continuar con las
descripciones de las combinaciones lineales que conforman a la dimensión
de mayor interés: la dimensión 1. Así, esta matriz, como se mostró en la
sección 3.2., ayuda a verificar que la intensidad
de las corelaciones es más alta y siempre positiva entre las variables:
TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit, asunto esperado en
relación con el fenómeno estudiado, por lo tanto, se podría esperar que
estas variables participaran en la combinación lineal que define a la
dimensión 1.
La pestaña de Valores y Vectores Propios muestra
estos objetos calculados a partir de la matriz de correlaciones del
conjunto de datos. En este sentido, se garantiza que la suma de los
valores propios sea igual a la dimensión de dicha matriz y a la
variabilidad total del conjunto, por lo cual las proporciones de
retención de variabilidad son de cálculo inmediato. Además, la matriz de
vectores propios define para cada componente, en relación con cada
variable del conjunto de datos, los coeficientes de la combinación
lineal que la conforman, por ejemplo, con un ajuste a dos cifras
decimales, la componente 1 estaría representada por la combinación
lineal (donde \(G\) es GRE_Score, \(T\) es TOEFL_Score, \(S\) es SOP, \(L\) es LOR, \(CG\) es CGPA y \(CA\) es Chance_of_Admit y además, son
variables estandarizadas):\[Componente_1 =
0.41*G+0.42*T+0.39*S+0.37*L+0.44*CG+0.43*CA\]Hasta este punto, se
puede observar que se dispone de un número de dimensiones igual al
número de variables tratadas, con la salvedad que las variables nuevas
son incorreladas entre sí, ver la pestaña Correlaciones
Comparadas.
Por último, el Gráfico de Cattell y el
Gráfico de Cattell-Kaiser, de codo y sedimentación,
inducen a la elección de una componente en la reducción de dimensión que
retiene la cantidad de variabilidad suficiente para tratar el problema.
Sin embargo, debe resaltarse que se propone elegir con base en criterios
más usados, a cambio de criterios de aceptación universal. El
Gráfico de Cattell muestra que los cambios en la
pendiente indican que la capacidad explicativa de la dimensión 1 es alta
comparada con el resto. Así, el de Cattell-Kaiser al
conjugar el instrumento gráfico anterior con el criterio de Kaiser en la
misma gráfica apoya que la cantidad de dimensiones suficientes por
retener es una, aclarando que esta elección retenga un porcentaje de
variabilidad adecuado para estudiar el problema.
Matriz ACP
get_eigenvalue(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 4.6229170 77.048617 77.04862
## Dim.2 0.6197827 10.329711 87.37833
## Dim.3 0.2820316 4.700527 92.07885
## Dim.4 0.1992199 3.320332 95.39919
## Dim.5 0.1581864 2.636441 98.03563
## Dim.6 0.1178624 1.964373 100.00000
Matriz de Correlaciones
round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 1.00 0.84 0.61 0.56 0.83 0.80
## TOEFL_Score 0.84 1.00 0.66 0.57 0.83 0.79
## SOP 0.61 0.66 1.00 0.73 0.72 0.68
## LOR 0.56 0.57 0.73 1.00 0.67 0.67
## CGPA 0.83 0.83 0.72 0.67 1.00 0.87
## Chance_of_Admit 0.80 0.79 0.68 0.67 0.87 1.00
Valores y Vectores Propios
princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
## 4.6229170 0.6197827 0.2820316 0.1992199 0.1581864 0.1178624
princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$loadings[ ,1:6]
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## GRE_Score 0.4127781 0.4077294 0.02539719 0.3509029 0.72123826
## TOEFL_Score 0.4160056 0.3397387 -0.24669025 0.4574809 -0.65951168
## SOP 0.3855091 -0.4887667 -0.73602577 -0.1872366 0.15066692
## LOR 0.3662513 -0.6631878 0.52149384 0.3899370 -0.03811828
## CGPA 0.4372217 0.1447341 0.08859141 -0.3349520 -0.01437723
## Chance_of_Admit 0.4273564 0.1366578 0.34199519 -0.6068585 -0.14317642
## Comp.6
## GRE_Score 0.13931437
## TOEFL_Score 0.08010298
## SOP 0.11400812
## LOR -0.02412840
## CGPA -0.81709316
## Chance_of_Admit 0.54125202
Correlaciones Comparadas
par(mfrow=c(1,2))
corrplot::corrplot(cor(Admission_Dataset[,-c(1,2,8,9)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)

Gráfico de Cattell
fviz_eig(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")

Gráfico de Cattell-Kaiser
scree(Admission_Dataset[,-c(1,2,8,9)],factors = FALSE, pc = TRUE, main ="")

8. Calidad de Representación
Al retomar el trabajo de (Díaz Morales &
Morales Rivera, 2012) se verifica que, una vez reducida la
dimensionalidad del conjunto de datos y entendido que sus variables
(estandarizadas) están representadas gráficamente por proyecciones de la
hiperesfera de correlaciones, es necesario iniciar la interpretación de
componentes a partir de dichas correlaciones, para luego la calidad de
sus representaciones dada la reducción dimensional del conjunto de datos
en términos de sus variables.
8.1. Planteamiento del Problema
Con base en el conjunto de datos descrito en la sección 2 se demanda determinar la calidad de
representación de las variables cuantitativas respecto a la cantidad de
dimensiones calculadas que retienen la mayor cantidad de variabilidad,
ver la sección 7.
8.2. Desarrollo del Análisis
La navegación a través de las pestañas muestra que la reducción de la
dimensionalidad del conjunto de datos conduce analizar las calidades de
representación en términos de la escala de contribuciones relativas
basada en un cociente de proyecciones con propiedades aditivas y de
respuesta en escala continua entre \(0\) y \(1\). Así, en particular:
El Círculo de Correlaciones expresa que se puede
concebir una compenente tipo tamaño en el sentido de que la dimensión 1
muestra en él una correlación positiva con las seis variables de
interés, además cercanas a la frontera del círculo unitario y
significativamente próximas al eje que la representa. Por otro lado, la
dimensión 2 contrapone a las variables LOR y
SOP con las demás. Otro aspecto por resaltar es la
correlación mostrada entre pares de variables, que en términos del
fenómeno estudiado conservan su naturaleza correlacional esperada hasta
este punto del análisis. Un ejemplo resaltable es el par
SOP y LOR que, en cierto sentido,
están influidas por la subjetividad, véase la sección
2.
La Matriz de Representación, por otro lado, muestra
valores significativamente cercanos a 1 del cociente de proyecciones
coseno cuadrado en relación con la dimensión 1. En este sentido, los
puntos proyectados están altamente asociados con este componente. Así,
la estaña que muestra la Calidad de Representación
indica en su escala un piso alto de \(0.84\) de esta manera las calidades de
representación, en relación con la componente 1, están encabezadas por
CGPA y cierran con SOP. Cabe aclarar
que la dimensión 2 sostiene una mejor representación de
LOR que de SOP, por lo tanto, la
calidad de representación de la primera en relación con la dimensión 1
se ve afectada.
Por último, las Coordenadas Individuales ayudan,
aunque de manera menos digestiva, a identificar a nivel de observaciones
a los perfiles de los registros, en este caso estudiantes, en relación
con las, por lo menos, dimensiones más importantes de retención de
variabilidad: las componentes 1 y 2. Por ejemplo, al observar los
registros 1, 9, 23, se manifiestan las semejanzas entre 1 y 23 en
oposición de ambos con 9, incluso al considerar a la variable peor
representada SOP.
Círculo de Correlaciones
fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())

Matriz de Representación
(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## GRE_Score 0.7876792 0.10303471 0.0001819152 0.024530510 8.228615e-02
## TOEFL_Score 0.8000450 0.07153678 0.0171633381 0.041694489 6.880409e-02
## SOP 0.6870452 0.14806169 0.1527860873 0.006984159 3.590915e-03
## LOR 0.6201182 0.27259164 0.0767001373 0.030291557 2.298454e-04
## CGPA 0.8837298 0.01298318 0.0022135076 0.022351052 3.269787e-05
## Chance_of_Admit 0.8442996 0.01157466 0.0329866161 0.073368148 3.242741e-03
## Dim.6
## GRE_Score 2.287532e-03
## TOEFL_Score 7.562625e-04
## SOP 1.531958e-03
## LOR 6.861706e-05
## CGPA 7.868979e-02
## Chance_of_Admit 3.452823e-02
Calidad de Representación
fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)

Coordenadas Individuales
head((PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 3.66199019 -0.44632765 -0.04355921 0.24316486 0.017016882 -0.21656303
## 2 1.19446218 0.73276087 -0.32814709 0.22842243 0.500315331 -0.11454589
## 3 -0.84979414 0.21025529 -0.35781782 0.16841716 0.277052946 0.70366065
## 4 0.29352000 -1.07510412 0.52840810 -0.44035081 0.022712146 0.32426628
## 5 -1.63376006 -0.50197420 -0.69858584 0.18077296 0.196680136 0.01208760
## 6 2.30415785 -1.04317671 0.81572439 -0.58984239 -0.005863787 0.04832797
## 7 0.11435288 0.04426511 -0.55778114 0.67583330 -0.008454658 0.65668699
## 8 -1.33319919 1.09523940 -0.64182557 0.14097961 0.121311282 0.53850632
## 9 -3.35109245 -0.93258034 0.55044116 -0.15675362 -0.230221499 -0.38858777
## 10 -0.70518251 -0.27624655 1.00503641 1.18722583 0.635525284 -0.93744778
## 11 -0.29903917 0.48517068 0.19973837 1.34630477 0.870978323 -0.42605295
## 12 1.91250151 0.29349042 -0.38344367 0.20818908 0.170392628 0.10043733
## 13 1.91053416 0.23513132 -0.21577217 0.51368146 0.182435980 -0.23939216
## 14 -0.95161415 0.46272070 1.12821047 0.29277119 -0.561789232 0.40712161
## 15 -1.63366474 -0.42045583 1.12531747 -0.37340051 0.206735944 0.04749185
## 16 -1.38952108 -0.17085741 1.02199451 0.25321293 0.333470659 -0.31946818
## 17 -0.09475078 0.01051262 0.82448700 -0.11605999 0.228086329 -0.30609341
## 18 -0.63522387 0.17510274 0.90749587 0.30600586 0.489710926 0.62737017
## 19 0.13054730 -0.18871990 1.00151472 0.21254670 -0.007618938 -0.50549162
## 20 -1.40069985 0.63282752 0.41187500 -0.54609747 -0.138958575 -0.47666697
## 21 -1.71366787 -0.82306966 0.85181743 0.01762092 -0.154540513 0.56819308
## 22 -0.21792196 -1.85700802 0.88942803 0.40713293 -0.170286359 0.36076889
## 23 3.54618997 0.61579548 -0.05532575 -0.06004547 -0.294653496 -0.02737099
9. Contribuciones
Según el trabajo de (Díaz Morales &
Morales Rivera, 2012) la interpretación de resultados está
vinculada con el cálculo de coordenadas, contribuciones, cosenos
cuadrados, etc, por lo tanto, la conceptualización de las variables debe
ser clara para establecerla con la mayor claridad posible, es decir, los
datos deben ponerse en contexto. En este sentido, la contribución de una
variable a una componente allana el camino de la interpretación de
resultados. Esto se hace en este apartado en el sentido de calcular lor
aportes con que cada variable participa para definir a cada componente
generada.
9.1. Planteamiento del Problema
Con base en las variables cuantitativas del conjunto de datos
descrito en la sección 2 se demanda determinar las
contribuciones que hace cada variable a la construcción de cada
componente.
9.2. Desarrollo del Análisis
La navegación a través de las pestañas permite reconocer en
representaciones numéricas y gráficas las contribuciones de las
variables del conjunto de datos a la construcción de cada componente.
Así, se entiende cuánta variabilidad explica cada variable de la
variabilidad total de la componente con que esté involucrada. en
particular:
La Matriz de Contribuciones muestra en términos
relativos la retención de variabilidad que tiene cada variable en la
construcción de cada componente. Así, los diagramas de barras
visualizados a través de las pestañas desde Contribuciones a
D1 hasta Contribuciones a D6, muestran con
base en diagramas de barras las respectivas contribuciones que hacen las
variables para explicar la varianzar en cada componente; además, cada
gráfico incluye una línea que ayuda a identificar la contribución media,
esto ayuda a identificar con mayor facilidad a las variables que
contribuyen con mayor explicación de variabilidad de los componentes que
conforman.
En Contribuciones a D1 se visualiza que las
variables por enciama de la contribución media: CGPA,
Chance_of_Admit, TOEFL_Score y
GRE_Score retienen aproximadamente el \(71.72\) \(\%\) de la variabilidad del componente
1.
En Contribuciones a D2 se visualiza que las
variables por enciama de la contribución media: LOR y
SOP retienen aproximadamente el \(67.87\) \(\%\) de la variabilidad del componente
2.
En Contribuciones a D3 se visualiza que las
variables por enciama de la contribución media: SOP y
LOR retienen aproximadamente el \(81.37\) \(\%\) de la variabilidad del componente
3.
En Contribuciones a D4 se visualiza que las
variables por enciama de la contribución media:
Chance_of_Admit y TOEFL_Score retienen
aproximadamente el \(57.76\) \(\%\) de la variabilidad del componente
4.
En Contribuciones a D5 se visualiza que las
variables por enciama de la contribución media:
GRE_Score y TOEFL_Score retienen
aproximadamente el \(95.51\) \(\%\) de la variabilidad del componente
5.
Por último, en Contribuciones a D6 se visualiza que
las variables por enciama de la contribución media:
CGPA y Chance_of_Admit retienen
aproximadamente el \(96.06\) \(\%\) de la variabilidad del componente
6.
Con los datos procesados hasta ahora se puede proceder con la
intepretación de los componentes.
Matriz de Contribuciones
(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## GRE_Score 17.03858 16.624329 0.06450171 12.313282 52.01846278
## TOEFL_Score 17.30607 11.542236 6.08560812 20.928876 43.49556571
## SOP 14.86172 23.889292 54.17339277 3.505753 2.27005215
## LOR 13.41400 43.981812 27.19558265 15.205085 0.14530029
## CGPA 19.11628 2.094796 0.78484383 11.219286 0.02067047
## Chance_of_Admit 18.26335 1.867535 11.69607091 36.827718 2.04994861
## Dim.6
## GRE_Score 1.94084948
## TOEFL_Score 0.64164873
## SOP 1.29978503
## LOR 0.05821794
## CGPA 66.76412347
## Chance_of_Admit 29.29537534
Contribuciones a D1
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)

Contribuciones a D2
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)

Contribuciones a D3
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)

Contribuciones a D4
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)

Contribuciones a D5
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)

Contribuciones a D6
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 6, top = 10)

10. Interpretación
Con base en (Díaz Morales &
Morales Rivera, 2012) se sabe que a partir de las coordenadas
de los registros dimensionalmente reducidos se puede ubicar en un plano
de factores para efectos de análisis e interpretación. Así, las
variables reducidas son las componentes principales que se grafican como
ejes en un plano, y los valores que tomen son los puntajes de las
componentes. Como bien se explica en el mismo trabajo, las distancias
entre los puntos definidos por los puntajes de las componentes tiene un
significado relevante al ayudar a establecer semejanzas de perfiles en
las observaciones hechas. Sin embargo, los valores semejantes de las
variables pueden darse solo en algunas de ellas, sin esperar
necesariamente a que suceda en todas. Así, se espera que las distancias
en el espacio dimensional original de las observaciones queden bien
representadas en el espacio reducido de las componentes.
10.1. Planteamiento del Problema
Con base en las variables cuantitativas del conjunto de datos
descrito en la sección 2 se demanda definir e
interpretar sus componentes principales.
10.2. Desarrollo del Análisis
La navegación a través de las pestañas permite visualizar objetos
gráficos y matriciales que, al incluir lo hecho en las secciones
anteriores, ayudan a robustecer la interpretación de las componentes
calculadas. Como se mostró en la sección 7, la
cantidad de componentes seleccionadas se redujo (según el criterio de
Kaiser) a una y se estableció que la componente 1 retiene el \(77.05\) \(\%\) de la variabilidad de los datos. Así,
en el círculo de correlaciones de la sección 8 se
aprecia que la representación de las variables conjugadas en la
componente 1 la configuran como una de tipo tamaño, lo que puede
interpretarse como una especie de índice de proporcionalidad directa.
Esto también se apoya con base en el hecho de que todas las variables
presentan calidades de representación entre \(0.62\) y \(0.88\). En consecuencia, cuanto mayor sea
el valor las variables mayor será el estado de favorabilidad de que el
estudiante sea admitido por la univrsidad de su preferencia. Así, dada
la naturaleza de las variables esta componente puede representar para un
estudiante su medida de competitividad formativa. Al
respecto:
Las pestañas Biplot de Variables y Registros Totales
en UR (University Rating), G (Gender)
y R (Research), muestran, con base en las agrupaciones
que estas variables categóricas pueden establecer, la representación en
dimensionalidad reducida en el plano de factores de registros y
dimensiones con base en los puntajes por componentes. En este sentido,
es posible apreciar que las agrupaciones con base en
University_Rating y Research capturan
diferencias acentuadas en la distribuciones de las observaciones,
contrario a la agrupación con base en Gender.
Por último, para facilitar la verificación de la ubicación de
puntajes en el plano de componentes (en particular, siempre conformado
por las componentes 1 y 2 por el interés que sucitan) y, asimismo, las
semejanzas de perfiles y las correlaciones entre variables, se dispuso
de las pestañas Coordenadas Individuales [Subconjunto
UR] y Biplot de Variables y Registros [Subconjunto
UR]. Estas muestran, con base en un subconjuto de 61 registros
muestrado aleatorio simple, los puntajes por componentes y el biplot de
ese subconjunto, con base en la agrupación provista por la varaible
categórica University_Rating, sin pérdida significativa
de detalles. Esto, se insiste, solo tiene fines didácticos, debido a la
dificultad de identificación visual que presenta el conjunto original
que contiene 400 registros.
Biplot de Variables y Registros [Total UR]
data_UR <- Admission_Dataset_Initial[,-c(1,2,8)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$University_Rating)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Biplot de Variables y Registros [Total G]
data_UR <- Admission_Dataset_Initial[,-c(1,8,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Gender)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Biplot de Variables y Registros [Total R]
data_UR <- Admission_Dataset_Initial[,-c(1,2,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Research)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)

Coordenadas Individuales [Subconjunto UR]
set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
head(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7)$ind$coord, n = 61L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 2.68761751 0.02450021 -0.174588047 -0.3744681469 0.20243105 0.09714639
## 2 -0.68733407 0.09559234 -0.429878544 0.3006483758 0.55882375 -0.41539839
## 3 -2.66688446 0.99297045 -0.154631808 0.2955375778 0.91070623 -0.54643606
## 4 -2.60547963 0.90034536 -0.019614410 -0.0213467292 -0.11686267 0.21276009
## 5 1.08112756 0.40126269 0.092843433 0.0881547303 -0.54870098 0.12868982
## 6 1.84519346 0.73863622 0.122725654 0.3044756351 -0.25870078 -0.29131881
## 7 -0.58747951 -0.02256539 0.456341153 -1.2163134978 -0.01333260 -0.94317535
## 8 4.01404297 0.07462346 0.109467778 -0.6287994639 0.60476060 -0.09211162
## 9 -0.91086676 0.33014131 -0.213824989 -0.4796112753 -0.27321962 0.17828584
## 10 1.99972822 -0.51428654 -0.239308944 -0.1615319470 0.04151905 -0.01116718
## 11 -0.95952733 -0.26982240 -0.628357160 -0.2695572128 -0.41111602 0.24409785
## 12 -0.19766524 -0.28396958 -0.159860979 -0.1187760407 -0.35433595 0.16222254
## 13 -0.11229774 0.04922496 -0.520651363 -0.2764481615 -0.23244849 0.60623579
## 14 1.31908921 -0.83063861 0.459124717 0.0260651127 -0.26542984 -0.06860382
## 15 0.72561624 0.69347072 0.441628837 -0.4125443603 1.09108940 0.54905112
## 16 -3.05518824 -1.00327852 -0.517772977 0.0169673161 0.11745016 -0.48627516
## 17 -0.32128795 1.31505890 -0.334220920 0.5188724696 -0.63373067 -0.31543233
## 18 0.59398643 1.05012623 0.823718459 0.0006562314 0.39817645 0.37906406
## 19 4.31763412 -0.76639535 0.305614507 0.3514348648 0.06165635 0.10729655
## 20 -2.66850653 -0.88007178 -1.150343969 0.4998803377 0.64189881 0.47161684
## 21 2.49833145 0.33680478 -0.497108151 -0.1493167937 0.73518345 -0.01616226
## 22 4.42861912 -1.19651010 -0.065398012 -0.0662251616 -0.12480678 -0.21829986
## 23 -0.10138583 0.26657454 1.025802277 0.1844089350 -0.23952973 0.21237382
## 24 0.77832836 0.51483734 -0.586749977 -0.3660228511 -0.22881809 0.03093306
## 25 -3.34603035 -0.73197519 0.572679946 -0.2522335792 0.45386536 0.58574083
## 26 -1.12156436 0.47009460 0.710676700 -0.2693120533 0.03905343 0.28650198
## 27 1.12573128 -0.17577080 -0.100141703 -0.1546231843 -0.24919779 -0.45040087
## 28 3.07067126 0.35323879 0.757028987 0.4247162580 -0.12499666 -0.09729370
## 29 -2.92576647 0.11991747 0.250445228 -0.2299849763 0.13108636 0.13961852
## 30 -1.57082897 0.82519550 0.448043093 -0.0817267972 -0.19123476 -0.01806606
## 31 3.88893564 0.20786100 0.370786584 0.4214452559 -0.27081769 0.18277722
## 32 -0.09514144 0.11557851 0.021320640 0.6302141984 0.72768874 -0.64366773
## 33 0.08471986 1.61655715 -0.188909993 -0.7008855995 0.13920525 -0.02845328
## 34 -0.59184199 -0.22876447 -0.926126623 -0.2235325185 -0.17851703 0.48899087
## 35 -3.27720201 -0.87836770 0.823764048 -0.3562505606 0.97461197 0.27193935
## 36 -1.00907062 -0.60981916 -0.366548178 -0.0095160479 -0.74853286 -0.07287862
## 37 -3.44740002 0.09518884 -0.279026284 1.2727724524 -0.29958247 -0.03048890
## 38 -0.61814715 1.35139235 -0.147464086 0.5287327428 -0.26151384 0.23159263
## 39 -0.95360489 0.60765498 -0.840617577 0.0538599827 -0.37791331 0.27308231
## 40 -0.50218812 -0.31602204 -0.856741467 -0.2330804793 -0.02917330 0.27512267
## 41 2.10626250 -1.04424439 -0.963150163 0.3392035768 0.31987492 0.03821925
## 42 1.28322709 -0.62926111 0.441965914 -0.3562454098 -0.40127799 0.01056439
## 43 2.86084387 -0.97743658 -0.189055903 -0.3257769792 -0.24103693 -0.02533912
## 44 0.11095420 0.09104799 0.329152682 -0.2503309611 -0.05860961 -0.31122317
## 45 0.86048677 -1.06837705 1.669752773 0.7807790722 -0.18776456 0.15605708
## 46 -2.01348062 -0.35196960 0.153198506 -0.2101122481 -0.33640760 -0.24733626
## 47 0.49914560 0.99619621 0.203342566 -0.6055245095 -0.15223639 -0.39848712
## 48 -0.18678673 0.07290830 0.277304278 0.2073225308 -0.11177696 0.50750739
## 49 0.53103836 0.64282486 -0.737406584 0.0797141721 0.64352663 0.29279878
## 50 -3.35949243 -0.44687930 0.006172428 -0.0045161417 -0.38323628 -0.43416026
## 51 -1.76561250 -0.71357365 0.119940618 0.3131484601 -0.39483497 -0.13067773
## 52 -0.61646599 0.78723572 0.792587313 0.0458368814 -0.47170228 -0.07547270
## 53 -1.13208355 0.23098651 0.334020200 -0.9375383689 -0.14012116 -0.18977532
## 54 -0.27645335 1.39981251 -0.625640992 0.8891418808 -0.14251466 -0.21940402
## 55 2.88576942 1.38441807 -0.193040456 0.1296641060 -0.02106329 0.03478427
## 56 -5.04977695 -0.90629264 0.026357340 -0.5769148808 0.38735732 -0.21288001
## 57 1.92705611 -0.90735952 -0.718194109 -0.2719132197 -0.22644798 -0.26096780
## 58 3.43755620 -1.17933752 -0.453693737 -0.0563528841 0.04013918 0.18174093
## 59 0.07536328 -0.43227807 0.549529614 0.5870839780 0.36357097 0.78670503
## 60 0.69062813 -0.65223897 0.232067290 1.0279357809 0.99227537 -0.88356806
## 61 -2.99486239 -1.13477288 0.350664541 0.3286601252 -0.87440821 0.01140428
Biplot de Variables y Registros [Subconjunto UR]
set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
fviz_pca_biplot(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7), axes = c(1, 2), repel = T, habillage = 7)

Objetivo y Anotaciones :: Fase 3
[Correspondencias]
En términos generales, esta tercera etapa de estudio mostrará
cálculos, visualizaciones e interpretaciones con base en el conjunto de
datos tratado en la fase 1 y 2,
pero ahora desde un enfoque de análisis de correspondencias simples y
múltiples sobre las variables cuanlitativas, que incluirá: construcción
de tablas de contingencias y disyuntivas completas, calidades de
representación, contribuciones e interpretaciones.
Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.
Por último, este trabajo fue procesado con R version 4.2.2
(2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una
plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación
en línea y para cumplir con el requisito temporal de entrega, será
actualizado, como máximo, hasta las 11:59 p.m. del domingo 5 de marzo de
2023.
11. Correspondencias Simples
Con base en el trabajo de (Aldás & Uriel,
2017) se sabe que el análisis de correspondencias simple
(ACS) busca representar en un espacio multidimensional reducido la
relación que exista entre las categorías de un par de variables
categóricas. En este sentido, el ACS muestra las distancia entre los
niveles de dos variables categóricas y, en consecuencia, ayuda a
visualizar tablas de contingencia. Además, se establece que el número
máximo de dimensiones que expliquen la asociación entre variables fila y
columna es igual a uno menos el menor número de categorías de alguna de
las variables involucradas. En consecuencia, el análisis de
correspondencias permite describir la proximidad existente entre los
perfiles de los objetos observados. Además, el ACS, que basa sus
cálculos en tablas de contingencia, puede extenderse a más de dos
variables categóricas, conociéndose como anáslisis de correspondencias
múltiples (ACM), con base en una objeto llamado tabla disyuntiva
completa.
Esta sección trata el análisis de correspondecias simple con base en
pares de variables categóricas del conjunto de datos descrito en la sección 2. Complementariamente, la sección 12 muestra el análisis de correspondencias
múltiples con base en las varaibles categóricas del mismo conjunto de
datos.
11.1. Planteamiento del Problema
Con base en las variables cualitativas del conjunto de datos descrito
en la sección 2 se demanda desarrollar el análisis
de correspondencias, en principio simple, apoyado en tablas de
contingencia y de frecuencias relativas y gráficos de perfiles y de
puntos superpuestos en el primer plano factorial.
11.2. Desarrollo del Análisis
La navegación a través de las pestañas permite visualizar objetos
matriciales y gráficos que ayudan a robustecer la interpretación del
análisis de correspondencias simple (binario) entre cada par de
varaibles categóricas del conjunto de datos: Gender,
Research y University_Rating. Por ser
baja la cantidad de variables categóricas se trabaja el ACS sobre las
tres combinaciones posibles.
La pestaña AC Parejas Totales agrupa los cálculos
para todas las combinaciones de parejas de variables. En particular, en
Contingencias se hacen las siguientes lecturas de
ejemplo de las tablas de contingencias: en la tabla de contingencias
Gender vs. Research se encontró que 80
estudiantes de un total de 151 de sexo femenino adjuntaron evidencias de
participación en actividades de investigación; además, de los 181
estudiantes que no argumentaron investigación, de un total de 400
postulados, 71 son de sexo femenino y 110 de sexo masculino. En la tabla
de contingencias Gender
vs. University_Rating se calculó que 14 estudiantes de
un total de 249 de sexo masculino presentaron aspiraciones de ingreso a
unna universidad de una estrella; además, de los 60 estudiantes que
presentaron solicitudes de ingreso a universidades de cinco estrellas,
23 eran de sexo femenino y 37 de sexo masculino. Por último, en la tabla
de contingencia Research
vs. University_Rating se puede determinar que 59
estudiantes, de un total de 219, que presentaron evidencias de haber
participado en procesos de investigación, presentaron sus aspiraciones
de ingreso en universidades de cuatro estrellas; además, 75 estudiantes,
de un total de 107, que se postularon en universidades de dos estrellas,
lo hicieron sin evidenciar participación en procesos de
investigación.
Al tomar como base las tablas de contingencia descritas antes, se
presenta a través de la subpestaña Probabilidades las
proporciones relativas en términos de los pares de variables
examininados. En este sentido, a nivel de ejemplo se presentan algunas
lecturas de ellas: en la tabla de probabilidades Gender
vs. Research el \(20.00\) \(\%\) del total de estudiantes son de sexo
femenino que presentaron evidencias en su aplicación de haber
participado en procesos de investigación; además, el \(45.25\) \(\%\) del total de estudiantes no argumentó
en su postulación haber participado en procesos de investigación, donde
el \(17.75\) \(\%\) eran hombres y el \(27.50\) \(\%\) mujeres. En la tabla de probabilidades
Gender vs. University_Rating que el
\(3.50\) \(\%\) del total de estudiantes fueron
hombres que presentaron sus postulaciones a universidades de una
estrella; además, del \(15.00\) \(\%\) de postulados a universidades de cinco
estrellas, aditivamente el \(9.25\)
\(\%\) eran hombres y el \(5.75\) \(\%\) mujeres. Por último, en la tabla de
probabilidades Research
vs. University_Rating el \(14.75\) \(\%\) del total de estudiantes presentaron
evidencias de participación en procesos investigativos y se postularon a
universidades de cuatro estrellas; además, el \(18.75\) \(\%\) del total de estudiantes se postularon
para ingresar a universidades de dos estrellas sin presentar evidencias
de haber participado en procesos de investigación.
Como ocurre con las tablas de probabilidades o proporciones, en la
subpestaña Frecuencias [CPF y CPC], las frecuencias
condicionadas por filas y condicionadas por columnas (respectivamente)
se calcularon con base en las tablas de contingencia respectivas. Así,
se pueden presentar las siguientes lecturas de ejemplo: según la matriz
de frecuencias CPF de Gender
vs. Research de los estudiantes de sexo femenino el
\(52.98\) \(\%\) se postuló presentando evidencias de
haber participado en procesos de investigación, por otro lado, entre los
estudiantes de sexo masculino lo hizo el \(55.82\) \(\%\); además, según la misma matriz pero
condicionada por columnas, el \(39.23\)
\(\%\) de los estudiantes que no
presentaron evidencias de haber participado en procesos de investigación
fueron de sexo femenino, mientras que el \(60.77\) \(\%\) eran de sexo masculino. Ahora, según
la matriz de frecuencias CPF de Gender
vs. University_Rating el \(5.62\) \(\%\) de los estudiantes de sexo masculino
se postuló a universidades de una estrella, mientras que el \(7.95\) \(\%\) de las mujeres hizo lo mismo; además,
según la misma matriz pero condicionada por columnas, del total de
estudiantes que se presentaron a universidades de una estrella el \(46.15\) \(\%\) fueron mujeres y el \(53.85\) \(\%\) hombres. Por último, según la matriz
de frecuencias CPF de Research
vs. University_Rating solo el \(4.42\) \(\%\) de los estudiantes que no evidenciaron
participaciones en procesos de investigación se postularon para
universidades de cinco estrellas, mientras que a ellas se presentaron el
\(23.74\) \(\%\) de estudiantes que sí tenían
evidencias de participación en dichos procesos. Complementariamente,
según la misma matriz pero condicionada por columnas, el \(13.33\) \(\%\) del total de estudiantes que se
presentaron a universidades de cinco estrellas estos no argumentaron
haber participado en procesos de investigación, mientras que el \(86.67\) \(\%\) sí lo hizo.
Con base en las matrices de frecuencias se entienden los perfiles
condicionados por filas y columnas que se exhiben en la subpestaña
Perfiles [CPF y CPC]. Los gráficos de perfiles se
muestran en el mismo orden de los objetos anteriormente descritos. Sin
embargo, en los gráficos de perfiles se pueden cotejar las proporciones
contra un individuo promedio o un perfil promedio, etiquetado con
marg. En este sentido, los perfiles fila y columna que
corresponden con las variables Gender y
Research muestran distribuciones marginales cercanas
entre sí; es decir, si son calculadas las proporciones totales serán
aproximadamente iguales, por ejemplo: (perfiles fila) las proporciones
de estudiantes de sexo masculino y femenino que se postularon sin
credenciales investigativas fueron, respectivamente, \(44.18\) \(\%\) y \(47.02\) \(\%\); también, (perfiles columna) la
proporción de estudiantes de sexo femenino que se postularon con o sin
credenciales fueron, respectivamente, \(36.53\) \(\%\) y \(39.23\) \(\%\). Asimismo, los perfiles fila y columna
que corresponden con las variables Gender y
University_Rating muestran distribuciones marginales
cercanas entre sí, por ejemplo: (perfiles fila) las proporciones de
estudiantes de sexo masculino y femenino que se postularon a
universidades de tres estrellas fueron, respectivamente, \(32.13\) \(\%\) y \(35.10\) \(\%\); también, (perfiles columna) la
proporción de estudiantes de sexo femenino que se presentaron a
universidades de cinco, tres y dos estrellas fueron, respectivamente,
\(38.33\) \(\%\), \(39.85\) \(\%\) y \(38.32\) \(\%\). Por último, los perfiles fila y
columna que corresponden con las variables Research y
University_Rating muestran distribuciones marginales
lejanas entre sí, por ejemplo: (perfiles fila) las proporciones de
estudiantes que se presentaron sin o con credenciales de investigación a
universidades de cinco estrellas fueron: \(4.42\) \(\%\) y \(23.74\) \(\%\); también, (perfiles columna) la
proporción de estudiantes que presentaron credenciales de investigación
para postularse en universidades de cinco, tres y dos estrellas fueron,
respectivamente, \(86.67\) \(\%\), \(53.38\) \(\%\) y \(29.91\) \(\%\).
con base en las descripciones hechas es posible anticipar que los
pares de variables categóricas Gender
vs. Research y Gender
vs. University_Rating sean independientes. Este juicio
se apoya en los resultados de las pruebas de hipótesis visualizadas a
través de la sub-pestaña homónima.Para estas pruebas, a un nivel de
significancia \(\alpha = 0.05\), las
hipótesis formuladas fueron:\[H_0: \text {Las
variables categóricas son independientes}\] \[H_1: \text {las variables categóricas son
dependientes}\]Asimismo, el par de variables que tuvo las pruebas
a favor de la dependencia fueron Research y
University_Rating, en esta prueba el \(p-valor\) resultó menor o igual que el
nivel de significancia y, comparativamente, el valor del estadístico
\(\chi^2\) fue grande. Por lo tanto, el
par de variables que continuaron en análisis fueron estas últimas.
A través de la pestaña AC Pareja Única se despliegan
las sub-pestañas relacionadas con la continuación del análisis de
correspondencias entre ellas. En Contingencias y Residuales
[R-UR] (R: Research y UR: University_Rating) se pueden
visualizar las tablas de contingencias, valores esperados y residuales
de la pareja de variables en curso. Respecto de las dos primeras es
visualizable que el recuento observado y el recuento esperado bajo la
hipótesis nula respecto de cada variable son lejanos entre sí, en este
sentido, la dependencia entre las variables se robustece.
“rango_observado” son los recuentos asociados con cada categoría de
datos y “rango_esperado” son los recuentos esperados para cada categoría
bajo la hipótesis nula. Además, el análisis de residuales de Pearson y
estandarizados muestran que las mayores desviaciones respecto a los
valores esperados ocurren entre las universidades de cinco, cuatro, dos
y una estrella. Asimismo, en la sub-pestaña Contribuciones
[R-UR] puede apreciarse, comentado lo anterior, que el valor
tres estrellas de la variable University_Rating
contribuye poco en la explicación de la variabilidad del conjunto en
comparación con los demás.
Por último, el resultado definitivo del análisis de correspondencias
simple se muestra a través de la sub-pestaña Correspondencia
Simple Unidimensional [R-UR]. En este apartado se establece que
solo una dimensión absorbe toda la variabilidad de la pareja, por lo que
la representación bidimensional en el palno de factores es irrealizable.
Sin embargo, es posible hacer una interpretación unidimensional de los
resultados. Al ser requeridas las variables de soporte del AC, primero
por columnas y luego por filas, las coordenadas proyectadas de la
variable University_Rating en relación con las
categorías de cinco y cuatro estrellas se presentan del lado positivo
del eje dimensional creando oposiciones binarias con, respectivamente,
cinco estrellas con una estrella y cuatro estrellas con dos estrellas,
mientras que las universidades de tres estrellas se enccuentra
técnicamente en el centro del eje. Así mismo, los tipos de universidades
cinco, cuatro, dos y de una estrella, son las que más contribuyen en la
configuración de la dimensión, de nuevo quedan rezagadas las
universidades de tres estrellas. Además, es determinante que la calidad
de representación alcanza el máximo con cada una de las variables. Un
comportamiento semejante a lo expuesto puede apreciarse con la variable
fila Research, su calidad de representación es máxima,
las coordenadas de sus categorías se yuxtaponen en el eje unidimensional
y sus contribuciones son aproximadamente equilibradas. De lo mencionado
se interpreta que presentan asociación relevante, postiva o negativa,
entre filas y columnas, las categorías (de las respectivas variables)
cinco y cuatro estrellas con research, y una y dos estrellas con
no-research.
Dado que la representación gráfica bidimensional fue irrealizable, se
presenta en la sección 12 el análisis de
correspondencias múltiples para lograrla.
AC Parejas Totales
Contingencias
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
##
## no-research research Sum
## F 71 80 151
## M 110 139 249
## Sum 181 219 400
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 23 22 12 53 41 151
## M 37 52 14 80 66 249
## Sum 60 74 26 133 107 400
addmargins(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
##
## five_stars four_stars one_star three_stars two_stars Sum
## no-research 8 15 21 62 75 181
## research 52 59 5 71 32 219
## Sum 60 74 26 133 107 400
Probabilidades
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))*100)
##
## no-research research Sum
## F 17.75 20.00 37.75
## M 27.50 34.75 62.25
## Sum 45.25 54.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))*100)
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 5.75 5.50 3.00 13.25 10.25 37.75
## M 9.25 13.00 3.50 20.00 16.50 62.25
## Sum 15.00 18.50 6.50 33.25 26.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))*100)
##
## five_stars four_stars one_star three_stars two_stars Sum
## no-research 2.00 3.75 5.25 15.50 18.75 45.25
## research 13.00 14.75 1.25 17.75 8.00 54.75
## Sum 15.00 18.50 6.50 33.25 26.75 100.00
Frecuencias [CPF y CPC]
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 1)*100, 2), 2)
##
## no-research research Sum
## F 47.02 52.98 100.00
## M 44.18 55.82 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 2)*100, 1), 2)
##
## no-research research
## F 39.23 36.53
## M 60.77 63.47
## Sum 100.00 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 1)*100, 2), 2)
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 15.23 14.57 7.95 35.10 27.15 100.00
## M 14.86 20.88 5.62 32.13 26.51 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 2)*100, 1), 2)
##
## five_stars four_stars one_star three_stars two_stars
## F 38.33 29.73 46.15 39.85 38.32
## M 61.67 70.27 53.85 60.15 61.68
## Sum 100.00 100.00 100.00 100.00 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 1)*100, 2), 2)
##
## five_stars four_stars one_star three_stars two_stars Sum
## no-research 4.42 8.29 11.60 34.25 41.44 100.00
## research 23.74 26.94 2.28 32.42 14.61 100.00
round(addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 2)*100, 1), 2)
##
## five_stars four_stars one_star three_stars two_stars
## no-research 13.33 20.27 80.77 46.62 70.09
## research 86.67 79.73 19.23 53.38 29.91
## Sum 100.00 100.00 100.00 100.00 100.00
Perfiles [CPF y CPC]
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"row")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"col")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"row")

plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"col")

plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"row")

plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"col")

Pruebas de Hipótesis
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research)
## X-squared = 0.20268, df = 1, p-value = 0.6526
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
##
## Pearson's Chi-squared test
##
## data: table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating)
## X-squared = 3.0799, df = 4, p-value = 0.5445
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
##
## Pearson's Chi-squared test
##
## data: table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating)
## X-squared = 83.306, df = 4, p-value < 2.2e-16
AC Pareja Única
Contingencias y Residuales [R-UR]
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$observed
##
## five_stars four_stars one_star three_stars two_stars
## no-research 8 15 21 62 75
## research 52 59 5 71 32
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$expected
##
## five_stars four_stars one_star three_stars two_stars
## no-research 27.15 33.485 11.765 60.1825 48.4175
## research 32.85 40.515 14.235 72.8175 58.5825
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals
##
## five_stars four_stars one_star three_stars two_stars
## no-research -3.6752244 -3.1944368 2.6924084 0.2342822 3.8202751
## research 3.3411894 2.9040998 -2.4476999 -0.2129887 -3.4730567
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$stdres
##
## five_stars four_stars one_star three_stars two_stars
## no-research -5.3874386 -4.7821527 3.7630767 0.3875445 6.0325199
## research 5.3874386 4.7821527 -3.7630767 -0.3875445 -6.0325199
Contribuciones [R-UR]
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals^2/chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$statistic*100
##
## five_stars four_stars one_star three_stars two_stars
## no-research 16.21400512 12.24929770 8.70170691 0.06588722 17.51910304
## research 13.40061611 10.12384879 7.19182169 0.05445474 14.47925868
Correspondencia Simple Unidimensional [R-UR]
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$eig
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.2082655 100 100
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$col
## $coord
## [,1]
## five_stars 0.6412335
## four_stars 0.5018644
## one_star -0.7136121
## three_stars -0.0274550
## two_stars -0.4991266
##
## $contrib
## [,1]
## five_stars 29.614621
## four_stars 22.373146
## one_star 15.893529
## three_stars 0.120342
## two_stars 31.998362
##
## $cos2
## [,1]
## five_stars 1
## four_stars 1
## one_star 1
## three_stars 1
## two_stars 1
##
## $inertia
## [1] 0.0616770521 0.0465955553 0.0331007438 0.0002506308 0.0666415622
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$row
## $coord
## no-research research
## -0.5019859 0.4148833
##
## $contrib
## no-research research
## 54.75 45.25
##
## $cos2
## no-research research
## 1 1
##
## $inertia
## [1] 0.11402539 0.09424016
12. Correspondencias Múltiples
Recuperando de nuevo el trabajo de (Díaz Morales &
Morales Rivera, 2012) se dice que el ACS se puede extender
desde tablas de contingencia hacia tablas disyuntivas completas. En
estas las filas son los objetos a los cuales se les registran
características de interés a través de las columnas que compilan las
modalidades de las variables categóricas estudiadas de ellos. Así, el
análisis de correspondencias múltiple (ACM) es el AC aplicado a una
tabla disyuntiva completa. Por lo tanto, en el ACM una variable
categórica asigna a cada objeto de una población una modalidad a través
de la cual los particiona exclusiva y exhaustivamente.
Esta sección es desarrollada como alternativa de completitud del
análisis de correspondencias simples que en la sección
11 fue inapreciable debido a la unidimensionalidad de la
representación de los datos a nivel de proyección de las variables
categóricas que cumplieron la hipótesis de dependencia. Por lo tanto,
del tratamiento conjunto de todas las varaibles categóricas se espera
obtener una representación en el primer plano factorial.
12.1. Planteamiento del Problema
Con base en las variables cualitativas del conjunto de datos descrito
en la sección 2 se demanda desarrollar el análisis
de correspondencias múltiples para lograr una representación gráfica en
el primer plano factorial, debido a la imposibilidad de lograrlo en el
análisis de correspondencias simple.
12.2. Desarrollo del Análisis
La navegación a través de las pestañas permite visualizar objetos
matriciales y gráficos que ayudan a desarrollar e interpretar el
análisis de correspondencias múltiple (ACM) entre las variables
categóricas del conjunto de datos descrito en la sección
2.
La pestaña ACM muestra la multidimensionalidad
esperada, comparada con la unidimensionalidad del ACS de la sección 11, al trabajar conjuntamente con las tres
variables categóricas del conjunto de datos: Gender,
University_Rating y Research. Muestra
además que las dimensiones del plano principal explican el \(42.16\) \(%\) del conjunto (será sobre este plano que
se continuará con las interpretaciones del ACM). Además, la evidente
baja concentración de absorción de varianza por parte de alguna o
algunas dimensiones se reflejará en las distancias entre los perfiles de
las variables categóricas.
En la pestaña Biplot ACM se muestran las semejanzas
de perfiles entre estudiantes representados por puntos azules
sobrepuestos que indican coordenadas de convergencia y las asociaciones
entre algunas categorías de las variables y conjuntos de estudiantes.
Cabe anotar que las semejanzas entre categoría de las variables están
presentadas por sus coordenas respecto de los semiejes dimensionales,
más que por sus proximidades, esto concuerda con los resultados
obtenidos en la sección 11. Por ejemplo, en
semejanza a nivel de categorías de las variables destacan los grupos:
one_stars, two_stars, F y no-research por un lado, por otro, five_stars,
four_stars, M y research, así como ciertos grupos evidentes de
estudiantes. Complementariamente, a nivel de asociación se destaca la
del grupo de estudiantes cercanos a two_stars y la de otro grupo nutrido
cercano a four_stars. En general se pueden visualizar fácilmente las
asociaciones entre las categorías de las variables y los grupos de
estudiantes afines con ellas.
Seguidamente, la pestaña Calidad de Representación
muestra que las categorías de la variable Research
fueron las mejor representadas, en oposición a las categorías one_star y
three_strars de la variable University_Rating. El resto
quedó en un rango intermedio-alto de calidad de representación. Como la
calidad de representación en subespacios de dimensión reducida se mide
en porcentajes de inercia con respecto a la total la cercanía de un
punto al origen del plano factorial indica una baja calidad de
representación en él, por lo tanto, la categoría three_stars la
presenta. La matriz de calidad de representación evidencia numéricamente
la situación mencionada: para ella la suma de los cosenos cuadrados en
las dimensiones del primer plano plano factorial solo ascienden a \(0.09\), seguida de one_star que suma \(0.18\).
Complementariamente, la pestaña Contribuciones
muestra que para las dimensiones del primer plano factorial, y en
concordancia con lo expresado en el párrafo anterior, las categorías de
la variable University_Rating: one_star y three_stars,
en ambas dimensiones quedan por debajop de la línea media de
contribución, mientras que las categorías de la misma variable:
four_stars y five_stars, aportan en ambos casos por enncima de la línea
media. En este sentido, en la pestaña Biplot con
Contribuciones se ´visualiza una representación en el primer
plano factorial semejante a la obtenida en la pestaña calidad de
Representación.
ACM
round(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE)$eig,2)
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.49 24.39 24.39
## dim 2 0.36 17.77 42.16
## dim 3 0.33 16.67 58.83
## dim 4 0.33 16.67 75.50
## dim 5 0.31 15.46 90.95
## dim 6 0.18 9.05 100.00
Biplot ACM
fviz_mca_biplot(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), repel = TRUE)

Calidad de Representación
fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)

MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE)$var$cos2
## Dim 1 Dim 2 Dim 3 Dim 4 Dim 5
## F 0.022900818 0.498308895 2.554960e-29 4.720861e-39 0.47790244
## M 0.022900818 0.498308895 2.787969e-29 1.349092e-31 0.47790244
## no-research 0.716530767 0.008125276 4.802834e-29 2.529855e-31 0.00571241
## research 0.716530767 0.008125276 4.969681e-29 6.103069e-31 0.00571241
## five_stars 0.240330906 0.177277183 3.799446e-01 1.101815e-03 0.10790338
## four_stars 0.213771791 0.265633197 5.310651e-02 1.393417e-01 0.25154509
## one_star 0.128521905 0.053547982 1.386161e-02 6.998290e-01 0.05726901
## three_stars 0.002057811 0.089900789 5.691895e-01 2.649186e-01 0.07335710
## two_stars 0.305912712 0.112570001 3.288337e-01 7.416609e-02 0.06078939
Contribuciones
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 1, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 2, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 3, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 4, top = 15)

fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 5, top = 15)

Biplot con Contribuciones
fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="contrib", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)

Objetivo y Anotaciones :: Fase 4
[Conglomerados]
En términos generales, esta cuarta etapa de estudio mostrará
cálculos, visualizaciones e interpretaciones con base en el conjunto de
datos tratado en las fases 1, 2
y 3, pero ahora desde un enfoque de análisis de
conglomerados en versión jerárquica (dendogramas) y no-jerárquica
(K-medias).
Recuérdese que el conjunto de datos de trabajo está descrito en la sección 2 y los referentes teóricos en la sección 1.
Por último, este trabajo fue procesado con R version 4.2.2
(2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una
plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación
en línea y para cumplir con el requisito temporal de entrega, será
actualizado, como máximo, hasta las 11:59 p.m. del domingo 12 de marzo
de 2023.
13. Agrupación Jerárquica
Según (Díaz Morales & Morales Rivera,
2012), quienes citan el trabajo de Everitt de 1980 titulado
Cluster Analysis, los conglomerados pueden concebirse como regiones
continuas de un espacio que contienen una relativamente alta densidad de
puntos, que a su vez están separadas por regiones (¿continuas?) que
contienen una relativamente baja densidad de puntos. Para conformar
tales regiones de puntos se han propuesto, por ejemplo, métodos
jerárquicos. Estos inician con el cálculo de la matriz de distancias
entre los objetos tratados, con los cuales se conforman grupos por
aglomeración a través de etapas que empiezan por conglomerados unitarios
(el caso trivial inicial, como también el caso trivial final: un
conglomerado total). Entre las opciones restantes se presentan fusiones
y divisiones de grupos que especifican jerarquías por similaridades que
permiten una representación gráfica conocida como dendograma.
13.1. Planteamiento del Problema
Con base en las variables cuantitativas del conjunto de datos
descrito en la sección 2 se demanda desarrollar el
análisis de conglomerados con base agrupaciones jerárquicas que se
representen con dendogramas, esto implica clasificar a los objetos de
trabajo con métodos aglomerativos del vecino más cercano, más lejano y
de la unión mediante el promedio, soportados en la distancia
euclidiana.
13.2. Desarrollo del Análisis
La navegación a través de las pestañas permite visualizar objetos
matriciales y gráficos que ayudan a desarrollar e interpretar el
análisis de conglomerados entre las variables cuantitativas del conjunto
de datos descrito en la sección 2.
Con el fin de visualar adecuadamente los datos, y solo con propósitos
académicos, el conjunto de datos descrito en la sección
2 fue modificado de tres maneras. Primero, se le agregó una variable
categórica clasificadora: Nationality. Esta variable se
obtuvo del
Institute
of International Education (Instituto de Educación Internacional)
para una fecha equivalente a la del conjunto de datos inicial. La
modificación consistió en agregar un campo que registrase para cada
estudante extranjero su nacionalidad. Como las proporciones de
participación de las nacionalidades de los estudiantes fueron
diferentes, pero conocidas, el método de asignación fue aleatorio y
ponderado con base en ellas (véase la pestaña Campo
Clasificador). Cabe mencionar que la asignación se hizo
directamente en el libro de cálculo con base en la fórmula
=INDICE([RANGO_DE_ETIQUETAS];
CONTAR.SI([RANGO_DE_PROPORCIONES_ACUMULADAS]; “<=” & ALEATORIO())
+ 1) para 400 registros. Además, el campo
Nationality registra junto con la nacionalidad del
estudiante la posición que ocupa dicho país como aportante de
estudiantes extranjeros en el periodo de medición. Segundo, se
estandarizaron en una escala de \(0\) a
\(1\) todas las variables
cuantitativas. Por último, se aplicó un filtro a los registros con base
en la variable clasificadora y se calcularon nuevos registros promedio
de las variables cuantitativas. Así, el análisis de conglomerados se
hizo con base en el conjunto de datos mostrado en la pestaña
Conjunto Modificado, esta indica los primeros registros
y la estructura del conjunto.
La pestaña Disimilaridad muestra visualmente los
registros de proximidad entre las categorías de la variable
clasificadora Nationality. Con base en una escala de
colores que indica las distancias entre las observaciones, puede
observarse que valores como: Taiwán, Alemania e Indonesia están
intensamente distantes del resto. También, por ejemplo, en oposición a
los valores mencionados, Tailandia, Malasia y Colombia son menos
disímiles. Así, se esperaría que los valores mencionados se agruparan
entre sí o formaran grupos de jerarquías propias, con distancias de
aglomeración grandes en el paso correspondiente.
Complementariamente, la pestaña Optimización de
Mojena muestra separadamente el número óptimo de conglomerados
jerárquicos que deberían configurarse de tal forma que las heurísticas
usadas entregaran los mejores resultados posibles de intra e inter
similaridad. En este sentido, la estrategia del vecino más cercano
(Unión Simple) establece que ese número es tres, la del
vecino más lejano (unión completa) dicta que también es
tres y la de Unión Promedio muestra que es cuatro, a
cada una de estas cantidades de conglomerados se le asociará su
respectivo dendograma.
Efectivamente, en la pestaña Dendogramas Optimizados
se avalan gráficamente las menciones hechas en el párrafo sobre
Disimilaridad (por ejemplo, la similaridad entre los
valores de Tailandia y Malasia por un lado, y Alemanania y Taiwan por
otro, a conglomerarse), además de verificar con más precisión las
alturas jerárquicas, en particular para el Enlace
Completo y el Enlace Promedio, en estos los
niveles de similitud son fácilmente apreciables y efectivamente
decisorios sobre la cantidad de conglomerados óptimos precalculados. Es
decir, el dendograma de Enlace Simple que se creó con
base en tres conglomerados a un nivel de similitud de aproximadamente
\(2.3\) presenta distancias de
aglomeración cercanas con la horizontal de corte, y en general entre
otros niveles de similitud, esto hace que los conglomerados sean
difícilmente discernibles. Caso contrario ocurre con el Enlace
Completo y el Enlace Promedio en los cuales
las distancias de aglomeración son altas y facilitan la apreciación de
los conglomerados, en el primero, a un nivel de similitud de
aproximadamente \(5.0\) se visualizan
tres conglomerados de 7, 1, y 16 observaciones, contadas de izquierda a
derecha; en el segundo, a un nivel de similitud superior a \(3.5\) se aprecian cuatro conglomerados
conformados por 1, 2, 1 y 20 observaciones, contadas de izquierda a
derecha. En ambos casos, se entiende que si los dendogramas se cortaran
más arriba de los respectivos niveles de similitud indicados, entonces
resultarían menos conglomerados finales, con niveles de similitud mayor;
opuestamente, si fuesen cortados más abajo, entonces los niveles de
similitud serían menores, pero serían obtenidos más conglomerados
finales, de ahí el cálculo del núemro óptimo de conglomerados.
Campo Clasificador
as.data.frame(Nationalities)[1:24,-c(4,5,6)]
## Nationality Ratio Cumulative_Ratio
## 1 1. China 0.353 0.353
## 2 2. India 0.183 0.536
## 3 3. Corea del Sur 0.058 0.594
## 4 4. Arabia Saudita 0.035 0.629
## 5 5. Canadá 0.031 0.660
## 6 6. Vietnam 0.025 0.685
## 7 7. Brasil 0.023 0.708
## 8 8. Taiwán 0.021 0.729
## 9 9. Japón 0.018 0.747
## 10 10. México 0.016 0.763
## 11 11. Nepal 0.014 0.777
## 12 12. Irán 0.013 0.790
## 13 13. Turquía 0.012 0.802
## 14 14. Colombia 0.012 0.814
## 15 15. Nigeria 0.010 0.824
## 16 16. Tailandia 0.009 0.833
## 17 17. Indonesia 0.009 0.842
## 18 18. Francia 0.009 0.851
## 19 19. Malasia 0.008 0.859
## 20 20. Filipinas 0.008 0.867
## 21 21. Pakistán 0.008 0.875
## 22 22. Alemania 0.007 0.882
## 23 23. Reino Unido 0.007 0.889
## 24 24. Otros países 0.111 1.000
Conjunto Modificado
head(as.data.frame(Admission_Dataset_Initial_Nat_Average))
## Nationality Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1 1. China 0.7237676 0.9003521 0.6838028
## 2 10. México 0.7652778 0.9055556 0.7555556
## 3 11. Nepal 0.7500000 0.9145833 0.7750000
## 4 12. Irán 0.6714286 0.8833333 0.6714286
## 5 13. Turquía 0.7875000 0.8976190 0.6714286
## 6 14. Colombia 0.5875000 0.8854167 0.5750000
## Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1 0.6978873 0.8635141 0.7395070
## 2 0.7333333 0.8705556 0.7622222
## 3 0.8500000 0.8907500 0.7550000
## 4 0.7285714 0.8457143 0.7314286
## 5 0.7000000 0.8664286 0.7742857
## 6 0.6500000 0.8435000 0.6975000
str(as.data.frame(Admission_Dataset_Initial_Nat_Average))
## 'data.frame': 24 obs. of 7 variables:
## $ Nationality : chr "1. China" "10. México" "11. Nepal" "12. Irán" ...
## $ Average_GRE_Score_S01 : num 0.724 0.765 0.75 0.671 0.787 ...
## $ Average_TOEFL_Score_S01 : num 0.9 0.906 0.915 0.883 0.898 ...
## $ Average_SOP_S01 : num 0.684 0.756 0.775 0.671 0.671 ...
## $ Average_LOR _S01 : num 0.698 0.733 0.85 0.729 0.7 ...
## $ Average_CGPA_S01 : num 0.864 0.871 0.891 0.846 0.866 ...
## $ Average_Chance_of_Admit _S01: num 0.74 0.762 0.755 0.731 0.774 ...
Disimilaridad
data_ = as.data.frame(Admission_Dataset_Initial_Nat_Average)[, -c(1)]
rownames(data_) = unclass(Admission_Dataset_Initial_Nat_Average$Nationality)
fviz_dist(get_dist(data_, stand = T, method = "euclidean"), gradient = list(low = "#00AFBB", mid = "white", high = "#FC4E07"))

Optimización de Mojena
Unión Simple
hc_single = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "single")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_single)

Unión Completa
hc_complete = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "complete")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_complete)

Unión Promedio
hc_average = hclust(get_dist(data_, stand = T, method = "euclidean"), method = "average")
mojena = function(hc){
n_hd = length(hc$height)
alp_g = 0 ; alpha = hc$height[n_hd:1]
for(i in 1:(n_hd-1)){
alp_g[i] = mean(alpha[(n_hd-i+1):1])+1.25*sd(alpha[(n_hd-i+1):1])
}
nog = sum(alp_g<= alpha[-n_hd]) + 1
plot(alpha[-n_hd], pch=20, col=(alp_g>alpha[-n_hd])+1, main = paste("Optimal number of groups =",nog),
ylab = expression(alpha[g]), xlab="Nodes")}
mojena(hc_average)

Dendogramas Optimizados
Enlace Simple
suppressWarnings(fviz_dend(hc_single, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T))

Enlace Completo
fviz_dend(hc_complete, k = 3, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)

Enlace Promedio
fviz_dend(hc_average, k = 4, cex = 0.5, k_colors = "npg", color_labels_by_k = T, rect = T)

14. Agrupación no-Jerárquica
En el trabajo de (Díaz Morales &
Morales Rivera, 2012) se establece que, en términos
generales, los métodos de aglomeración no-jerárquicos (o de partición)
se implementan con base en la determinación inicial de alguna partición
del conjunto de datos, que, evidentemente, genera subconjuntos de datos,
es decir, otras particiones a las cuales se les calcula sus respectivos
centroides; luego, las observaciones se vinculan con el conglomerado
cuyo centroide esté más cercano para calcular de nuevo el centroide de
los conglomerados y se hacen comparaciones voraces, para continuar
recursivamente hasta que las observaciones sean irremovibles de sus
respectivas particiones. Así, contrario a los métodos jerárquicos, la
ubicación de una observación en un conglomerado puede variar.
El método no-jerárquico con el que se cerrará el estudio del conjunto
de datos con el que se ha trabajado hasta ahora es el de
K-medias. Este particiona un conjunto de \(n\) objetos en \(k\) grupos, lo hace al escoger los
centroides de los grupos que minimizan la distancia (euclidiana) entre
cada objeto y ellos, para asignar, en consecuencia, a cada individuo al
conglomerado cuyo centroide esté más cercano a él. Por lo tanto, el
método tiene como objetivo reubicar a los objetos en grupos tales que
presenten la menor variabilidad posible.
14.1. Planteamiento del Problema
Con base en las variables cuantitativas del conjunto de datos
descrito en la sección 2 se demanda desarrollar el
análisis de conglomerados con base agrupaciones no-jerárquicas a través
del método de las K-medias y la representación gráfica
diferenciada de las agrupaciones con base en códigos de colores.
14.2. Desarrollo del Análisis
La navegación a través de las pestañas permite visualizar objetos
matriciales y gráficos que ayudan a desarrollar e interpretar el
análisis de conglomerados entre las variables cuantitativas del conjunto
de datos descrito en la sección 2.
Como el método de K-medias requiere la especificación del
número de conglomerados que se generarán, resulta indispensable
determinarlo previamente y que además sea el mejor posible. A través de
la pestaña K-óptimos se accede a las sub-pestañas de
resultado de los cálculos de K-óptimos con base en los métodos de codo
(Elbow), silueta (Silhouette), brecha
(Gap) y mayoría (Majority Rule). El
primero, ayudó a establecer que el número óptimo de agrupamientos que
minimizan la variación total dentro de cada uno de los grupos es 3. El
segundo, a través de la calidad de los agrupamientos (una silueta alta),
determinó que el número óptimo de agrupamientos es 2. El tercero, con
base en la estimación de los conglomerados óptimos que hacen que se
maximice la estadística de brecha de tal manera que la estructura de
agrupamiento está muy lejos de una distribución aleatoria uniforme de
puntos, estableció que tal número óptimo fuese 1. Por último, el cuarto
método, que se basa en el cálculo de 30 índices para determinar el
número óptimo de conglomerados al variar todas las combinaciones de
número de conglomerados, medidas de distancia y métodos de conglomerado,
determinó que tal número es 2. Por lo tanto, la continuación del
análisis de conglomerados se continuó con la representación gráfica de
los agrupamientos basados en dos y tres conglomerados. Así, la pestaña
Resultados K-means muestra para números óptimos de 3 y
2 agrupamientos las cantidades de observaciones, las ubicaciones de los
centroides de los conglomerados, el vector de agrupamiento y la medida
de la bondad de la clasificación (cohesión interna contra separación
externa), que, evidentemente es más cercana a uno para el agrupamiento
con base en 3 conglomerados.
Por último, la pestaña Gráficos K-means exhibe los
conglomerados en términos de 3 y 2 (número óptimo) grupos en el primer
plano factorial que explica el \(85.4\)
\(\%\) de la variabilidad de los datos.
Al hacer la reasignación de 3 a 2 centroides se aprecia que el
conglomerado que contiene a Colombia solo absorbe a Malasia, es decir
solo aumenta una observación, en comparación con el conglomerado que
contenía a China que absorbe a todo el conglomerado que contenía a
Turquía. Así, puede argumentarse a favor del número óptimo de
conglomerados igual a 2, porque la reasignación de centroides se
reorientó a mejorar la cohesión interna con baja reducción de separación
externa entre dos conglomerados que presentaban más homogeneidad. Sin
embargo, las comparaciones entre los métodos tratados, jerárquicos y
no-jerárquicos, generaron diferentes cantidades de grupos óptimos, pero
ambos métodos coincidieron en que, en general, Indonesia y Nepal son
casos por tratar con más detenimiento, por ejemplo, a través de métodos
que soporten mejor la afectación que provocan valores extraños, por
ejemplo, el método de K-medioides.
K-óptimos
Elbow
fviz_nbclust(data_, kmeans, method = "wss") + geom_vline(xintercept = 3, linetype = 2)

Silhouette
fviz_nbclust(data_, kmeans, method = "silhouette")

Gap Statistic
fviz_nbclust(data_, kmeans, method = "gap_stat")

Majority Rule
suppressWarnings(NbClust(data = data_, diss = NULL, distance = "euclidean", min.nc = 2, max.nc = 10, method = "kmeans")$Best.nc)

## *** : The Hubert index is a graphical method of determining the number of clusters.
## In the plot of Hubert index, we seek a significant knee that corresponds to a
## significant increase of the value of the measure i.e the significant peak in Hubert
## index second differences plot.
##

## *** : The D index is a graphical method of determining the number of clusters.
## In the plot of D index, we seek a significant knee (the significant peak in Dindex
## second differences plot) that corresponds to a significant increase of the value of
## the measure.
##
## *******************************************************************
## * Among all indices:
## * 9 proposed 2 as the best number of clusters
## * 1 proposed 3 as the best number of clusters
## * 3 proposed 4 as the best number of clusters
## * 1 proposed 5 as the best number of clusters
## * 2 proposed 6 as the best number of clusters
## * 2 proposed 7 as the best number of clusters
## * 6 proposed 10 as the best number of clusters
##
## ***** Conclusion *****
##
## * According to the majority rule, the best number of clusters is 2
##
##
## *******************************************************************
## KL CH Hartigan CCC Scott Marriot TrCovW TraceW
## Number_clusters 7.0000 2.0000 6.0000 2.0000 10.0000 4 5e+00 4.0000
## Value_Index 19.5453 16.2126 4.0447 20.8994 41.2452 0 7e-04 0.0218
## Friedman Rubin Cindex DB Silhouette Duda PseudoT2
## Number_clusters 10.00 7.0000 10.000 10.000 2.0000 2.0000 2.0000
## Value_Index 11400.81 -128.9452 0.042 0.724 0.3989 0.8208 3.2753
## Beale Ratkowsky Ball PtBiserial Frey McClain Dunn
## Number_clusters 2.0000 2.000 3.0000 4.0000 2.0000 2.000 10.0000
## Value_Index 0.7906 0.437 0.0487 0.5674 5.8425 0.366 0.2686
## Hubert SDindex Dindex SDbw
## Number_clusters 0 6.0000 0 10.0000
## Value_Index 0 27.7721 0 0.0927
Resultados K-means
K-óptimo [wws]
set.seed(780728)
print(kmeans(data_, 3, nstart = 25))
## K-means clustering with 3 clusters of sizes 5, 14, 5
##
## Cluster means:
## Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1 0.6057500 0.8748333 0.5880000
## 2 0.6908445 0.8863805 0.6788959
## 3 0.7669444 0.9082429 0.7226190
## Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1 0.5815000 0.8282300 0.6591000
## 2 0.6821275 0.8537663 0.7090436
## 3 0.7166667 0.8844579 0.7872275
##
## Clustering vector:
## 1. China 10. México 11. Nepal 12. Irán
## 2 3 3 2
## 13. Turquía 14. Colombia 15. Nigeria 16. Tailandia
## 3 1 2 1
## 17. Indonesia 18. Francia 19. Malasia 2. India
## 3 2 2 2
## 20. Filipinas 21. Pakistán 22. Alemania 23. Reino Unido
## 2 2 1 1
## 24. Otros países 3. Corea del Sur 4. Arabia Saudita 5. Canadá
## 3 2 2 2
## 6. Vietnam 7. Brasil 8. Taiwán 9. Japón
## 2 2 1 2
##
## Within cluster sum of squares by cluster:
## [1] 0.05248085 0.05772177 0.05814394
## (between_SS / total_SS = 56.5 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
K-óptimo [sil]
set.seed(780728)
print(kmeans(data_, 2, nstart = 25))
## K-means clustering with 2 clusters of sizes 6, 18
##
## Cluster means:
## Average_GRE_Score_S01 Average_TOEFL_Score_S01 Average_SOP_S01
## 1 0.6157292 0.8759028 0.5983333
## 2 0.7133845 0.8927385 0.6926466
## Average_LOR _S01 Average_CGPA_S01 Average_Chance_of_Admit _S01
## 1 0.5887500 0.8301083 0.6596667
## 2 0.6948955 0.8630843 0.7333471
##
## Clustering vector:
## 1. China 10. México 11. Nepal 12. Irán
## 2 2 2 2
## 13. Turquía 14. Colombia 15. Nigeria 16. Tailandia
## 2 1 2 1
## 17. Indonesia 18. Francia 19. Malasia 2. India
## 2 2 1 2
## 20. Filipinas 21. Pakistán 22. Alemania 23. Reino Unido
## 2 2 1 1
## 24. Otros países 3. Corea del Sur 4. Arabia Saudita 5. Canadá
## 2 2 2 2
## 6. Vietnam 7. Brasil 8. Taiwán 9. Japón
## 2 2 1 2
##
## Within cluster sum of squares by cluster:
## [1] 0.06039836 0.16247254
## (between_SS / total_SS = 42.4 %)
##
## Available components:
##
## [1] "cluster" "centers" "totss" "withinss" "tot.withinss"
## [6] "betweenss" "size" "iter" "ifault"
Gráficos K-means
K-óptimo [wws]
fviz_cluster(kmeans(data_, 3, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)

K-óptimo [sil]
fviz_cluster(kmeans(data_, 2, nstart = 25), data = data_, palette = c("#2E9FDF", "#00AFBB", "#E7B800", "#E7B801"), ellipse.type = "euclid", star.plot = TRUE, repel = TRUE, ggtheme = theme_minimal()
)

Conclusiones
Complementariamente a los análisis que fueron expuestos en las
secciones de estudio es importante hacer una mención global sobre el
problema considerado a la luz de lo obtenido.
Como se menciona en el trabajo hecho en el curso Análisis de
Regresión (que puede ser consultado temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL),
las aspiraciones de un estudiante extranjero para ingresar a una
universidad norteamericana se enfrentan a un elevado grado de
competición. Además, se constata, desde la perspectiva de estudio
multivariable, que, por lo menos descriptivamente, una variable
clasificadora categórica como el sexo, resulta muy poco significativa
formar grupos diferenciados entre los estudiantes con aspiraciones de
ingreso, asunto que contrasta con los relatos socio-populistas basados
en falacias ad hominem. El dato, si es fino, siempre será
objetivo.
Complementariamente, todas las pruebas de normalidad multivariante
resultaron negativas, salvo que a nivel univariado la variable
CGPA presentó distribución normal en todas ellas. Así,
el deterioro de las propiedades de independencia lineal juegan a favor
de la síntesis de información a través de la estimación de componentes
principales. Este pudo describir una medida de competitividad
formativa que conjuga, con una retención de \(77.05\) \(\%\) la variabilidad del conjunto de datos,
la naturaleza interpretativa del fenómeno estudiado. Así, cuanto mayor
sea el valor de las variables que registra un estudiante para aplicar a
una plaza en una universidad de su elección, mayor será el estado de
favorabilidad de que el estudiante sea admitido por la universidad de su
preferencia.
Asimismo, el análisis de correspondencias, simple y múltiple, mostró
que las universidades de mejor calificación, en particular, las de tres
y cuatro estrellas tienden a captar a los estudiantes de mejor
medida de competitividad formativa, algo esperado dada
la naturaleza del fenómeno estudiado. Además, la variable categórica
Research juega un papel determinante en la
selectividad, mientras que la varaible Gender es
indeterminante estadísticamente para aumentar las probabilidades de
ingreso de un estudiante a una universidad de su preferencia.
Adicionalmente, el análisis de conglomerados muestró que
efectivamente existían en el conjunto de datos registros
significativamente homogéneos entre sí y a su vez se parados de otros.
En este sentido, los métodos de aglomeración jerárquicos y
no-jerárquicos ayudaron a comprender cómo estaban dispuestos esos grupos
y los valores extraños por reevaluar. Así, es relevante la semejanza de
perfiles de estudiantes que por nacionalidad abarcan el cercano, medio y
lejano oriente al conformar un conglomerado de alta masa, aunque las
nacionalidades de Japón, Indonesia y Nepal tomen distancia de su
centroide, tales que pudiesen conformar jerárquicamente conglomerados
por sí mismos. Por otro lado, el conglomerado al cual pertenece Colombia
podría interpretarse como uno que recoge estudiantes muy comprometidos
con su formación, dado que son reconocidas las diferencias de los
sistemas educativos en vigor en las nacionalidades que lo conforman.
Por último, es importante resaltar el aspecto técnico relacionado con
el procesamiento estadístico hecho en este estudio a nivel de robustez,
eficiencia e integración que R, RStudio y RMarkdown ofrecen al usuario
para que este se pueda enfocar en él sin pasar mayores inconvenientes
con el soporte documental para presentarlo.
Referencias
Aldás, J., & Uriel, E. (2017).
Análisis
multivariante aplicado con R (2nd ed.).
ALFACENTAURO.
Aristizábal R., W. D. (2017).
Análisis
multivariado unidad 1 estadística descriptiva multivariada. In
Fundación Universitaria Los Libertadores.
Cramer, Harald. (1953).
Métodos
matemáticos de estadística (1st ed.).
AGUILAR.
Díaz Morales, L. G., & Morales Rivera, M. A. (2012).
Análisis estadístico de datos
multivariados (1st ed.). UNAL.
Doornik, J. A., & Hansen, H. (2008). An omnibus test for univariate
and multivariate normality.
Oxford Bulletin of Economics and
Statistics.
https://doi.org/10.1111/j.1468-0084.2008.00537.x
Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. C. (1999).
Análisis multivariante (5th ed.).
PRENTICE HALL.
Porras C., J. C. (2016). Comparison test mutivariate normal.
Anales
Científicos.
https://dialnet.unirioja.es/descarga/articulo/6171231.pdf
