Saltar al contenido

Interpretación de los datos mediante estadísticas descriptivas con R

El modo representa el valor más frecuente de una variable en los datos y es la única medida de tendencia central que puede utilizarse con variables tanto numéricas como categóricas.

Para encontrar el modo en R, necesitamos convertir las cinco variables “chr” en la variable “factor”. Estas cinco variables son $0027Estado_marital$0027, $0027Is_graduado$0027, $0027Puntuación_crédito$0027, $0027estado_de_aprobación$0027 y $0027Sexo$0027.

Interpretación de los datos mediante estadísticas descriptivas con R
Interpretación de los datos mediante estadísticas descriptivas con R

La primera línea de código que aparece a continuación crea una lista de columnas que contienen las variables anteriores en el conjunto de datos. La segunda línea utiliza la función lapply para convertir estas variables, almacenadas en $0027nombres$0027, en las variables factoriales. La tercera línea proporciona la información sobre los datos.

12345 nombres <- c(1,2,5,6,8)dat[,nombres] <- lapply(dat[,nombres] , factor)glimpse(dat)

{r}

Salida:

123456789101112Observaciones: 600Variables: 9$ Marital_status <fct.; Sí, Sí, No, Sí, Sí, Sí, Sí, No, No,... ...$ Ingresos... 306800, 702100, 558800, 534500, 468000, 412700... $ Importe_de_préstamo... 43500, 104000, 66500, 64500, 135000, 63000, 55... $ Puntuación_de_crédito <fct.; Satisfactorio, Satisfactorio, Sati...$ estado_de_aprobación <fct.; Sí, Sí, Sí, Sí, Sí, Sí, Sí, Y... $ Edad <int.; 76, 75, 75, 75, 75, 75, 75, 75, 74, 74...$ Sexo <fct.; M, M, M, M, M, M, F, M, F, M, M, F, F, F, M...$ Inversión <int.; 199420, 456365, 363220, 347425, 304200, 268255...

La salida muestra que las cinco variables se han convertido en las variables “factoriales”. Ahora, podemos imprimir la frecuencia de cada variable con la línea de código de abajo.

1sumario(dat[,c(1,2,5,6,8)])

{r}

Salida:

1234Estado_marital Es_estado_de_acreditación_de_crédito Sexo No :209 No :130 No _satisfactorio:128 No :190 F:111 Si:391 Si:470 Satisfactorio :472 Si:410 M:489

El modo para la variable “Marital_status” es la etiqueta “Yes” que significa que la mayoría de los solicitantes estaban casados. Del mismo modo, el modo para la variable “Sexo” es la etiqueta “M”, que indica que la mayoría de los solicitantes eran hombres.

También es posible calcular el modo de una variable en los datos, como se muestra en la línea de código siguiente.

12table(dat$Credit_score)

{r}

Salida:

123No _satisfactorio Satisfactorio 128 472

Medidas de dispersión

La medida en que una distribución se estira o se aprieta se mide por la dispersión, también conocida como variabilidad, dispersión o propagación. Las medidas más populares de dispersión son la desviación estándar, la varianza y el rango intercuartílico.