Saltar al contenido

Exploración de datos con técnicas cuantitativas mediante el uso de R

El análisis básico consistiría en calcular cálculos sencillos como el recuento, la frecuencia y las proporciones. La función summary() puede utilizarse para realizar esta tarea.

1sumario(dat)

{r}

Exploración de datos con técnicas cuantitativas mediante el uso de R
Exploración de datos con técnicas cuantitativas mediante el uso de R

Salida:

1234567891011121314Estado civil Es_ingresos de grado Préstamo_importe Crédito_puntuación Divorciado:60 No : 84 Min. :32000 Min. : 12200 Malo :163 No :76 Si:116 1er Qu. 56000 Primer cuatrimestre: 61375 Bueno: 37 Sí: 64 Media: 64000 Media: 77250 Media: 62750 Media: 349278 Tercer cuatrimestre: 72000 Tercer cuatrimestre: 144750 Máximo: 88000 Máximo. :6670000 estado_de_aprobación Inversión género edad trabajo_exp No :149 Min. : 6000 Mujer:178 Min. :32.00 Min. : 4.000 Si: 51 1er Qu.: 81945 Hombre : 22 1er Qu.:33.00 1er Qu.: 7. 000 Media: 114800 Media: 34.00 Media: 8.000 Media: 169694 Media: 33.98 Media: 7.844 3er Qu.: 173492 3er Qu.: 34.00 3er Qu.: 9.000 Máximo: 3466580 Máximo: 49.00 Máximo: 11.000

Podemos inferir lo siguiente de la salida anterior:

1: No hay “NA”, o valores perdidos, en ninguna de las variables. Esto confirma que el recuento de observaciones para todas las variables es de 200.

  1. Se muestran las estadísticas resumidas de las variables numéricas. Por ejemplo, la edad de los solicitantes oscila entre 32 y 49 años.
  2. Para las variables cualitativas, se muestra la frecuencia de cada etiqueta en la variable respectiva. Por ejemplo, la tabla de frecuencias de la variable de destino “approval_status” muestra que de 200 solicitantes, se rechazaron 149 solicitudes de préstamo, mientras que el resto fueron aceptadas.

Proporciones

Cuando se trata de una tabla de frecuencias, a menudo es necesario calcular las proporciones. En nuestro caso, podríamos querer calcular las proporciones de una variable categórica, como $0027approval_status$0027. Las líneas de código a continuación crean una tabla de frecuencias y las proporciones de la etiqueta de la variable $0027approval_status$0027.

123table1 = table(dat$approval_status)prop.table(table1)

{r}

Salida:

12 No Sí 0.745 0.255

El resultado muestra que alrededor del 75 por ciento de los solicitantes fueron rechazados, mientras que la tasa de aceptación fue de alrededor del 25 por ciento. Esto puede extenderse también a dos o más variables. Por ejemplo, si queremos analizar el porcentaje de solicitudes aprobadas a través de los puntajes de crédito, eso también es posible.

La primera línea de código de abajo crea la tabla de frecuencias de dos vías, mientras que la segunda línea imprime los porcentajes de las células, lo que significa que la suma total de todas las células será igual a uno. Como era de esperar, la mayoría de los solicitantes con una mala calificación crediticia vieron rechazadas sus solicitudes.

La función prop.table también puede utilizarse para generar porcentajes para filas o columnas. La tercera y cuarta líneas de código que figuran a continuación crean una tabla de proporciones, que da porcentajes de filas y columnas, respectivamente.

1234table2 = table(dat$approval_status, dat$Credit_score)prop.table(table2) prop.table(table2, 1) prop.table(table2, 2)

{r}

Salida:

12345678910111213 Malo Bueno No 0.700 0.045 Si 0.115 0.140 Malo Bueno No 0.93959732 0.06040268 Si 0.45098039 0.54901961 Malo Bueno No 0.8588957 0.2432432 Si 0.1411043 0.7567568