Saltar al contenido

Análisis predictivo de datos con Red Sqirl Tuotorial

Nuestro objetivo es predecir si un banco clasificará a una persona como «buena» (puntuación = 1) o «mala» (puntuación = 2) usando sus datos. Nuestra predicción nos ayudará a determinar si deben recibir un préstamo.

Los datos utilizados en el modelo están relacionados con la demografía, el objetivo del crédito, el historial, el estado de las cuentas y muchos otros barómetros que permiten a los responsables de la toma de decisiones en el banco conceder o denegar el crédito.

Análisis predictivo de datos con Red Sqirl Tuotorial
Análisis predictivo de datos con Red Sqirl Tuotorial

Más información sobre el conjunto de datos se puede encontrar en este archivo de la UCI (https://archive.ics.uci.edu/ml/datasets/Statlog+(Alemán+Crédito+Datos). (Si el enlace no funciona, simplemente introduzca «Datos de crédito de la UCI alemana» en Google.)

Usaremos los datos con variables categóricas tituladas german.data. Puedes simplemente descargar los datos y seguir adelante.

Antes de empezar en Red Sqirl, necesitamos añadir una columna extra a los datos con CustId. Añadimos una cadena que comienza con GD001.

Empieza a construir el modelo

Para empezar, crea una carpeta german_credit.mrtxt en tu sistema de archivos Hadoop. Luego descargue los datos como un archivo .txt y colóquelos en la carpeta german_credit.mrtxt.

  1. En la página de inicio de Red Sqirl, crea un nuevo lienzo haciendo clic en el símbolo más en la barra de pestañas del lienzo.
  2. Arrastra una Fuente de Texto Cerdo del pie de página al lienzo, haz doble clic en ella y llámala «crédito».
  3. Seleccione la ruta «german_credit.mrtxt».
  4. Abra la ventana del encabezado, copie y pegue el encabezado en el campo «Cambiar encabezado»: «CustId STRING», «Status CATEGORY», «Duration INT», «CreditHist CATEGORY», «Purpose CATEGORY», «Amount FLOAT», «SavingAccount CATEGORY», «Employment CATEGORY», «InstalmentRate INT», «Personal CATEGORY», «Debtors CATEGORY», Residencia INT, categoría de propiedad, edad INT, categoría de otros ingresos, categoría de vivienda, número existente INT, categoría de trabajo, mantenimiento de crédito INT, categoría de teléfono, categoría de trabajador extranjero, categoría de costo»
  5. Haz clic en ok.

Dejando el cursor del ratón en la acción de origen podrás ver algunos detalles de la configuración.

A continuación, suelta un nuevo icono de acción de Pig Select en el lienzo.

  1. Crear un enlace de «crédito» a la nueva acción de Selección de Cerdo.
  2. Haz doble clic en la nueva acción de Pig Select para abrirla.
  3. Nombra la acción «prep», haz doble clic para configurarla. Ahora verás las páginas de configuración de esta acción.
  4. En la primera página sólo tienes que hacer clic en copiar para obtener todos los datos.
  5. Añade una nueva línea haciendo clic en el signo más en la esquina superior de la ventana y escribe la función RANDOM() y dale un nombre «Mezcla» y escribe Doble.
  6. También puedes usar el símbolo de la pluma pequeña para abrir el editor y elegir utilis —–; RANDOM().
  7. Haz clic en «Siguiente».
  8. Haz clic en «Siguiente».
  9. Haz clic en OK.

Ahora salvaremos nuestro modelo. Ve a Archivo -> Guardar como -> llámalo «nuestro modelo» -> haz clic en OK.

Luego suelta otro icono de acción de Pig Select en el lienzo.

  1. Crear un enlace desde «prep» a la nueva acción de Pig Select.
  2. Haz doble clic para abrir esta nueva acción.
  3. Y llama a esta nueva acción «entrenamiento».
  4. En la primera página, haga clic en copiar.
  5. Desmarque las casillas haciendo clic en la casilla debajo del icono de la papelera. Seleccione sólo el campo «Mezcla». Elimínalo haciendo clic en el icono de la papelera.
  6. Haz clic en «Siguiente».
  7. Haz clic en «Siguiente».
  8. En la ventana de condiciones agregue la fórmula «Mezclar = 0.3» para obtener el 70% de sus datos como un conjunto de entrenamiento.
  9. Desplácese hacia abajo en la misma página y cambie el tipo de salida a «Mapa de texto – reducir directorio».
  10. Haz clic en OK.

Ahora suelta otro icono de acción de Pig Select en el lienzo.

  1. Crear un enlace desde «prep» a la nueva acción de Pig Select.
  2. Haz doble clic para abrir esta nueva acción.
  3. Y llama a esta nueva acción «predicción».
  4. En la primera página sólo tienes que hacer clic en copiar.
  5. Desmarque las casillas haciendo clic en la casilla debajo del icono de la papelera y seleccione sólo el archivo «Mezcla» y elimínelo haciendo clic en el icono de la papelera.
  6. Haz clic en «Siguiente».
  7. Haz clic en «Siguiente».
  8. En la ventana de condiciones agregue una fórmula de «Mezcla de < 0.3» para obtener el 30% de sus datos como el conjunto de la predicción.
  9. Desplácese hacia abajo en la misma página y cambie el tipo de salida a «Mapa de texto – reducir directorio».
  10. Haz clic en OK.
  11. Selecciona tanto el entrenamiento como la predicción, ve a Editar ——-; Estado de salida ——-; Buffered.

Estamos cambiando el tipo de salida a «buffered» para ver resultados intermedios aquí. Los arcos cambiarán de color a azul.

Una forma alternativa de crear conjuntos de datos de entrenamiento y predicción

También puedes usar el Cerdo de muestra para crear conjuntos de datos de entrenamiento y predicción en lugar de crear la acción «preparar» con RANDOM() y seguir la acción Pig Select.

  1. Crear un enlace desde la fuente «crédito» a la nueva acción de la Muestra de Cerdo.
  2. Haz doble clic en la nueva acción de Pig Select para abrirla.
  3. Nombra la acción «entrenamiento». Haga doble clic para configurarlo.
  4. Establezca el tamaño de la muestra de entrenamiento en 0,7.
  5. Haz clic en «Siguiente».
  6. Cambie el tipo de salida a «Mapa de texto – reducir directorio».
  7. Haz clic en OK.
  8. Arrastre un segundo Cerdo de Muestra sobre el lienzo y haga los pasos del 2 al 7 con el nombre «predicción» y el tamaño de la muestra 0.3.

Puede vincular estas acciones al Árbol de Decisión de la Chispa como se describe en el siguiente paso.

Dejando caer un árbol de decisiones en el lienzo

  1. Crear un enlace de «entrenamiento» y otro de «predicción» al nuevo icono de acción del Árbol de Decisión de la Chispa.
  2. Haz doble clic en él para abrirlo.
  3. Nombra la acción «spark_dt».
  4. En la primera página de configuración, elija ID como «CustId» y «Cost» como objetivo.
  5. Haz clic en «Siguiente».
  6. Ponga 10 como máxima profundidad de árbol en la página de Predicción de Algoritmos y Ajustes.
  7. Si está usando Spark, cambie la partición a 1.
  8. Haz clic en OK.

Suelta un Cerdo Únete a la Acción en el lienzo

  1. Crear un enlace de «predicción» a la acción de unión del nuevo cerdo.
  2. Crear un enlace de «spark_dt» a la acción de unión del nuevo cerdo.
  3. Haz doble clic en el Pig Join y llámalo «model_outp».
  4. La primera página de configuración de la acción Pig Join le mostrará una lista de las tablas y alias. Haz clic en siguiente.
  5. En la siguiente página, sólo añada 3 nuevas líneas haciendo clic en +:
  6. «Clasificado» es el campo con la etiqueta de la clase ya dada en el conjunto de datos de crédito alemán y «Previsto» es nuestra nueva clase prevista del modelo de árbol de decisión que ejecutaremos.
  7. Haga clic en OK y en Siguiente.
  8. La siguiente página tiene dos interacciones que especifican el tipo de unión y los campos en los que se debe unir.
  9. Usaremos el tipo de unión por defecto que es «Unión».
  10. En la columna de «Campo de unión», abra el editor haciendo clic en el bolígrafo y eligiendo «predicción». CustId» para la tabla de predicción y «sparkdt.label» para la tabla spark_dt especificada en Relation. Esta condición unirá estas dos tablas.
  11. Haga clic en siguiente, siguiente y OK.