Saltar al contenido

Simplifica tus tareas de análisis de datos usando Red Sqirl

Vuelve a la sección de lienzo del organigrama.

  1. Configurar la fuente de un archivo HDFS
  2. Seleccione la suma de dos columnas
  3. Obtener el promedio de una columna
  4. Obtener la suma de una columna cuando se agrupa por otra
  5. Une las dos mesas
  6. Filtrar una tabla con una condición

Para realizar estas tareas, primero debemos cambiar el pie de página. El pie de página de la acción es el pequeño marco en la parte inferior izquierda de la pestaña del organigrama.

Simplifica tus tareas de análisis de datos usando Red Sqirl
Simplifica tus tareas de análisis de datos usando Red Sqirl
  1. Haga clic en el símbolo de información verde.
  2. Una vez que el popup de configuración ha aparecido en la columna de la izquierda, haga clic en «+».
  3. Escriba «extraPig» en la nueva línea vacía.
  4. Haga clic en el símbolo «…».
  5. En la nueva ventana, seleccione redsqirl_pig en el menú desplegable
  6. Haga clic en la casilla de verificación junto a pig_audit, y haga clic en el botón Seleccionar.
  7. Haz clic en OK.
  8. Haz clic en OK.

Deberías ver una nueva pestaña en el pie de página llamada «extraPig» con «Pig Audit» dentro. Para eliminar este nuevo menú, tienes que hacer lo siguiente.

  1. Haga clic en el símbolo de información verde.
  2. Haga clic en la casilla de verificación junto a «extraPig».
  3. Haga clic en el botón Borrar (icono de la papelera) en el encabezado de la tabla.
  4. Haz clic en OK.

Analicemos los datos.

  1. Un análisis siempre comienza con una acción de la fuente, así que vamos a establecer esta acción primero.
  2. En el pie de página de las acciones, arrastra un nuevo icono de la fuente al lienzo.
  1. Ahora sólo tenemos que hacer doble clic en él para configurarlo.
  2. Nombrar la acción «comunicación»
  3. Comente la acción «Configurar los datos del tutorial».
  4. Haz clic en OK.
  5. Ahora veremos una ventana paso a paso.
  6. Seleccione «Sistema de archivos distribuidos Hadoop» como tipo de datos y luego haga clic en siguiente.
  7. Selecciona «TEXT MAP-REDUCE DIRECTORY» como subtipo de datos y haz clic en «next».
  8. A continuación tenemos que elegir el camino, en el que guardamos nuestro archivo.
  9. Haga clic en el botón de búsqueda, y haga clic en el botón de actualización, luego encuentre el archivo de datos del tutorial y luego el archivo de inicio pig_tutorial_data.mrtxt
  10. Haga clic en el botón de radio al lado de pig_tutorial_data.mrtxt. Si no lo encuentras, actualiza la vista haciendo clic en el botón de búsqueda. Haz clic en OK.
  11. Nuestros datos están ahora en la acción de la fuente. En esta etapa, verá los datos correctamente mostrados en la pantalla, el nombre de los campos son «Campo1 Largo, Campo2 Largo…»
  12. En el siguiente paso podemos cambiar el nombre del campo y su tipo haciendo clic en el botón de edición en la parte superior izquierda de la tabla

Cambiemos el nombre de los campos:

  • Copia y pega «número de abonado STRING , Amigo STRING , voz en off INT , offpeak_sms INT , offpeak_mms INT ,voz en off INT,pico_sms INT , pico_mms INT , peso de sna INT , abonado_onnet INT ,amigo_onnet INT» en el campo de valor
  1. Haz clic en OK. Tendrás la confirmación de que el encabezado es correcto.
  2. Haga clic en OK para salir de la ventana de configuración.
  3. Si dejas el cursor del ratón sobre la acción de la fuente podrás ver algunos detalles de la configuración
  4. Guarda el flujo de trabajo entrando en File > Guarda, llámalo pig_tutorial. Por defecto, se guarda en el directorio HDFS de redsqirl-save y el archivo tendrá la extensión $0027.rs$0027. Haga clic en OK para guardar.

¿Cómo vemos los datos modificados?

Ahora podemos ver que los arcos alrededor del icono de la acción de origen han cambiado.

Los arcos alrededor de los iconos, dan información sobre el estado de esa acción.

Para comprobar lo que significan los arcos, sólo tienes que hacer clic en la leyenda de la parte superior izquierda del lienzo. Para ocultar la leyenda, sólo tienes que hacer clic de nuevo.

Recapitulemos:

  • Hemos pasado por la interfaz
  • Hemos copiado nuestros datos en el HDFS
  • Y hemos configurado nuestro archivo de origen y lo hemos configurado

Ahora estamos listos para empezar a procesar los datos.

Establecer una acción de agregación de cerdos (PAA)

El Pig Aggregator es una acción en la que se permite el uso de métodos de agregación al seleccionar columnas como lo haría en una declaración SQL. Estos métodos de agregación son AVG, MAX, SUM, etc. Esta acción se agrupará por los atributos seleccionados o por todos, que es el valor predeterminado si no se selecciona ningún atributo.

En el menú del pie de página de Pig, podemos seleccionar la acción de agregación.

  1. Arrastra un PAA al lienzo.
  2. Crear un vínculo entre la fuente que acaba de ser configurada y el nuevo PAA haciendo clic entre la imagen y el arco de la acción de la fuente y luego haciendo clic en la imagen del agregador de cerdos. (verás una flecha que conecta los dos iconos)
  3. Abre el nuevo icono del agregador de cerdos, nombra el elemento «nl_sum» y haz clic en OK.
  4. Esta primera página nos permite elegir el campo por el cual queremos agregar. En este caso, queremos agregar por «número_de_suscriptor» Seleccione «número_de_suscriptor» y haga clic en «Seleccionar» en el Grupo por interacción.
  5. Haz clic en «Siguiente».
  6. En esta segunda página podemos hacer la operación campo por campo.
  7. Seleccione «copiar» en el menú desplegable de la interacción del generador y haga clic en OK. (También podemos tener una elección más granular de la generación haciendo clic en el botón «Configurar». Cada Pestaña es una opción de configuración diferente).
  8. También podemos ordenar las filas — En la parte superior de la tabla haga clic en el símbolo «+» para añadir una nueva fila a la tabla. Una cosa a tener en cuenta: la casilla de verificación de cada fila sólo se utiliza para ordenar y eliminar, no necesitamos tener cada fila marcada para continuar.
  9. Haga clic en el bolígrafo en el campo Operación de la nueva fila y haga clic en la función «SUM()» y añada los parámetros «communication.offpeak_voice» y «communication.peak_voice». Entre los parámetros agregue un símbolo «+» para que la operación se lea «SUM(communication.offpeak_voice + communication.peak_voice)»
  10. …haga clic en OK.
  11. En el nombre del campo, escriba «total_voz» para la nueva columna, y cambie el tipo a DOBLE.
  12. Haz clic en «Siguiente».
  13. La siguiente página muestra que podemos ordenar los datos. No los clasificaremos ahora, así que haz clic en «Siguiente».
  14. La siguiente página es sobre el filtro y el formato, haga clic en Aceptar para dejar los parámetros predeterminados. (La opción de filtrado es otro editor de texto en el que podemos crear una condición para el filtrado).
  15. Podemos elegir el delimitador de la salida, usemos la coma en el cuadro delimitador. Por defecto, el tipo de salida está comprimido. En Red Sqirl el formato de salida es importante para enlazar una acción con la siguiente, los dos tipos deben ser compatibles.
  16. Si queremos, también podemos optar por hacer una auditoría de la producción.
  17. Haz clic en OK.