Saltar al contenido

Diseñando grandes soluciones de datos con Google Dataproc

Sección Introducción Transcripciones

Resumen del curso

Diseñando grandes soluciones de datos con Google Dataproc
Diseñando grandes soluciones de datos con Google Dataproc

Hola. Me llamo Janani Ravi, y bienvenidos a este curso de Arquitectura de Grandes Soluciones de Datos Usando Google Dataproc. Un poco sobre mí. Tengo un máster en ingeniería eléctrica de Stanford y he trabajado en empresas como Microsoft, Google y Flipkart. En Google, fui uno de los primeros ingenieros en trabajar en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patentes por sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. En este curso, aprenderás a trabajar con Hadoop administrado en la nube de Google y las mejores prácticas a seguir para migrar tus trabajos en las instalaciones a los clusters de Dataproc. Estudiaremos con cierta profundidad cómo la separación del almacenamiento y la computación le permite utilizar los clústeres de manera más eficiente sólo para procesar los datos y no para el almacenamiento. Empezaremos creando un clúster de Dataproc y configurando reglas de cortafuegos que nos permitan acceder a la interfaz de usuario del administrador del clúster para nuestra máquina local. Ejecutaremos trabajos de reducción de mapas en la nube usando la consola web, así como la línea de comandos. Añadiremos capacidad de computación adicional a nuestro clúster usando VMs preferenciales y monitorearemos nuestro clúster usando Stackdriver. Luego estudiaremos cómo podemos usar el motor de análisis distribuido Spark en nuestro clúster Dataproc. Trabajaremos con el shell PySpark en nuestro clúster, así como enviaremos trabajos de Spark usando la consola web. También veremos cómo podemos escribir código para integrar nuestros Spark jobs para BigQuery y cubos de almacenamiento en la nube usando conectores. Luego usaremos nuestro clúster Dataproc para realizar operaciones de extracción, transformación y carga usando Pig como lenguaje de scripting y trabajar con tablas Hive. Al final de este curso, deberías sentirte cómodo trabajando con la oferta de Hadoop gestionada por Google y tener una idea sólida de cómo migrar trabajos y datos de tu clúster Hadoop en las instalaciones a la Nube de Google.