Saltar al contenido

Comenzando con el procesamiento de la corriente con Spark Streaming

Sección Introducción Transcripciones

Resumen del curso

Comenzando con el procesamiento de la corriente con Spark Streaming
Comenzando con el procesamiento de la corriente con Spark Streaming

Hola, me llamo Janani Ravi y estoy muy contenta de conocerte hoy. Tengo una maestría en ingeniería eléctrica de Stanford, y he trabajado en compañías como Microsoft, Google y Flipkart. En Google, fui una de las primeras ingenieras que trabajó en la edición colaborativa en tiempo real en Google Docs, y tengo cuatro patrones para sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. Los sistemas distribuidos tradicionales trabajan en un gran número de archivos, divididos en varias máquinas en un clúster. Los trabajos pueden llevar horas, e incluso días, para ejecutarse. Esta es una limitación importante cuando queremos analizar datos en tiempo real para ver qué es lo que está de moda, o para seguir cosas como las noticias de última hora. Apache Spark es un motor de propósito general para el procesamiento de datos a gran escala, que funciona súper rápido y es muy fácil e intuitivo de usar. Spark tiene un módulo especial de streaming, que se ocupa de los datos en tiempo real. Esto trabaja en una abstracción de flujo discretizado que un flujo es sólo una secuencia de datos en lote. En este curso, aprenderás los matices de tratar con datos de streaming usando las mismas transformaciones y acciones básicas de Spark que funcionan con el procesamiento por lotes. Este curso también muestra cómo puede extender los algoritmos de aprendizaje de la máquina para trabajar con flujos. Este curso le ayudará a comprender los sutiles detalles de cómo el algoritmo de agrupación de k-means de streaming ayuda a encontrar patrones en los datos de streaming. Y para colmo, construirá un proyecto del mundo real tolerante a las fallas, donde podrá conectarse en red con una transmisión en vivo para rastrear los hashtags de tendencias en los tweets.