Saltar al contenido

Comenzando con la Colmena para los desarrolladores de bases de datos relacionales

Sección Introducción Transcripciones

Resumen del curso

Comenzando con la Colmena para los desarrolladores de bases de datos relacionales
Comenzando con la Colmena para los desarrolladores de bases de datos relacionales

Hola, me llamo Janani Ravi y bienvenidos a este curso de introducción a la colmena. Permítanme presentarme primero. Tengo una maestría en ingeniería eléctrica de Stanford y he trabajado con compañías como Microsoft, Google y Flipkart. En Google fui uno de los primeros ingenieros que trabajó en la edición colaborativa en tiempo real en Google Docs y tengo cuatro patentes de sus tecnologías subyacentes. Actualmente trabajo en mi propia empresa, Loonycorn, un estudio de contenido de video de alta calidad. Tradicionalmente las piezas se utilizan para el procesamiento transaccional. Esto implica el acceso y la actualización de los registros individuales en tiempo real. Las actualizaciones tienen que reflejarse en la base de datos de inmediato y las actualizaciones tienen que hacerse de una manera que cumpla con el ACID. El procesamiento analítico, por otra parte, implica enormes conjuntos de datos, resumiendo y extrayendo información de estos datos y calculando marcos. El procesamiento analítico se suele llevar a cabo utilizando un almacén de datos. La colmena es un almacén de datos de código abierto que funciona en la parte superior del Hadoop. Hadoop es probablemente familiar para todos ustedes, un marco de computación distribuido muy utilizado. Este curso se centra en las similitudes y diferencias entre SQL y Hive, con énfasis en la comprensión de lo que ocurre entre bastidores cuando se ejecuta una consulta Hive. Este curso hace que el usuario sea consciente de varios “gotchas” involucrados al usar construcciones SQL familiares en el Hive. Carga y análisis de datos de archivos, vistas, subconsultas, y algunas funcionalidades interesantes incorporadas, como las funciones de generación de tablas. Todo esto está cubierto. Este curso también demuestra las limitaciones impuestas por las elecciones de arquitectura del Hive, como el esquema de lectura, el almacenamiento desormalizado en HDFS, la alta latencia de las operaciones, etc. Esto sirve como guía para las elecciones que hace un usuario cuando almacena y consulta datos.