Saltar al contenido

Ciencia de los datos: Discutiendo

En este curso, que forma parte de nuestro Programa de Certificación Profesional en Ciencias de la Información, cubrimos varios pasos estándar del proceso de discusión de datos, como la importación de datos a R, la ordenación de datos, el procesamiento de cadenas, el análisis sintáctico de HTML, el trabajo con fechas y horas, y la minería de textos. Rara vez son necesarios todos estos pasos de discusión en un solo análisis, pero un científico de datos probablemente los enfrentará en algún momento.

Muy raramente se puede acceder fácilmente a los datos en un proyecto de ciencia de datos. Es más probable que los datos estén en un archivo, una base de datos o extraídos de documentos como páginas web, tweets o PDFs. En estos casos, el primer paso es importar los datos a R y ordenar los datos, usando el paquete de ordenamiento. Los pasos que convierten los datos de su forma cruda a la forma ordenada se llaman “data wrangling”.

Ciencia de los datos: Discutiendo
Ciencia de los datos: Discutiendo

Este proceso es un paso crítico para cualquier científico de datos. Saber cómo manejar y limpiar los datos le permitirá obtener conocimientos críticos que de otra manera estarían ocultos.