Saltar al contenido

Ciencia de los datos para principiantes

Wikipedia define la ciencia de los datos como un campo centrado en la extracción de conocimientos y percepciones de los datos mediante el uso de métodos científicos. Es un campo interdisciplinario que permite obtener conocimiento a partir de datos estructurados o no estructurados. La ciencia de los datos no es una sola esfera, sino más bien la combinación de más de una corriente centrada en el análisis de datos. Inicialmente, estas tareas fueron manejadas por matemáticos o estadísticos. Con el tiempo, los expertos comenzaron a utilizar el aprendizaje automático, el aprendizaje profundo y la inteligencia artificial, lo que añadió la optimización y la informática como método para analizar los datos.

Inteligencia artificial , aprendizaje automático , aprendizaje profundo , y ciencia de los datos – sin duda, estos significativos términos se encuentran entre los más utilizados hoy en día, y debemos entender la diferencia entre estos reinos.

Ciencia de los datos para principiantes
Ciencia de los datos para principiantes

Inteligencia Artificial (IA)

La inteligencia artificial se centra en la creación de máquinas inteligentes que actúan o resuelven problemas como los humanos. En 1936, Alan Turing construyó la primera máquina impulsada por la IA, pero a medida que la tecnología avanzaba, los puntos de referencia anteriores que definían la IA se volvieron obsoletos. Por ejemplo, hoy en día, ya no se considera que las máquinas que calculan funciones esenciales o reconocen texto mediante reconocimiento óptico de caracteres incorporen la IA.

Aprendizaje automático (ML)

El aprendizaje por máquina es el ámbito en el que trabajamos en la estadística y los algoritmos matemáticos. Es el campo de estudio que da a las computadoras la capacidad de aprender sin usar instrucciones explícitas. Se ve como un subconjunto de la IA. Los algoritmos ML construyen modelos matemáticos en la memoria del ordenador, y estos modelos matemáticos encuentran patrones en datos dados, llamados datos de entrenamiento . Luego hacen predicciones o decisiones sobre datos no vistos, llamados datos de prueba , sin ser programados explícitamente.

El aprendizaje por máquina tiene diferentes tipos de algoritmos. Nadie puede decir qué algoritmo usar sin mirar los datos y saber el problema que se va a resolver. Menciono los algoritmos más comunes, que tienen un comportamiento versátil hacia los datos.

Aprendizaje supervisado

El aprendizaje supervisado es la forma más avanzada de aprendizaje por máquina. Es el tipo de aprendizaje en el que entrenamos un modelo utilizando datos bien etiquetados que significan que la respuesta correcta está etiquetada en el conjunto de datos de entrenamiento, proporcionando, como su nombre indica, un supervisor como profesor. Una vez que el modelo se entrena a partir de los datos bien etiquetados, se aplica a un nuevo conjunto de datos, datos de prueba , para predecir los resultados.

El aprendizaje supervisado implica dos categorías de algoritmos:

  • Clasificación: La variable de salida es una categoría, como un «Hombre» o «Mujer», «Adulto» o «Niño»
  • Regresión: la variable de salida es un valor real como el peso, la altura, etc…

Aprendizaje no supervisado

Como su nombre indica, no hay supervisión en el aprendizaje no supervisado , lo que significa que un modelo se entrena con datos que no están clasificados ni etiquetados. El aprendizaje no supervisado permite a un modelo actuar sobre la información sin ninguna orientación. En este caso, la tarea de un modelo es encontrar patrones en los datos de entrada y combinar los datos que son similares.

El aprendizaje no supervisado implica dos categorías de algoritmos:

  • Agrupación: Agrupa los datos en varios grupos basados en múltiples factores, como la agrupación de los consumidores por edad.
  • Asociación: Utiliza varias reglas para describir una gran parte de la entrada de datos; por ejemplo, si un consumidor compra una cosa X, entonces también tiende a comprar una cosa Y.

Aprendizaje de refuerzo (RL)

El aprendizaje de refuerzo consiste en tomar medidas para maximizar los resultados de una condición particular. Se conecta con varios programas y máquinas para encontrar el mejor comportamiento o camino posible para una situación específica. El RL es muy diferente del aprendizaje supervisado porque en el aprendizaje supervisado, un modelo se entrena con las respuestas correctas, pero en el RL, no se utilizan los datos etiquetados. El medio o agente de refuerzo decide qué hacer para realizar una tarea determinada. En RL, una computadora o máquina aprende de la experiencia.

El mejor ejemplo de RL es una computadora que aprende a jugar un videojuego en el que el usuario obtiene recompensas por pasar etapas sucesivas.

Aprendizaje profundo

El aprendizaje profundo es una rama del aprendizaje de la máquina basada enteramente en redes neuronales artificiales , y la idea es imitar los axones, neuronas, dendritas, etc. del cerebro humano. Las redes neuronales multicapa se crean en áreas donde se necesita un análisis más avanzado o rápido. El aprendizaje profundo encuentra patrones intrincados y ocultos en varios tipos de datos, como imágenes, textos, documentos, vídeos, etc.