Una de las palabras de moda del año pasado ha sido «grandes datos». Muchas organizaciones han estado luchando con la forma de abordarlo, y eso probablemente no cambiará pronto. Trabajar con grandes datos puede ser un desafío debido a la potencia de procesamiento necesaria para manejarlos, y a menudo requiere una solución de gestión de datos completamente diferente. Si has tratado de familiarizarte con los «grandes datos», probablemente te hayas encontrado con algo llamado Apache Hadoop (o más comúnmente llamado simplemente «Hadoop»). Es un marco popular utilizado para procesar grandes cantidades de conjuntos de datos, y algunos de sus mayores puntos fuertes radican en su flexibilidad y rentabilidad. Sin embargo, cada distribución es diferente, por lo que es importante comparar sus opciones antes de decidir cuál va a utilizar.
Existen varias distribuciones disponibles, como las proporcionadas por EMC e Intel, así como las proporcionadas por proveedores de hardware como IBM que son típicamente soluciones «todo en uno» que incluyen hardware. Pero las tres mayores y más prevalentes distribuciones Hadoop que existen hoy en día son Cloudera, MapR y Hortonworks. Si estás ansioso por probar las cosas, todos los vendedores ofrecen versiones gratuitas. Como es de esperar con las versiones gratuitas, cada una tendrá algún nivel de restricción, ya sea basado en la funcionalidad o en el número de nodos que pueden ser añadidos a un clúster. Y si necesita ponerse en marcha muy rápidamente, cada proveedor ofrece imágenes VM con Linux y Hadoop ya instalados.
¿Qué es mejor? Depende completamente de lo que busques. Debido a que Hadoop está licenciado bajo la Licencia Apache, que es una licencia de software libre, estos vendedores proporcionarán automáticamente parches y actualizaciones para el núcleo de la distribución Hadoop, algo de lo que todo el mundo se beneficia. Así que lo mejor es dirigir su atención a cada una de las fortalezas y debilidades basadas en el producto ofrecido y los complementos disponibles desarrollados para su uso.
Aquí hay algunas cosas que hacen que cada uno de los tres principales vendedores se destaquen entre sí:
- Para los tutoriales, prefiero ligeramente Hortonworks por la forma en que se presentan en línea. Ahora, consideren que intenté revisar los tutoriales usando «Hortonworks Sandbox» (basado en 2.0) y tuve problemas para ejecutar algunos de los ejemplos sin que fallaran. Esperemos que no sea un problema generalizado.
- Desde una perspectiva de entrenamiento, Cloudera parece tener el programa de entrenamiento más completo y profesional de los tres. Pero con eso viene un precio mayor – el programa de entrenamiento y exámenes de Cloudera son típicamente los más costosos.
- Una cosa que hace que Hortonworks se destaque bastante es que soporta el sistema operativo Microsoft Windows, mientras que los otros proveedores soportan el sistema operativo Linux. (Microsoft también ha tomado el producto de Hortonworks, y lo ha empaquetado en su propio servicio llamado HDInsight, y puede ser usado tanto para instalaciones Hadoop en las instalaciones, o puede ser ejecutado en el servicio de nubes de Windows Azure).
- Mientras que Cloudera y Hortonworks utilizan la arquitectura de NameNode y DataNode para separar el lugar donde se guardan los metadatos y se procesan los datos, y ambos dependen del HDFS, MapR tiene un enfoque más distribuido para guardar los metadatos en los nodos de procesamiento, y depende de una arquitectura de sistema de archivos distribuida diferente.
- Hadoop 2 fue lanzado recientemente, y si las ofertas de actualización inmediata son importantes para usted, Hortonworks fue el primero en lanzar una distribución completa de Hadoop lista para producción basada en la versión dos. Cloudera tenía características de Hadoop 2 en una versión anterior, pero algunos de los componentes no se consideraron listos para la producción.
Estas son tres compañías que han sido muy fuertes en el último año, y han recibido bastante financiación de capital de riesgo. En este sentido, MapR es aún más interesante porque a finales del año pasado se dio la noticia de que planeaban salir a bolsa, lo que significa que podrían recaudar aún más dinero para sus productos y desarrollo. Este es un momento emocionante ya que los grandes datos se están preparando para despegar realmente, y si el plan de IPO de MapR es algún indicador, este próximo año va a ser muy interesante de observar.