El mercado suele asociar el inicio de los trabajos con Hadoop para gestionar grandes cantidades de datos, un fenómeno que se llamó Big Data. El sistema de almacenamiento Hadoop es utilizado por empresas como Facebook y Yahoo!, grandes consumidores de información, por ese motivo es que nos preguntamos ¿Cuándo usar Hadoop?

Yahoo! no sólo ha sido una de las primeras compañías en implementar la plataforma, adoptada como una red de tecnología de 50.000 nodos. Facebook cuenta con más de 10.000 nodos. En pocas palabras, esto significa que si una empresa tiene que hacer frente a una avalancha de datos, Hadoop le puede salvar la vida.

Arun Murthy, vicepresidente de Apache Hadoop y Apache Software Foundation y el arquitecto de Hortonworks [dedicadas a acelerar la adopción de la plataforma], pinta un cuadro diferente de Hadoop y su uso en la empresa. Para él, el uso de la solución va más allá de lo hasta ahora conocido. Un buen ejemplo de la capacidad de estabilidad Hadoop está en Facebook y Yahoo!. Sin embargo, en general, poco se dice sobre cómo la plataforma puede ayudar a obtener analíticas para ayudar en la toma de decisiones para las empresas que se enfrentan a datos de cualquier tamaño.

Todos los datos son iguales

Hace sólo cinco años, las pequeñas, medianas y grandes empresas encontraron que tenían que preservar y mantener gran cantidad de un conjunto de datos: correos electrónicos, resultados de búsqueda, ventas, inventario, clientes, etc. Y tratar de lidiar con ellos sobre la base de unos sistemas de gestión de bases de datos relacionales (RDBMS, por sus siglas en inglés) era una propuesta costosa.

Con la llegada de todos estos acontecimientos, las organizaciones que trataron de mantener la gestión de datos de forma asequible tuvieron que ir a tomar muestras para crear subconjuntos de datos más pequeños.

La diferencia en la percepción de los datos es enorme. Una vez que los datos se almacenan como están, es posible reducir los costos de operación en el manejo de la información asociada a las actividades de transformación, y las operaciones de carga.

No podemos olvidar, sin embargo, el beneficio que más se habla de Hadoop: reducción de coste. Esto es porque el marco está basado en software de código abierto bajo la licencia Apache, sin tasas de licencia para el software de base. Con lo cual, lo hace muy económico.

¿Qué hay que saber antes de utilizar Hadoop?

A pesar de los beneficios potenciales de la implementación de Hadoop, hay algunas limitaciones que la organización debe tener en cuenta antes de saltar en este universo. En primer lugar, si la empresa genera informes interactivos secundarios de los datos o pretende utilizarlos en transacciones complejas en varias etapas, la solución de RDBMS aún puede ser la mejor apuesta, ya que Hadoop no es particularmente fuerte en estas áreas. Si los datos de su organización son actualizados y modificados por inserción y eliminación, esta es otra razón para no apostar a Hadoop.

Hadoop permite abaratar costes, ya que no requiere un hardware caro o un procesador de alta potencia. Cualquier servidor convencional conectado a la red de Hadoop funciona correctamente. Esto significa que un nodo Hadoop sólo necesita un procesador, una tarjeta y algunos discos duros con un costo total de alrededor de 3.000 dólares, mientras que un sistema RDBMS puede costar entre  8.000 y 11.000 dólares por terabyte. Esta diferencia sustancial hace que Hadoop esté en la boca de muchas empresas.

Otro punto a considerar es el conocimiento técnico necesario para hacer frente a este nuevo mundo. Según los analistas del mercado, la demanda de personal calificado puede aumentar los costos del proyecto. En los Estados Unidos, por ejemplo, la competencia por los ingenieros calificados en Hadoop ha sido tan feroz que dos de los mejores postores de la plataforma (Google y Facebook) entraron en una guerra de ofertas para atraer a los ingenieros.

E independientemente del software que la organización implemente, esta debe estar dispuesta a invertir fuertemente en el equipo de Hadoop. En función de las necesidades y la ubicación, la empresa tendría que invertir entre $ 100.000 y $ 150.000 por año. Pero a pesar de tener que pagar una cantidad extra por el administrador de Hadoop, los beneficios de la tecnología están atrayendo cada vez más las empresas que deciden obtener importantes reducciones de costos a largo plazo. 

El párrafo anterior nos deja claro que las personas que estén aprendiendo esta tecnología en estos momentos se está asegurando un buen futuro, así que si aún no lo hicieron… a estudiar Hadoop! comiencen primero leyendo el artículo ¿Qué es Hadoop? .

 

Si esta entrada fue de tu interés compártela con tus conocidos