En esta ocasión nos focalizaremos en los 3 gigantes de la industria del software empresarial que son SAP, Oracle e IBM con sus herramientas SAP HANA, Oracle Exadata e IBM BLU acceleration.

Su organización cuenta con volúmenes sobre volúmenes de datos estructurados y no estructurados. Hay un gran valor de negocio en los datos: la información que puede permitirle a su empresa aprovechar las nuevas oportunidades o responder más rápidamente a las amenazas de la competencia, la información que puede conducir a un mejor servicio al cliente y una mejor gestión del riesgo , o la capacidad de detectar las nuevas tendencias , información que puede permitir a su empresa obtener nuevos conocimientos. Pero la gran pregunta es cómo recabar mejor esta sabiduría de su base de datos de Big Data ?

Para encontrar “las perlas” de sabiduría dentro de una base de datos Big Data , las empresas deben:

1 . encontrar maneras de reducir el tamaño de la base de datos a un tamaño manejable ;

2 . utilizar herramientas de análisis eficaces y,

3 . seleccionar un entorno de computación diseñado para procesar grandes bases de datos .

Oracle , SAP e IBM hacen software analítico diseñado para procesar bases de datos Big Data . Oracle e IBM también hacen sistemas e integran su software en estos sistemas. SAP despliega en hardware. Hay algunas similitudes en el enfoque de cada proveedor , pero también hay varias diferencias que son muy claras :

 

Oracle RAC

logo de Oracle (RAC – Real App Cluster)

 

El enfoque de Oracle implica el uso de un clúster de aplicación real de Oracle (RAC) especialmente adaptado para procesar grandes cantidades de datos . Según el sitio web de Oracle, este sistema ( Exadata Database Machine de Oracle ) combina memoria masiva y discos de bajo costo para ofrecer el más alto rendimiento y la escalabilidad petabyte al menor costo .

 

Larry+Ellison+Addresses+Oracle+OpenWorld+Conference+6lzAlyAyB4kl

Larry Ellison CEO de Oracle, anuncia el servidor Oracle Exadata Storage y HP Oracle Database Machine, durante su discurso de apertura en el 2008Conferencia Oracle Open World 24 de septiembre 2008 en San Francisco, California. 

 

SAP HANAHANA de SAP pone grandes cantidades de columnas de datos en la memoria principal donde toda la base de datos puede ser analizada en tiempo real. HANA también comprime los datos tanto como 20X antes del análisis. De acuerdo con el sitio Web de SAP HANA converge la base de datos y las capacidades de la plataforma de aplicaciones en memoria para transformar las transacciones, analytics, análisis de textos , procesamiento predictivo y de espacio para que las empresas puedan operar en tiempo real. Este enfoque en tiempo real en memoria es claramente diferente de la memoria caché y los enfoques basados ​​en disco utilizado por Oracle y IBM .

IBM ofrece varios sistemas diferentes diseñados y afinados para funcionar con tipos específicos de cargas de trabajo de Analytics, incluyendo IBM System PureData para Analytics, Sistema PureData para la operación – Analytics, Sistema PureData para Hadoop , y el Sistema de Transacciones PureData . Este enfoque es claramente diferente de los enfoques de un planteamiento único utilizado por Oracle y SAP.

IBM también ofrece un entorno acelerador conocido como BLU Acceleration que reduce el tamaño de una base de datos Big Data, la velocidad al leer archivos comprimidos , y ofrece resultados exponencialmente mucho más rápidos que sus competidores cuando se ejecutan varias cargas de trabajo de análisis.

Cada enfoque permite a las empresas analizar grandes volúmenes de Big Data. Pero cada enfoque es claramente diferente – produciendo diferentes resultados de rendimiento en función del tipo de carga de trabajo que se está ejecutando.

 

Oracle’s Exadata – An Out-of -the -Box Performance Rocket

Las empresas que se han comprometido de manera estratégica para ejecutar Oracle aman Exadata Database Machine. Este entorno ha sido afinado y optimizado por expertos de Oracle para ejecutar bases de datos Oracle a una velocidad que la mayoría de los clientes, a pesar de sus mejores esfuerzos, no pueden alcanzar.

En el lado negativo , este diseño utiliza un enfoque basado en la fila (row-based) para el procesamiento de base de datos (comparado con el enfoque columnar de SAP y el enfoque de fila / columna de IBM ) . En cuanto a la reducción del tamaño de la base de datos, los algoritmos de compresión de Oracle no parecen ser tan eficaces como los de IBM, lo que significa que Oracle requiere más (caro) espacio en disco para almacenar los datos. Exadata de Oracle no es un entorno de base de datos en memoria (in-memory), como HANA de SAP, así que algo de la información que los procesos de Exadata necesita ser movida dentro y fuera del almacenamiento de estado mecánico y / o sólido ( la entrada / salida al almacenamiento en caché es más lento que la lectura y escritura de datos en la memoria principal) . Finalmente, Oracle no diseñó su servidor Exadata para explotar SIMD (single instruction, multiple data) de procesamiento , una extensión del procesador que permite la carga de trabajo en paralelo para ejecutar rápidamente. Por el contrario, el enfoque de Aceleración BLU de IBM aprovecha SIMD y logra un mayor rendimiento durante varias cargas de trabajo.

El resultado final cuando se utiliza Exadata es que puede procesar grandes cantidades de datos – pero su diseño difiere de SAP HANA in-memory o IBM, compresión y velocidad de lectura de archivos comprimidos in-memory y enfoques de Aceleración BLU – y puede no producir los resultados de rendimiento equivalentes en las cargas de trabajo similares. Para las empresas que se han comprometido de manera estratégica para la base de datos de Oracle, sin embargo, Exadata ha sido optimizado para procesar Oracle Big Data da- tabases y logra buenos resultados.

 

 

SAP’s HANA: In -memory Real -time Big Data Processing

El punto de diseño para el entorno HANA de SAP se basa en la colocación de todos los datos para ser analizados de forma rápida en la memoria principal donde se puede analizar en tiempo real. El énfasis en el diseño HANA es la convergencia de procesamiento analítico en línea (OLAP ) y el procesamiento de transacciones en línea (OLTP ) en columnas con el fin de eliminar la latencia ( lee / escribe en el disco) y por lo tanto acelerar la toma de decisiones en tiempo real. La ventaja del diseño en el uso de un almacén de datos en memoria es que la latencia de la memoria caché / disco es eliminado, y las actividades de OLAP y OLTP puede tener lugar de forma paralela en tiempo real. Por el contrario, IBM’s DB2 Acceleration tendría que tener acceso a tablas basadas ​​en filas almacenadas en el disco para realizar ciertas consultas operativas –  mientras que los datos de tendencias e históricos probablemente residen en memoria ( tener que ir a dos lugares diferentes con el fin de reunir datos podrían hacer que BLU sea menos adecuado para el análisis en tiempo real en comparación con el uso de la memoria principal exclusivamente ) .

Como se señaló anteriormente, HANA se ejecuta en los productos básicos de hardware (es decir, los servidores basados ​​en x86 ) .

Los tres proveedores preparan sus softwares para plataformas subyacentes – pero es de notar que el rendimiento de HANA varía dependiendo del sistema en el que se despliega. Por ejemplo, las soluciones IBM’s System x X5 ofrecen los mejores resultados de rendimiento HANA – que puede ser la razón por la cual SAP utiliza sistemas X5 como  arquitectura de referencia HANA .

Las grandes preguntas que deben ser respondidas con respecto a cómo HANA maneja grandes bases de datos in-memory son ” cuántos usuarios simultáneos pueden ser soportados ” y ”  ¿cómo funciona el rendimiento del sistema a medida que aumenta la complejidad de las consultas?” El propio SAP HANA Memory Usage guide indirectamente plantea estas preguntas cuando afirma que ” la cantidad de memoria adicional dependerá del tamaño de las tablas (tablas más grandes crearán grandes resultados en tablas intermedias en las operaciones como joins) , pero aún más en la carga de trabajo que se espera en términos de la concurrencia y la complejidad de las consultas analíticas ( cada consulta concurrente necesita su propio espacio de trabajo ). ” Esto podría significar que a medida que aumenta la complejidad de la consulta, el rendimiento será más lento – y , debido a que cada consulta necesita su propio espacio de trabajo , puede ser necesario disminuir el número de cargas de trabajo simultáneas al manipular consultas complejas o muchos usuarios.

Sin embargo , las empresas que tienen que converger OLAP y OLTP en uno entorno común para la toma de decisiones en tiempo real probablemente se beneficiarían al adoptar el enfoque HANA .

IBM BLU Acceleration: Optimización de DB2 y Balanced System Performance

DB2 de IBM con BLU Acceleration está diseñado para utilizar el procesamiento columnar en memoria junto con el movimiento dinámico de los datos no utilizados a / desde el almacenamiento, según sea necesario. DB2 ha tenido durante mucho tiempo una ventaja de compresión frente a otros grandes competidores de bases de datos. – pero además de la eficiencia en la compresión, BLU Acceleration es capaz de leer los datos comprimidos (sin descompresión necesaria), y al mismo tiempo emplear algoritmos data-skipping para aumentar la velocidad de lectura de datos comprimidos. Por último, BLU Acceleration toma ventaja del procesamiento vectorial paralelo a nivel procesador para explotar multi-core y SIMD ( instrucción única , múltiples datos) paralelismo ( instrucciones SIMD ayudan a mejorar el rendimiento en paralelo , y a su vez ayuda a producir resultados de consulta más rápidos que los sistemas que no explotan SIMD ) .

En resumen, DB2 de IBM con BLU Acceleration se puede utilizar con la fila o bien con datos basados ​​en columnas. En el modo de columna, se ha informado que es de 8 a 25 veces más rápido que las bases de datos tradicionales basados ​​en filas relacionales (tales como la base de datos de Oracle). DB2 con BLU Acceleration tampoco es un entorno de procesamiento de base de datos en memoria (como HANA de SAP). En lugar de ello, utiliza técnicas de caché de gestión de memoria dinámica para la descarga de datos a la proximidad de almacenamiento rápido.

La compresión en DB2 puede reducir el tamaño de las bases de datos Big Data con más eficiencia que Oracle o SAP. BLU aceleración puede leer datos comprimidos en la memoria sin tener que descomprimir ( BLU Acceleration de IBM utiliza técnicas avanzadas de data-skipping – tanto SAP HANA como Exadata de Oracle no utilizan este método de compresión en memoria ) . La capacidad de BLU Acceleration para leer los datos en la memoria es una gran ventaja para los usuarios BLU cuando se trata de la velocidad en la finalización de la consulta.

También cabe destacar, desde una perspectiva de los sistemas de diseño, DB2 BLU Accelerator de IBM se puede implementar en IBM POWER-based Power Systems , así como los servidores System x basados ​​en x86. Porque los procesadores POWER pueden ejecutar el doble de hilos como sus contrapartes de Intel, es razonable esperar que los Power Systems sean capaces de superar significativamente a SAP basado en x86 y homólogos de Oracle cuando se ejecuta la misma consulta.

Observaciones recapitulativas

La línea inferior en la comparación de estas tres arquitecturas Big Data es que hay algunos puntos comunes en las formas en que cada vendedor se acerca a Big Data analytics – pero también hay algunas diferencias muy distintas. Estos se manifiestan en la velocidad de procesamiento de consultas de bases de datos,  el número de usuarios concurrentes que puede soportar; el efecto que la complejidad de consulta puede tener sobre el rendimiento del sistema, la eficiencia y optimización del sistema, y sobre todo de gestión.
Los tres fabricantes (Oracle, SAP e IBM) ofrecen diseños de sistemas sólidos capaces de leer las bases de datos Big Data. Cada enfoque tiene sus méritos -, así como sus limitaciones. DB2 BLU Aceleración de IBM, sin embargo, tiene varias ventajas de diseño, incluyendo la capacidad de leer datos comprimidos y el uso de procesador SIMD para acelerar el rendimiento del procesamiento paralelo. En nuestra opinión, estas diferencias deberían llevar a DB2 BLU Acceleration de IBM a la entrega de forma consistente un mayor rendimiento a un costo menor.

Para una descripción técnica de mayor profundidad de estas tecnologías, consulte una versión ampliada de este informe aquí.

Si esta entrada fue de tu interés compártela con tus conocidos