miércoles oct 14, 2009

Está claro que un evento como el Oracle Open World en pleno proceso de compra de Sun era el momento oportuno para hacer importantes anuncios.Y, por ahora, van dos.

Uno tecnológico, con el lanzamiento del Sun Storage F5100 Flash Array con tecnología FlashFire, ya incorporada en el recién anunciado Exadata V2. Este sistema es un acelerador de bases de datos que permite superar la barrera del millón de I/O en un dispositivo de 1U de altura. Está pensado para acelerar tanto la base de datos Oracle como MySQL optimizando arquitecturas para obtener mejores prestaciones a menor precio. Información tanto ejecutiva como técnica aquí.

Y como la mejor manera de poner en valor una innovación es probándola, se anunció el resultado del benchmark TPC-C que supone un importante avance de un 26% de mejora sobre el anterior en poder de IBM y Bull, pasando de los 6,085 millones de transacciones por minuto a las 7,717 millones de Sun con Oracle Database 11g sobre servidores Sun SPARC Enterprise T5440 -tecnología CMT- corriendo Solaris 10 y el antes mencionado Sun Storage F5100 Flash Array, entre otros componentes. Detalle de los resultados y configuraciones aquí.

Los tests TPC-C han evolucionado refinando sus reglas para ofrecer una credibilidad grande, aunque la mejor comparación para un cliente siempre sería sobre una configuración concreta para un SI concreto. No obstante, se han ido incorporando mejoras que validan su credibilidad. Para mi la más importante son los criterios de certificación del precio.

Aunque muchos ya lo conocerán o lo pueden leer con detalle aquí, me gustaría resaltar que las pruebas se realizan sobre unas condiciones que simulan lo mejor posible un contexto transaccional de una corporación con miles o millones de usuarios concurrentes, con un porcentaje mínimo de cada tipo de transacciones, excepto del tipo de inclusión de nuevos pedidos que es el que realmente fija el resultado.

La arquitectura sobre la que se hacen las pruebas ha de tener características empresariales de seguridad y disponibilidad y estar dimensionada para soportar durante 180 días la carga de trabajo que establezca la marca de transacciones que se obtenga.

Para simular el trabajo real se han de incorporar una granja de servidores en donde se simulan los clientes que actúan con la mezcla de transacciones pedidas por las reglas. Estos sistemas y todo el hardware y software directa o indirectamente utilizado también forman parte del precio total valorado.

El resultado de la prueba es una medida de caudal (throughput) con unos tiempos de respuesta máximos que son los que limitan el resultado. Es decir, la cifra que vale es la mayor que cumple un tiempo de respuesta máximo para la transacción de entrada de pedido de 5 seg. Es obvio que hay que tomar decisiones sobre las dimensiones óptimas ya que se mide no sólo es el número de transacciones sino también el precio por transacción. Otras medidas de segundo nivel también son recogidas en las pruebas, en especial los tiempos medios de respuesta.

Y, por supuesto, el benchmark ha de estar auditado por un consultor independiente que valida el desarrollo de la prueba y la veracidad del informe. La complejidad y coste de todo este montaje explica por que no se hacen estos benchmarks para cada producto o solución que se lanza al mercado.

Tras este preámbulo que espero haya servido para poner en contexto los resultados, los hitos más relevantes son:

  • 7,717 millones de transacciones por minuto de Sun-Oracle con un cluster de 12 Sun SPARC Enterprise T5440 contra los 6,085 millones de transacciones por minuto de IBM-DB2 sobre IBM 595 Server, con un 26% de mejora
  • $2.34/tpmC de la configuración Sun-Oracle que mejora los $2.81tpmC de IBM
  • Tiempo medio de respuesta de 0,075seg de Sun-Oracle contra 1,22seg de IBM, con una mejora de 16 veces
  • Cuatro veces menos consumo energético a pesar de un caudal de transacciones 26% mayor
  • Ocho veces menos espacio que la correspondiente configuración de IBM
En fin, un buen record para una configuración que simula una organización con más de 6 millones de usuarios trabajando....

jueves jun 05, 2008

Comparar los datos que se generan en sanidad con los que se generan en bancos o grandes cadenas de distribución es más que una ciencia un divertimento. En todo caso el hecho es que son muchísimos en todos los casos. 

En sectores con uso intensivo de las TIC como banca, distribución o incluso buscadores, tan importante es lo que se custodia como el conocimiento que proporciona el análisis de esos datos. Los datawarehouse están a la orden del día. En el campo de la sanidad, al menos en nuestro país, el uso es escaso, en parte por el retraso de los despliegues de las historias de salud digitales. Pero esa escusa, que hace unos cinco años era real, creo que ya está quedando obsoleta.

Esta reflexión me viene a la cabeza al leer una noticia que tiene mucho de mediática: una solución de Datawarehouse consigue un Record Guiness. La pura curiosidad y el escepticismo hace que uno se vaya a leerlo. Y, tras el mundano glamour, aparece algo serio, si tenemos en cuenta el sector en que estamos y lo que a corto plazo deberá de venir.

Infozing, la consultora que escribió el test TPC-C auditó un datawarehuse creado conjuntamente por Sybase, BMMsoft y Sun como el más grande del mundo. En este enlace hay el informe completo

Para el que no le interese tanto el detalle destaco algunas cosas como que se ha conseguido un excelente ratio de compresión de la información (85%) almacenado 1 Petabyte de datos brutos en menos de 260 TB de disco,  la velocidad de carga de la base de datos lograda es de 3 millones de filas por segundo, el tiempo medio de adicción de datos al DW es inferior a 2s y que para la carga de documentos, se han conseguido ratios de carga de 2 millones de e-mails por hora y 6 millones de documentos por hora, consumiendo menos del 7% de potencia de CPU del M9000

Lo más importante es que el contexto de la prueba se diseñó lo más realista posible con 1 Petabyte, 6 billones (españoles) de filas de datos transaccionales y más de 185 millones de documentos sobre los que hacer búsquedas de información (e-mails, hojas de cálculo, informes y contenido multimedia). Por parte de Sun se utilizó la arquitectura de referencia y configuraciones de mercado.   Además, esta prueba manifiesta una capacidad de eco-eficiencia extraordinaria: se ha estimado es que la arquitectura propuesta supone un 90% de reducción en las emisiones de C02 sobre otras configuraciones de mercado.

Dicho esto y, apoyándome en la opinión el propio organismo auditor de que el contenido transaccional de esta prueba supone una cantidad de datos sin precedentes, equivalente a las transacciones procesadas a través de la red de comercio financiero mundial a lo largo de varios años y que los datos de documentos multimedia representan de una forma ajustada un volumen de comunicación electrónica entre medio millón de operadores financieros, el mensaje es claro: ¿sigue habiendo excusas para no empezar a tener buenos datawarehouse sanitarios?



This blog copyright 2009 by Eloy M. Rodriguez