Big data es uno de esos conceptos de moda que tanto analistas, fabricantes como medios de comunicación nos afanamos en acotar, definir y llenar de contenido. La confusión, por tanto, está servida. ¿Se trata de un tema meramente de negocio o de un tema tecnológico? Según Javier Sánchez, Key Account Manager de Flytech, big data es principalmente un concepto de negocio como en su momento lo fue el cloud. Muchas empresas llevaban haciendo clouds privadas desde hacía mucho tiempo sin recibir la denominación de “nubes”. Con big data sucede algo similar.
Más que por el tipo de tecnología en sí, el concepto lleva aparejado una realidad, y es la necesidad de poder hacer algo útil con la infinidad de datos de que disponemos hoy y cuyo crecimiento será exponencial en los próximos años. El problema es tener una tecnología que nos permita almacenar, procesar y rentabilizar dicha información”, subraya el directivo.
En términos de negocio, las aplicaciones de big data son tan variadas como diversas son las necesidades de las empresas. Se puede aplicar, por ejemplo, a proyectos que involucran a cientos de miles de sensores, que producen un volumen de información ingente que tradicionalmente se ha desechado, pero que ahora se puede analizar para prever posibles fallos o trazar tendencias.
Big data se puede aplicar al sector retail, ya que en el punto de venta los consumidores ofrecen mucha información válida que se puede utilizar en tiempo real. Hay muchos otros casos de éxito, como el de la red social Tuenti, que podremos leer en las próximas páginas.
Si nos referimos a tecnología, big data se posiciona en el contexto del Business Intelligence y de la analítica de negocio. El término supone una evolución acompasada de los distintos estadios que ha experimentado el BI. No obstante, big data introduce nuevas variables, como el enorme volumen de datos, la velocidad en la ingesta de esos datos y la variedad de los datos almacenados.
Al parecer de Jorge Fernández, Iberia EG Presales Manager at Hewlett-Packard, “hablaremos de big data cuando explotemos nueva información dentro de nuestras organizaciones: porque aparecen fuentes nuevas dentro de nuestras organizaciones, que pueden ser externas (Twitter, redes sociales) pero también información no estructurada dentro de nuestra organización –comentario de una encuesta de satisfacción, grabación de un servicio de atención telefónico, etc.- que no utilizo porque es información muy masiva, y simplemente pensar en la cantidad de almacenamiento que necesito me echa para atrás”.
Si quiero utilizar estos nuevos datos, se plantea Fernández, “¿qué hago, almaceno los nuevos logs en las bases de datos que tengo a día de hoy, con licencias muy caras, teniendo además que modificar esos datos para introducirlos en los sistemas de campos que soporten SQL? ¿O bien utilizo un sistema de almacenamiento más barato, por encima del cual puedo programar un sistema de computación específico que pueda procesar esos datos? Aquí es donde empezamos a trabajar con big data, y a tratar con sistemas como Hadoop, un sistema de computación más almacenamiento que permite hacer una ingesta de datos realmente rápida”.
Velocidad y volumen
Dentro de lo que se conoce como big data, hay soluciones más orientadas a la gestión masiva de datos no estructurados, mientras que otras hacen más hincapié en el análisis de la información y toma de decisiones en tiempo real.
En cuanto al producto orientado a tiempo real, se encuentran las bases de datos No SQL, que utilizan modelos de almacenamiento y recuperación de la información del tipo clave/valor, con menor consistencia y funcionalidad que una base de datos estándar, pero de forma que permiten gestionar grandes volúmenes de información no estructurada a gran escala y velocidad.
Por otro lado podemos distinguir las herramientas de grandes volúmenes de datos como puede ser Hadoop, que no trabajan a tiempo real, sino que lo hacen por lotes, es decir, aplican procesamiento sobre un conjunto de datos desde principio a fin cada vez que es ejecutado un trabajo. “Este tiempo puede ser desde minutos hasta horas, pero el tiempo no es crítico: por ejemplo, si necesitamos analizar logs de una web, de una red”, explica Javier Sánchez.
NoSQL permite un acceso a los datos más rápido que Hadoop file system como consecuencia de la indexación previa, siempre que haya un patrón previo de almacenamiento algo más predecible. “Nuevamente, dependiendo de los requerimientos de los casos de uso, puede encajar mejor una alternativa u otra, o ambas”, destaca José Manuel Peláez, director de preventa de tecnología, de Oracle Ibérica.
Hadoop: ¿Un paradigma?
La plataforma de software Hadoop parece haberse convertido en un estándar de facto para big data, con la ventaja de que puede usarse en grandes clusters de hardware comoditizado.
Santiago Julián, director sénior de producto TI de Huawei, destaca como beneficios de este framework de software sobre Apache 2.0 su sencillez en la programación, facilidad de escalado, e independencia de las tareas. “Pero ante todo es remarcable la robustez del sistema HDFS sobre el que se basa la solución. HDFS se presenta como un sistema sencillo que plantea un modelo coherente y robusto, permitiendo grandes capacidades de prestaciones y una elevada escalabilidad y rápido acceso a la información almacenada que es solicitada por parte de los servidores de aplicaciones o los motores de inteligencia empresarial actuales”.
Hadoop permite llevar la computación al dato. “La computación tradicional no nos lo permite por el estrechamiento que supone que todos los servicios accedan a la misma cabina, o por los retardos que supone el protocolo del encapsulado de datos que hay en el proceso intermedio”, explica Jorge Fernández.
Aun así, la plataforma ha de superar todavía ciertas barreras. Santiago Julián señala como más importantes el modelo de programación restrictivo, el modelo de gestión de cluster que es todavía muy pesado, la dificultad en la gestión del flujo de los trabajos iniciados y la falta de claridad en la optimización de configuración de los diferentes nodos que componen la arquitectura.
Asimismo, según subraya Fernández, Hadoop es solo un framework de trabajo, lo que implica
que alguien tiene que hacer toda la programación.
“Big data si no va acompañado de un cambio de cultura en los equipos de trabajo no tiene sentido. Aparece una nueva figura en las organizaciones, el programador Java que, sobre esa información que tengo almacenada, es capaz de pensar a nivel de negocio cómo puedo utilizar esos datos, y de lograr la capacidad necesaria para hacerlo sobre Hadoop.
Hasta ahora, en el BI tradicional, estábamos acostumbrados a equipos de trabajo que sabían utilizar un determinado software que extrae una determinada información. En este nuevo paradigma esto ya no vale”.