lunes, 23 de septiembre de 2013

#Épsilondc, LAS CAUSAS DE DOWNTIME EN DATA CENTERS

Hace ya bastantes años, aproximadamente unos 15, comenzamos a estudiar las causas que se encontraban en el origen de la pérdida de continuidad en la alimentación a equipos IT en data centers de primer nivel. Y lo hicimos en casos muy concretos y, a la vez, bastante sonados.
Y lo que, en principio, fue una relativamente pequeña sucesión de casos, supuso, sin embargo, la base para un estudio desarrollado hasta hoy, que va aumentando de número y donde la mayor contribución la tenemos en los tiempos más recientes.
En varias ocasiones hemos presentado dentro de los eventos de Data Center Dynamics, este estudio, incluso dos veces en el mismo lugar, eso sí, con unos años de diferencia (Madrid 2009 y 2013 y México 2010 y 2013).
La razón para ello es bien sencilla. El estudio va creciendo imparablemente, los casos de análisis se renuevan, y su divulgación resulta muy recomendable, sobre todo si con ello podemos evitar su repetición.
Durante los últimos meses, y a petición de la gente de DCD, hemos desarrollado además en estos eventos una nueva iniciativa consistente en el desarrollo de un work-shop al que, previa inscripción con limitación en el número, asisten profesionales del sector deseosos de compartir sus experiencias y ávidos de oír las de los demás. El tema de las caídas en los data centers resulta muy apropiado para este tipo de intercambios.
A día de hoy, el número de casos de estudio de los que disponemos, asciende a 57 y las conclusiones muy claras y refrendadas cada vez que compartimos esa información, como en el caso de los work-shop.
Por encima de un 50% debidos a actividades u operaciones asociadas al mantenimiento, o a su ausencia, lo que hace de este capítulo el más representativo, coincidiendo además con lo publicado últimamente a nivel internacional, en el sentido de identificar el error humano como la causa más probable de caída de un data center.
Por su parte, más de una cuarta parte de los casos son debidos a errores de diseño. Algo sobre lo que normalmente no se incide, en la creencia (errónea) de que cualquier diseño desarrollado por la gente del sector es válido.
El resto de los sucesos, alrededor sólo de un 20%, se deben a errores de construcción y a aquellos achacables directamente a los equipos.
Al analizar su naturaleza, tres conceptos se llevan las mayores responsabilidades. Los grupos electrógenos, los SAIs y la manipulación o acción directa y errónea sobre elementos clave del sistema. Entre los tres superan el 62%.
Por último, existe una conclusión muy esclarecedora. De un total de 57 caídas de CPD, 47 han sido por causas eléctricas, sin incluir aquí las que tienen su origen en la alimentación eléctrica de clima.
Por tanto, a la hora de tomar medidas para que sucesos de este tipo no se vuelvan a presentar en nuestras instalaciones, deberíamos empezar por asignar recursos para trabajar en aquellos campos donde se den las mayores probabilidades , es decir, en la parte de operación y mantenimiento en cuanto a la actividad y en la parte eléctrica en cuanto a la naturaleza de los fenómenos.
Por la parte de mantenimiento con un análisis a fondo de nuestra realidad actual, un plan de acción que solucione los problemas detectados y, además, un importante refuerzo de las actividades formativas en la convicción de que se trata de una inversión irrenunciable si no se quieren sorpresas desagradables.
En lo que a la mucha mayor influencia de los temas eléctricos respecta, constatar que hoy en día hay dos líneas de pensamiento que contribuyen a que los responsables de data center se olviden un poco de este tema.
La primera, auspiciada habitualmente por fabricantes de equipos, afirmando que los temas técnicos ya están resueltos, algo completamente equivocado y que nos está llevando a situaciones de una confianza extremadamente peligrosa y algo negligente.
La segunda, quizá motivada por el creciente peso que, dentro de las disciplinas intervinientes en un data center, ha tomado  en los últimos años la parte de refrigeración.
Las mejoras en eficiencia energética, donde la mayor contribución para el PUE es la instalación de clima, nos han llevado a centrar en este asunto muchos recursos informativos y de divulgación. Los crecimientos anunciados, y aun por llegar, en la densidad de potencia, que auguran tiempos  de inercia térmica muy cortos para las salas IT y, por tanto, mayor repercusión de la parte de clima en la continuidad del servicio, también han contribuido a perder un poco el foco en el concepto que más influye, el eléctrico.
Y para acabar de rematarlo, la presencia de estándares de diseño que son una referencia común para los nuevos proyectos y que, partiendo de concepto globales hacen luego tabla rasa en todos los subsistemas que componen el data center, concediendo la misma importancia a quien la tiene  de verdad y a quien no.
A medida que la cifra de casos de estudio se incrementa, va siendo cada vez más de aplicación la ley de los grandes números, primer teorema fundamental de la teoría de la probabilidad que establece que la frecuencia relativa de los resultados de un cierto experimento aleatorio, tienden a estabilizarse en cierto número, cuando el experimento se realiza muchas veces. En nuestro caso, cuanto más se incrementa la cifra de casos, más constantes son las proporciones obtenidas.
Los datos están ahí. Son pura realidad y nuestro deber es divulgarlos. Si no somos capaces de influir en los responsables de los data center para que tomen medidas, estaremos condenados a tropezar una y otra vez en la misma piedra, cerrando nuevamente el ciclo de fallo, algo lamentablemente demasiado común en nuestro sector.



No hay comentarios:

Publicar un comentario