Redundancia de materiales

La redundancia consiste en disponer de varios equipos, o de varios procesos, o de varios repuestos, o de todo otro elemento participante en una solución electrónica, mecánica, o industrial.^[1] Según las circunstancias, la redundancia implementada tiene utilidad :

para aumentar la capacidad total o las prestaciones de un sistema;
para reducir el riesgo de mal funcionamiento o no funcionamiento de un sistema;
para combinar estos dos efectos.

Redundancia en profundidad, redundancia con menores riesgos

La redundancia en profundidad es la constituida por la duplicación del material o de los dispositivos sensibles (máquinas, aparatos, instrumentos, medidores, etc.) para una misma función vital; de esta manera y en caso de fallo de un dispositivo sensible (o de varios), la función vital igualmente podrá ser asegurada y cumplida.

Teniendo varios aparatos (dispositivos) para una misma función, la probabilidad de fallo simultáneo global será bien inferior a la probabilidad de fallo de un solo aparato o dispositivo, lo que se convierte en mayor grado de confianza, y menor grado de criticidad.

Es posible optar entre diversas clases de redundancia :

La redundancia simétrica;
La redundancia asimétrica;
La redundancia evolutiva;
La redundancia modular.

La redundancia simétrica es implementada con elementos similares y opuestos en el espacio punto a punto, ambos en situación de trabajo; obviamente, la simetría no tiene porqué ser perfecta, pues lo que cuenta es la simetría funcional, aunque por cierto, la simetría espacial también tiene su importancia.

La redundancia asimétrica permite alternar entre un tipo de material y otro.

La redundancia evolutiva es tal que, en caso de mal funcionamiento de una parte de un sistema, esa zona de mal funcionamiento o no funcionamiento es aislada, de forma de igual poder utilizar otras partes del sistema.

La redundancia modular es la que permite desviar una avería de un sistema a otro. Ejemplo : el FCD (Freeflow Control Device, o sea, "Dispositivo de Control de Flujo Libre").

Estimación costo/beneficio

Es posible calcular la ganancia en performance o en fiabilidad del conjunto constituido, teniendo en cuenta las características propias de cada uno de los elementos. Las fórmulas de cálculo no siempre son simples : la capacidad o las performances conjugadas de tres componentes idénticos, raramente son iguales al triple de las posibilidades de un solo componente, aunque frecuentemente pueden ser del orden del doble.

En revancha, la multiplicación de componentes permite aumentar la fiabilidad del conjunto, de una manera muy significativa, aun cuando se usen pocos componentes. Bajo ciertas condiciones (componentes banalizados, no inter-dependientes), la tasa de fallo de un conjunto redundante es equivalente al producto de las tasas de fallo de cada una de esas componentes, y como los valores de esas tasas suelen ser muy inferiores a la unidad, el producto resulta ser entonces muy pequeño. Por ejemplo, si cada elemento tiene una probabilidad de fallo cada mil horas (10^-3), con dos elementos la probabilidad de fallo sería de una cada un millón de horas (10^-6), y con tres elementos la probabilidad caería a un fallo cada mil millones de horas (10^-9). Se observa por tanto que serán necesarios pocos ejemplares para alcanzar muy altos niveles de seguridad.

En un contexto informático donde performance, capacidades, y fiabilidad son particularmente buscadas, pueden citarse por ejemplo los siguientes casos :

los dipolos magnéticos sobre una cinta magnética o un disco, en cuyo caso es necesario que cierto número se encuentre en el mismo estado, para así asegurarse que representan un mismo valor binario (0 o 1), para que así puedan ser "reconocidos" por la cabeza de lectura ;
los componentes memoria que frecuentemente comportan una parte de información redundante, de manera de permitir la rectificación de errores (en este contexto se habla de "paridad de memoria") ;
los microprocesadores que se duplican o cuadruplican en pequeños servidores, hasta disponerlos en matrices de varias decenas, centenas, o incluso miles, en sistemas de muy alta performance (en este contexto se habla de "arquitectura masiva en paralelo") ;
los conjuntos o bloques de alimentación eléctrica, para que así el aparato concernido no dependa de una sola toma de corriente ;
los sistemas de almacenamiento, como por ejemplo los discos, están sujetos a errores o mal funcionamiento frecuentes, así que en estos casos o bien se puede duplicar la información, o bien se puede repartir cada dato básico (palabra, carácter) en diferentes unidades de disco, de manera que el mal funcionamiento de una de esas unidades no tenga ninguna consecuencia, ya que entonces se aplicaría alguna fórmula de recuperación de errores ;
los mismos ordenadores, son a veces objeto de réplica de la configuración (a veces duplicando de una manera idéntica, a veces duplicando con pequeños cambios) para así constituir grupos ("clusters") que se comportan como un solo sistema de gran capacidad ;
las conexiones entre sistemas, con el fin de reforzar la probabilidad de que los datos igual se intercambien, a pesar de errores en partes específicas de las líneas de transmisión, o con el fin de aumentar los rendimientos ;
los sistemas informáticos completos incluso con sus datos, léase la totalidad de un centro informático operativo, para así prevenir las consecuencias de un siniestro o de un mal funcionamiento general en uno o varios de dichos centros.

Los elementos duplicados a veces son idénticos, o sea absolutamente intercambiables o banalizados, y a veces son deliberadamente diferentes (diferentes constructores, diferentes proveedores de programas, etc), para así evitar que los mismos sean sensibles a los mismos fenómenos al mismo tiempo (cambios de temperatura, variaciones en la tensión de corriente, etc) o a las mismas combinaciones de datos (valores anormalmente altos o bajos, etc). Adicionalmente, con frecuencia también se suelen agregar otros dispositivos de control, de manera que se pueda detectar o incluso diagnosticar la avería de un componente, para así descartarlo o reemplazarlo antes que un segundo mal funcionamiento amenace más seriamente el conjunto.

Se debe aplicar la redundancia solamente si los objetos que se multiplican cumplen las mismas funciones, y sin que ello dependa de que unos se apoyen en los otros, ya que las influencias mutuas en general se deben limitar a repartir la carga de trabajo, o la transmisión de datos, o los datos en sí mismos. Naturalmente, sí podrán admitirse interacciones mutuas entre ellos por ejemplo en lo que concierne al consumo de energía eléctrica, o en cuanto a la disipación de calor al interior de una misma cabina, pero no en los aspectos directamente ligados al funcionamiento operativo.

A veces, los dispositivos redundantes ejercen cierto control sobre las actividades de sus vecinos, pero ello es para sustituir o aislar a alguno si es que manifiestamente tiene un mal funcionamiento, o bien para darle vida si es que presumiblemente volvió a quedar operacional luego de un mantenimiento técnico o luego de una parada temporaria. A veces y dependiendo del tráfico o del nivel de actividad, un dispositivo suplementario o varios son ubicados en reposo, y solamente serán de nuevo puestos en actividad más adelante cuando las necesidades se hagan sentir : pedido de ayuda de un elemento en problemas, pico de carga de trabajo, etc. Por extensión, también puede considerarse que repuestos almacenados en estanterías o en un almacén cercano, también constituyen elementos redundantes, ya que un técnico de mantenimiento podría servirse de ellos cuando se necesitaran.

En el caso de sistemas más complejos (a veces señalados como "sistema con tolerancia a averías" o "systèmes à tolérance de pannes"), con frecuencia es necesaria la duplicación completa de ciertos subconjuntos. Esos subconjuntos o esas partes son analizadas sucesivamente comenzando por los elementos menos fiables ; una vez que los mismos han sido multiplicados, la probabilidad de mal funcionamiento o de avería allí se vuelve ínfima en ese elemento, y entonces, la principal vulnerabilidad se traslada a otro subconjunto que a su vez deberá ser analizado y duplicado o multiplicado. Este procedimiento de mejoramiento en etapas sucesivas por lo general es seguido: (a) mientras el costo es juzgado rentable, o sea, mientras el balance características / precio es juzgado aceptable ; y (b) mientras no se alcance el nivel (de capacidad, de performance, o de fiabilidad) que se busca.

Véase también

Notas y referencias

↑ María Belén Muñoz Abella, Mantenimiento industrial: Tecnología de máquinas Archivado el 17 de abril de 2012 en Wayback Machine., 70 páginas.

Enlaces externos

Esta obra contiene una traducción parcial derivada de «Redondance des matériels» de Wikipedia en francés, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.
Sistemas redundantes y Failover

Datos: Q551760

[1] María Belén Muñoz Abella, Mantenimiento industrial: Tecnología de máquinas Archivado el 17 de abril de 2012 en Wayback Machine., 70 páginas.

[1]