viernes, 28 de diciembre de 2012

Mis errores al montar el RAID

En el PC con el que trabajo habitualmente tenía configurada una partición LVM con stripe (algo muy parecido a un RAID0) repartido entre cuatro discos duros... me tenía extasiado, menudo rendimiento!. Pero también tiene sus defectos, como por ejemplo, cuatro discos duros a parte de gastar más también hacen más ruído, más calor... y encima al ser alguno algo viejo pues cada vez me daba menos confianza la configuración (sólo con que se jodiera uno me pillaba con los pantalones bajados).

Aprovechando que llegó a mis manos un disco duro nuevo de 2TB decidí reorganizarlo un poco. Quité los más viejos y me quedé con sólo dos de los discos uno de 1TB y el de 2TB. Lo más curioso de LVM es que todos los cambios los pude ir haciendo sin dejar de poder usar el SO, en ningún momento tuve que reinstalar el sistema.

Buscando algo más de fiabilidad, y sacrificando el rendimiento de escritura en discos, finalmente me decidí por montar un RAID1 (2 particiones iguales en 2 unidades distintas, cada una con una copia idéntica de la información).

El RAID es de unos 750 GB (moví la info al espacio restante del nuevo HDD mientras preparaba el RAID).


...Y pareció que todo funcionaba bien, aunque no responde igual que el stripe en LVM.

Los problemas empecé a tenerlos a saber cuándo, porque he aquí mi primer error... no me dió por monitorear el estado del  RAID. Empecé a notar algo raro... como por ejemplo que en un S.O. que recibe actualizaciones casi a diario de repente siempre tenía los paquetes actualizados... intenté editar GRUB para corregir un error en el archivo de configuración y lo ignoraba... siempre me salía una versión antigua... Vamos, que para cuando me dió por pensar que podía ser cosa del RAID ya tenía un desgarro en los pantalones.

Logré reactivar el RAID y configurar un monitoreo que me manda un mail si falla algo, aunque tampoco descarto usar conky para verlo en vivo, por si acaso. Con el tema de las actualizaciones... más o menos tira después de haber reinstalado paquetes que ya existían... aunque seguro que se ha quedado cojo, pero como me falta tiempo ya lo reinstalaré en algun momento. Al menos vuelve a avisar de actualizaciones de la mayoría.

Por desgracia el RAID me ha fallado varias veces más (el ritmo se ha reducido después de actualizar el firmware de ambos discos duros) y me he dado cuenta de otro aspecto que me parece un error... cuando falla si no me da tiempo a quitar la partición del raid y volverla a activar y darle un rato (a veces uno tiene que irse o tiene sueño...) entonces el sistema no me arranca. Tengo que arrancar desde un pendrive para volver a activar el RAID, esperar un buen rato y reiniciar para poder empezar a usar el PC. Porque para los 750 GB me tarda entre 2 y 3 horas a completar al sincronización. Y como no tengo ni idea de si empieza por root o por /home o cualquier otro, no hay forma de saber en qué porcentaje puedo iniciar el sistema normalmente mientras termina la sincronización.

A lo que iba, tendría que haber creado varias particiones RAID, de menor tamaño, para poder recuperar la base del sistema lo antes posible. Aunque sin la seguridad del RAID1, al menos se puede usar el sistema con normalidad, mientras termina de sincronizarse, sin tener que esperar varias horas sin poder usar el PC.


Resumiendo:

- Imprescindible monitorizar el estado del RAID, sea la situación que sea.
- Muy recomendable crear particiones para el RAID de un tamaño más ajustado.

No hay comentarios:

Publicar un comentario