Opiniones | Opinions | Editoriales | Editorials

Convierta las horas de reparación del servidor en minutos

 
Picture of System Administrator
Convierta las horas de reparación del servidor en minutos
by System Administrator - Thursday, 21 August 2014, 1:39 PM
Colaboradores y Partners

Convierta las horas de reparación del servidor en minutos

por Stephen J. Bigelow

Los servidores del centro de datos nunca permanecen estáticos por mucho tiempo, y las fallas ocurren. Los proveedores están diseñando servidores que permitan reparaciones, mejoras y mantenimiento preventivo más rápidos, pero su personal de TI también puede hacer una diferencia.

Abordar los problemas de hardware del sistema no es fácil. Una variedad de tácticas mejora la capacidad de respuesta y la eficiencia de la reparación del sistema.

Reúna las tropas

Establezca acuerdos de mantenimiento ininterrumpido con los proveedores de servicios, reflejando las necesidades de las diferentes cargas de trabajo. Por ejemplo, un servidor de misión crítica requiere un contrato de servicio con una ventana de respuesta de 60 minutos o más rápida, 24/7/365. Los sistemas menos críticos requieren solo una ventana de dos horas o cuatro horas. Los contratos de servicios son costosos, así que elija la cobertura en consecuencia.

Cuando el personal de TI interno tiene que dar el servicio, implemente una cadena de mando clara y un esquema de escalación que aproveche las herramientas disponibles de seguimiento y reporte para enviar inmediatamente alertas al miembro adecuado del equipo. El escenario más lento para las reparaciones del servidor envía información a un supervisor y espera la delegación manual de tareas. Mantenga el sistema de alerta al día con los cambios de personal.

El objetivo es conseguir que todos los problemas sean abordados tan pronto como sea posible. Los sistemas de ticketing de servicio, adecuados para grandes centros de datos, integran reporte de urgencias con las solicitudes de servicio de rutina. El proceso de emisión de tickets prioriza y racionaliza los flujos de trabajo del personal de TI, ayudando a resolver las tareas de manera eficiente.

Disciplina de almacén

Las piezas en el inventario son costosas y fácilmente mal asignadas, así que utilice un rastreador de partes u otro sistema de control de inventariospara hacer seguimiento de las piezas de repuesto o los componentes de actualizaciones. Integre los inventarios con un sistema de gestión del cambio para que las actualizaciones del servidor estén documentadas y referenciadas. Esto preserva las obligaciones de cumplimiento y del acuerdo interno de nivel de servicio (SLA). Muchas mesas de soporte y sistemas de tickets para problemas incluyen una función de inventario.

Los documentos del sistema son las primeras cosas que se pierden, y la documentación faltante puede impedir seriamente las reparaciones oportunas. Mantenga toda la documentación del sistema y los medios de instalación originales del software, o al menos mantenga una lista de los sitios web que alojan la documentación electrónica, los controladores o las actualizaciones de software y lo demás. Esto puede darle un gran ahorro de tiempo cuando surgen problemas y los minutos importan.

Los repuestos se vuelven extremadamente difíciles de encontrar –y exorbitantemente caros– para los servidores antiguos. Incluso si un servidor continúa soportando adecuadamente las cargas de trabajo más allá de su punto de depreciación, las reparaciones pueden llegar a ser problemáticas.

Los servidores cambian para facilitar las reparaciones de hardware

 

Los diseños de los servidores están incorporando funciones de accesibilidad como rieles articulados, que permiten a los técnicosbajar el servidor una vez que se extiende desde el rack. Los recintos fáciles de abrir permiten el acceso cómodo y los componentes de encaje a presión incluyen conductos de aire de plástico, ventiladores y soportes para tarjetas de expansión –minimizando la necesidad de herramientas.

La mejor reparación es aquella que usted puede evitar. Al enfrentar errores, las características de resiliencia del servidor mantienen los sistemas en funcionamiento lo que invariablemente quebrará a los servidores de generaciones anteriores. Mientras que las características de resiliencia no evitan los problemas, a menudo pueden prevenir –o incluso corregir– las catastróficas consecuencias de un fallo.

La característica más antigua de resiliencia es una fuente de alimentación redundante; muchos servidores de clase empresarial ofrecen esta opción. Dos fuentes de alimentación modulares funcionan, y cuando una falla, la otra alimenta de energía al servidor hasta que el módulo que falló se sustituye. El reemplazo se puede realizar en 'caliente', sin necesidad de apagar el sistema, pero  la migración de carga de trabajo en vivo a través de la virtualización, y la conciencia del uso de energía, hacen a las fuentes de alimentación redundantes menos atractivas hoy.

La resiliencia de la memoria del servidor se basa en el código de corrección de errores y la sustitución de memoria. Cuando un módulo de memoria en funcionamiento indica una falla, los contenidos se pueden reconstruir en un módulo de repuesto hasta que el que ha fallado se sustituya (a menudo un cambio 'caliente'). Otra opción es guardar una copia duplicada del espacio principal de la memoria de trabajo.

La confiabilidad del CPU también ha mejorado enormemente. Procesadores como el Intel Itanium II pueden recuperarse de errores de bus de datos y con gracia restablecer un servidor cuando se produce un error de otro modo fatal. Las últimas CPU soportan un modolockstep en el que múltiples procesadores comparan la información del programa para garantizar la integridad de las operaciones informáticas.

Los servidores también están utilizando componentes de menor consumo de energía que dependen menos del enfriamiento agresivo.

Más allá del propio servidor, características de la virtualización, como la migración en vivo, significan que los fallos de hardware no derribarán cargas de trabajo de cómputo. Las máquinas virtuales en clustering y redundantes implican que los centros de datos pueden alojar múltiples copias de cargas de trabajo críticas para defenderse del tiempo de inactividad basado en hardware. Las cargas de trabajo virtuales también hacen el mantenimiento programado del hardware más fácil, ya que la carga puede utilizar los recursos existentes en otras máquinas.

Cuando usted aloja cargas de trabajo con un proveedor externo, el mantenimiento se convierte en su única responsabilidad. Estos proveedores de outsourcing a menudo permiten ventanas de reparación liberales o del "mejor esfuerzo" cuando se producen problemas. Esto puede exponer la organización a un tiempo de inactividad extendido sin recursos significativos del SLA. Esa sigue siendo la razón principal por la que muchos departamentos de TI optan por mantener las cargas de trabajo de misión crítica en la casa, donde ellos ejercen más control sobre el entorno.

Link: http://searchdatacenter.techtarget.com

 

1035 words