Madhavi Vaidya
En este artículo, el autor se ha concentrado en la arquitectura de un clúster de computadoras y su funcionamiento en el contexto de paradigmas paralelos. El autor tiene un gran interés en garantizar el funcionamiento eficiente de un nodo y que los datos que contiene estén disponibles en cualquier momento para ejecutar la tarea en paralelo. Las aplicaciones, mientras se ejecutan, pueden enfrentar fallas de recursos durante la ejecución. La aplicación debe hacer algo de manera dinámica para prepararse y recuperarse de la falla esperada. Por lo general, se utiliza el punto de control para minimizar la pérdida de cómputo. El punto de control es una estrategia puramente local, pero puede ser muy costosa. Sin embargo, la mayoría de las técnicas de punto de control requieren un almacenamiento central para almacenar puntos de control. Esto genera un cuello de botella y limita severamente la escalabilidad del punto de control, al mismo tiempo que resulta demasiado costoso para redes de puntos de control y sistemas de almacenamiento dedicados. El autor ha sugerido la técnica de replicación implementada en él. La replicación se ha estudiado para bases de datos paralelas en general. El autor ha trabajado en la ejecución paralela de tareas en un nodo; si falla, se debe activar la función de autoprotección. La autoprotección en este contexto significa que los clústeres de computadoras deben detectar y manejar fallas automáticamente con la ayuda de la replicación.