Madhavi Vaidya
Dans cet article, l'auteur s'est concentré sur l'architecture d'un ordinateur en cluster et sur son fonctionnement dans le contexte de paradigmes parallèles. L'auteur s'intéresse particulièrement à la garantie du fonctionnement efficace d'un nœud et à la disponibilité des données qu'il contient à tout moment pour exécuter la tâche en parallèle. Les applications en cours d'exécution peuvent être confrontées à des pannes de ressources pendant l'exécution. L'application doit faire quelque chose de manière dynamique pour se préparer et récupérer de l'échec attendu. En règle générale, le point de contrôle est utilisé pour minimiser la perte de calcul. Le point de contrôle est une stratégie purement locale, mais peut être très coûteuse. Cependant, la plupart des techniques de point de contrôle nécessitent un stockage central pour stocker les points de contrôle. Cela entraîne un goulot d'étranglement et limite considérablement l'évolutivité du point de contrôle, tout en s'avérant trop coûteux pour les réseaux de point de contrôle et les systèmes de stockage dédiés. L'auteur a suggéré la technique de réplication mise en œuvre sur celui-ci. La réplication a été étudiée pour les bases de données parallèles en général. L'auteur a travaillé sur l'exécution parallèle d'une tâche sur un nœud ; en cas d'échec, la fonction d'autoprotection doit être activée. L'autoprotection dans ce contexte signifie que les clusters informatiques doivent détecter et gérer les pannes automatiquement à l'aide de la réplication.