Abstrait

Tolérance aux pannes par réplication dans les systèmes parallèles

Madhavi Vaidya

Dans cet article, l'auteur s'est concentré sur l'architecture d'un ordinateur en cluster et sur son fonctionnement dans le contexte de paradigmes parallèles. L'auteur s'intéresse particulièrement à la garantie du fonctionnement efficace d'un nœud et à la disponibilité des données qu'il contient à tout moment pour exécuter la tâche en parallèle. Les applications en cours d'exécution peuvent être confrontées à des pannes de ressources pendant l'exécution. L'application doit faire quelque chose de manière dynamique pour se préparer et récupérer de l'échec attendu. En règle générale, le point de contrôle est utilisé pour minimiser la perte de calcul. Le point de contrôle est une stratégie purement locale, mais peut être très coûteuse. Cependant, la plupart des techniques de point de contrôle nécessitent un stockage central pour stocker les points de contrôle. Cela entraîne un goulot d'étranglement et limite considérablement l'évolutivité du point de contrôle, tout en s'avérant trop coûteux pour les réseaux de point de contrôle et les systèmes de stockage dédiés. L'auteur a suggéré la technique de réplication mise en œuvre sur celui-ci. La réplication a été étudiée pour les bases de données parallèles en général. L'auteur a travaillé sur l'exécution parallèle d'une tâche sur un nœud ; en cas d'échec, la fonction d'autoprotection doit être activée. L'autoprotection dans ce contexte signifie que les clusters informatiques doivent détecter et gérer les pannes automatiquement à l'aide de la réplication.

Avertissement: Ce résumé a été traduit à l'aide d'outils d'intelligence artificielle et n'a pas encore été examiné ni vérifié

Indexé dans

Google Scholar
Academic Journals Database
Open J Gate
Academic Keys
ResearchBible
CiteFactor
Electronic Journals Library
RefSeek
Hamdard University
Scholarsteer
International Innovative Journal Impact Factor (IIJIF)
International Institute of Organised Research (I2OR)
Cosmos

Voir plus