Создание контрольных точек и восстановление MPI программ

Authors

  • Мгер Ю. Мовсисян Yerevan Physics Institute

Abstract

Выполнение программ на вычислительных кластерах обычно занимает довольно большое время. В процессе выполнения может возникнуть потребность изменения физического местоположения отдельных процессов параллельной программы или временная остановка всей программы. В этой статье описана разработанная система CROM (Checkpointing and Recovery of MPI), которая предоставляет возможность создания контрольных точек для остановки и последующего возобновления выполнения MPI программы. Функциональность создания контрольных точек и восстановления реализована в виде дополнительных компонент MPICH2 и не требует изменений в коде MPI программы.

References

M. Movsisyan, V. Sahakyan, “Transparent checkpointing protocol for MPI programs withdecentralized initiator”, CSIT 2007, pp. 227-229.

Message passing interface forum, “MPI: A Message-Passing Interface Standard”,Version 1.1, June 1995. http://www.mpi-forum.org/docs/docs.html

Message passing interface forum, “MPI-2: Extensions to the Message-PassingInterface”, July 1997, http://www.mpi-forum.org/docs/docs.html

MPICH2, http://www-unix.mcs.anl.gov/mpi/mpich2/

Open MPI, http://www.open-mpi.org/

M. Chandy and L. Lamport, “Distributed snapshots: Determining global states ofdistributed systems”, In ACM Transactions on Computing Systems, 3(1): pp. 63-75, 1985.

Myrinet, http://www.myri.com/myrinet/overview/

The MPICH Team Argonne National Laboratory, “Process Management in MPICH2”DRAFT 2.1. March 30, 2007.

Berkeley Lab Checkpoint/Restart (BLCR),http://ftg.lbl.gov/CheckpointRestart/CheckpointRestart.shtml

H. Hargrove and C. Duell, “Berkeley Lab Checkpoint/Restart (BLCR) for Linux Clusters”,In Proceedings of SciDAC 2006: June 2006.

J. Duell, P. Hargrove, and E. Roman, “The design and implementation of Berkeley Lab’slinux Checkpoint/Restart”, Technical Report LBNL-54941, Lawrence Berkeley NationalLaboratory, 2003.

M. Elnozahy, L. Alvisi, Y. M. Wang, and D. B. Johnson, “A survey of rollback-recoveryprotocols in message passing systems”, Technical Report CMU-CS-96-181, School ofComputer Science, Carnegie Mellon University, Pittsburgh, PA, USA, 1996.

Downloads

Published

2021-12-10

How to Cite

Мовсисян, М. Ю. . (2021). Создание контрольных точек и восстановление MPI программ. Mathematical Problems of Computer Science, 30, 47–53. Retrieved from http://mpcs.sci.am/index.php/mpcs/article/view/415