<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div><div>Hi,<br><br></div>Is it possible for an MPI distributed cluster to continue working if one node dies? I'm not sure if MPICH provides such functionality.<br><br></div><div>It seems that MPI_Comm_create requires that all processes in the superset communicators to be alive; while the errhandler with --disable-auto-cleanup also does not avoid such issue, as one process cannot call MPI_Finalize().<br></div><div><br></div><div>Thanks in advance!<br></div><div><br></div>Best Regards,<br>Fan<br></div>