<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">We’ve been doing work specifically on this. In the latest alpha, an experimental version of the ULFM specification was added. You’re welcome to try it out. If you’re not familiar, I’d recommend reading through some of the documentation on <a href="http://www.fault-tolerance.org" class="">www.fault-tolerance.org</a>. You can find some tutorials along with the specification.<div class=""><br class=""></div><div class="">Thanks,</div><div class="">Wesley<br class=""><div class=""><br class=""></div><div class=""><br class=""><div class=""><blockquote type="cite" class=""><div class="">On Dec 10, 2014, at 6:31 AM, YANG Fan <<a href="mailto:iddmbr@gmail.com" class="">iddmbr@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class=""><div class=""><div class="">Hi,<br class=""><br class=""></div>Is it possible for an MPI distributed cluster to continue working if one node dies? I'm not sure if MPICH provides such functionality.<br class=""><br class=""></div><div class="">It seems that MPI_Comm_create requires that all processes in the superset communicators to be alive; while the errhandler with --disable-auto-cleanup also does not avoid such issue, as one process cannot call MPI_Finalize().<br class=""></div><div class=""><br class=""></div><div class="">Thanks in advance!<br class=""></div><div class=""><br class=""></div>Best Regards,<br class="">Fan<br class=""></div>
_______________________________________________<br class="">discuss mailing list     <a href="mailto:discuss@mpich.org" class="">discuss@mpich.org</a><br class="">To manage subscription options or unsubscribe:<br class=""><a href="https://lists.mpich.org/mailman/listinfo/discuss" class="">https://lists.mpich.org/mailman/listinfo/discuss</a></div></blockquote></div><br class=""></div></div></body></html>