<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <br>
    Hi Andris,<br>
    <br>
    Unfortunately right now the MPI standard leaves the behavior upon
    failures pretty open to implementations.<br>
    <br>
    With the current implementation, you can pass the flag
    "-disable-auto-cleanup" to mpiexec (Hydra) to prevent it from
    killing the non-failing processes. But, bear in mind that you
    shouldn't use those communicators that involved the failing process
    anymore. So, what you say is somehow possible if you use
    MPI_Comm_spawn to create the slaves and set the error handler
    MPI_ERRORS_RETURN in the intracommunicator.<br>
    <br>
    Again, this is something not defined in the standard, and hence
    there's no guarantee it'll work in all conditions and/or MPI
    implementations.<br>
    <br>
    On the other hand, you can search and take a look at the ULFM
    proposal.<br>
    <br>
    I hope this helps.<br>
    <br>
    Best,<br>
      Antonio<br>
    <br>
    <br>
    <div class="moz-cite-prefix">On 29/01/16 14:29, Andris wrote:<br>
    </div>
    <blockquote cite="mid:1454074188.56ab694c64aad@mail.inbox.lv" type="cite">Hello!<br>
      I'm a newbie in MPI world.<br>
      I have some question about program execution.<br>
      I build some program (for example, exp1) using mpicc and run it to
      multiple hosts.<br>
      mpiexec -f my_hosts -n 8 ./exp1<br>
      4 exp1 are running on host A (rank 0-3) and 4 - on host B (rank
      4-7).<br>
      If one of them crashes, all other are terminating too. mpiexec
      print:<br>
===================================================================================<br>
      =   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br>
      =   PID 5774 RUNNING AT slave1<br>
      =   EXIT CODE: 11<br>
      =   CLEANING UP REMAINING PROCESSES<br>
      =   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br>
===================================================================================<br>
      <br>
      If I understand right, I can handle in my code only MPI function
      errors.<br>
      In my project I need if one process is terminated, all other
      processes will stay running. For example, if slave node lose
      power, processes on master node stay running. Master node will
      know that processes on slave node are terminated and after some
      time master node will rerun these processes on slave node.<br>
      Is it possible? If yes, how?<br>
      <br>
      Big thanks!
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
discuss mailing list     <a class="moz-txt-link-abbreviated" href="mailto:discuss@mpich.org">discuss@mpich.org</a>
To manage subscription options or unsubscribe:
<a class="moz-txt-link-freetext" href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a></pre>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
Antonio J. Peņa, PhD
Senior Researcher
Barcelona Supercomputing Center
<a class="moz-txt-link-freetext" href="http://www.bsc.es/about-bsc/staff-directory/pena-antonio">http://www.bsc.es/about-bsc/staff-directory/pena-antonio</a></pre>
  
<br>
<br>
WARNING / LEGAL TEXT: This message is intended only for the use of the
individual or entity to which it is addressed and may contain
information which is privileged, confidential, proprietary, or exempt
from disclosure under applicable law. If you are not the intended
recipient or the person responsible for delivering the message to the
intended recipient, you are strictly prohibited from disclosing,
distributing, copying, or in any way using this message. If you have
received this communication in error, please notify the sender and
destroy and delete any copies you may have received.
<br><br>
<a href="http://www.bsc.es/disclaimer.htm">http://www.bsc.es/disclaimer</a>
<br>
</body>
</html>