<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div style="font-size:12.8px">Dear all,</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">We have been using MPICH with our software and performing execution in Amazon AWS Linux servers for a long time.</div><div style="font-size:12.8px">We use to have in production environment MPICH version 1.4.1p1 (which - I know - is very old), but it has been very very stable in the latest years.</div><div style="font-size:12.8px">However, recently we have been facing a "Bad termination" problem once in a while, so we decided to investigate this issue.</div><div style="font-size:12.8px">In principle, we don't have a apparent reason to believe that the problem lies on our code, since there was no changes that explain this behavior.</div><div style="font-size:12.8px">The other point is that it occurs in a intermittent fashion, if we run the program again it doesn't happen, so it has been difficult to debug/trace the source of the problem.</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Our first step, then, was to update the MPI version to the latest version 3.2.</div><div style="font-size:12.8px">However, we faced the same problem (output below):</div><div style="font-size:12.8px"><br></div><blockquote class="gmail_quote" style="font-size:12.8px;margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><font face="monospace, monospace">=====================================================================================<br></font><font face="monospace, monospace">=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES<br></font><font face="monospace, monospace">=   EXIT CODE: 11<br></font><font face="monospace, monospace">=   CLEANING UP REMAINING PROCESSES<br></font><font face="monospace, monospace">=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES<br></font><font face="monospace, monospace">=====================================================================================<br></font><font face="monospace, monospace">[proxy:0:0@ip-10-137-129-86] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:928): assert (!closed) failed<br></font><font face="monospace, monospace">[proxy:0:0@ip-10-137-129-86] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c:77): callback returned error status<br></font><font face="monospace, monospace">[mpiexec@ip-10-137-129-86] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_wait.c:70): one of the processes terminated badly; aborting<br></font><font face="monospace, monospace">[mpiexec@ip-10-137-129-86] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wait.c:23): launcher returned error waiting for completion<br></font><font face="monospace, monospace">[mpiexec@ip-10-137-129-86] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:191): launcher returned error waiting for completion<br></font><font face="monospace, monospace">[mpiexec@ip-10-137-129-86] main (./ui/mpich/mpiexec.c:405): process manager error waiting for completion</font></blockquote><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Do you have any clue about what might have been causing this problem?</div><div style="font-size:12.8px">Any suggestion at this point would be highly appreciated.</div><div style="font-size:12.8px"><br></div><div style="font-size:12.8px">Best regards,</div><div style="font-size:12.8px">Luiz</div></div>