<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"></head><body dir="auto"><div>I bet you (1) Siesta doesn't check MPI return codes and (2) Siesta has no way to handle node failure. I bet it can't even handle malloc returning NULL. </div><div><br></div><div>If a node fails more than once a month, the hardware is bad and you should buy new stuff. </div><div><br></div><div>Jeff<br><br>Sent from my iPhone</div><div><br>On Dec 6, 2013, at 7:04 PM, Julio Henrique <<a href="mailto:juliohenrique@msn.com">juliohenrique@msn.com</a>> wrote:<br><br></div><blockquote type="cite"><div>

<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style>
<div dir="ltr"><br><span class="hps">Okay Pavan.</span> <span class="hps">I</span><span>'ll try that</span><span>.</span> <span class="hps">Then I'll</span> <span class="hps">return the result</span><span>.</span><br><span class="hps">Thank's</span><span>.</span><br><span class="hps">Julio</span><span>.</span><br><div>
<table width="100%" height="100%" id="HB_Mail_Container" border="0" cellspacing="0" cellpadding="0" unselectable="on">
<tbody>
<tr height="100%" unselectable="on" width="100%">
<td width="100%" height="250" id="HB_Focus_Element" background="" valign="top" unselectable="off">
<p> <br></p></td></tr>
<tr unselectable="on" hb_tag="1">
<td height="1" style="font-size: 1pt;" unselectable="on">
<div id="hotbar_promo"></div></td></tr></tbody></table>
<blockquote id="865de195">
<div>
<table width="100%" height="100%" id="HB_Mail_Container" border="0" cellspacing="0" cellpadding="0" unselectable="on">
<tbody>
<tr height="100%" unselectable="on" width="100%">
<td width="100%" height="250" id="HB_Focus_Element" background="" valign="top" unselectable="off">
<p align="right"> </p></td></tr>
<tr unselectable="on" hb_tag="1">
<td height="1" style="font-size: 1pt;" unselectable="on">
<div id="hotbar_promo"></div></td></tr></tbody></table>
<blockquote id="33f86517">
 <br></blockquote></div></blockquote></div><br> <br><div>> From: <a href="mailto:balaji@mcs.anl.gov">balaji@mcs.anl.gov</a><br>> Date: Fri, 6 Dec 2013 19:01:08 -0600<br>> To: <a href="mailto:discuss@mpich.org">discuss@mpich.org</a><br>> Subject: Re: [mpich-discuss] Mpich + Siesta erro<br>> <br>> Hi Julio,<br>> <br>> There are two steps needed for this:<br>> <br>> 1. You need to tell your MPI application to return errors instead of aborting.<br>> <br>> 2. Tell the process manager to not clean up your remaining processes when one of the processes dies.<br>> <br>> Details on both these steps are listed in the "Fault Tolerance” section of the MPICH README.  Please try it out and let us know how it goes.<br>> <br>>   — Pavan<br>> <br>> On Dec 6, 2013, at 6:54 PM, Julio Henrique <<a href="mailto:juliohenrique@msn.com">juliohenrique@msn.com</a>> wrote:<br>> <br>> > <br>> > I am using mpich-3.0.4 on cluster with 7 nodes running the latest version of siesta. My problem is that when a one node goes down, the siesta and mpich stops running and giveserror.<br>> > How do I get when a node falls, siesta and mpich continue to run?<br>> > Thank's.<br>> > Julio.<br>> >  <br>> >  <br>> >  <br>> > _______________________________________________<br>> > discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a><br>> > To manage subscription options or unsubscribe:<br>> > <a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a><br>> <br>> --<br>> Pavan Balaji<br>> <a href="http://www.mcs.anl.gov/~balaji">http://www.mcs.anl.gov/~balaji</a><br>> <br>> _______________________________________________<br>> discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a><br>> To manage subscription options or unsubscribe:<br>> <a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a><br></div>                                      </div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a></span><br><span>To manage subscription options or unsubscribe:</span><br><span><a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a></span></div></blockquote></body></html>