<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class="">Hi Manuel,</div><div class=""><br class=""></div><div class="">Unfortunately, the situation for checkpointing hasn’t changed much since that last email. Checkpointing has been a relatively low priority item for us since full-system checkpointing it is used by so few people now (in favor of more application-centric checkpointing) and we have very limited bandwidth to figure out what needs to happen to support it again.</div><div class=""><br class=""></div><div class="">I’m not sure of the last version of MPICH that did work with checkpointing (probably something in the MPICH2-1.4 series if I had to guess. You’re welcome to try it out, but there’s a possibility that you’ll run into issues running such an old version against the SLURM and BLCR.</div><div class=""><br class=""></div><div class="">It’s possible that we’ll get around to fixing checkpointing in the future, but there’s no timeline for that happening. AFAIK, pretty much all of the big MPI implementations have dropped support for it for the same reasons (<a href="https://www.open-mpi.org/faq/?category=ft" class="">https://www.open-mpi.org/faq/?category=ft</a>).</div><div class=""><br class=""></div><div class="">Thanks,</div><div class="">Wesley</div><br class=""><div><blockquote type="cite" class=""><div class="">On Oct 23, 2014, at 10:18 AM, Manuel Rodríguez Pascual <<a href="mailto:manuel.rodriguez.pascual@gmail.com" class="">manuel.rodriguez.pascual@gmail.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div dir="ltr" class="">Good afternoon all,<div class=""><br class=""></div><div class="">I am a newbie in this MPICH world. I am trying to install a cluster with MPICH, having the possibility of checkpoint parallel tasks.</div><div class=""><br class=""></div><div class="">My original idea was a software stack based on SLURM  14.03.8 + MPICH mpich-3.1.3 + BLCR 0.8.5 . They are supposed to have good integration among them, and the configuration process has been quite smooth until now.</div><div class=""><br class=""></div><div class="">I have found however that the checkpoint of MPICH tasks is not working. At first I though it was my fault (configuration issues or whatever) due to it can be read in MPICH home page that BLCR integration is possible  <a href="https://wiki.mpich.org/mpich/index.php/Checkpointing" class="">https://wiki.mpich.org/mpich/index.php/Checkpointing</a></div><div class=""><br class=""></div><div class="">However, when looking for the solution I found this thread in this same mailing list:</div><div class=""><a href="http://lists.mpich.org/pipermail/discuss/2014-April/002498.html" class="">http://lists.mpich.org/pipermail/discuss/2014-April/002498.html</a><br class=""></div><div class=""><br class=""></div><div class="">saying " BLCR checkpointing hasn't worked for a few versions now. It's something we're working to fix in a future version". </div><div class=""><br class=""></div><div class="">My question is then,</div><div class=""><br class=""></div><div class="">-Is it possible right now to checkpoint MPICH with BLCR?</div><div class=""><br class=""></div><div class="">-If not, is there any working checkpoint mechanism that you can suggest me?</div><div class=""><br class=""></div><div class="">-If not, are you aware of a previous MPICH version where BLCR does work? Are there any drawbacks on employing it while you get the new one fixed? (Are you getting the new one fixed?)</div><div class=""><br class=""></div><div class=""> Thanks for your attention. Best regards,<br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class=""><br class=""></div><div class="">Manuel</div><div class=""><br clear="all" class=""><div class=""><br class=""></div>-- <br class="">Dr. Manuel Rodríguez-Pascual<br class="">skype: manuel.rodriguez.pascual<br class="">phone: (+34) 913466173 // (+34) 679925108<br class=""> <br class="">CIEMAT-Moncloa<br class="">Edificio 22, desp. 1.25<br class="">Avenida Complutense, 40 <br class="">28040- MADRID<br class="">SPAIN
</div></div>
_______________________________________________<br class="">discuss mailing list     <a href="mailto:discuss@mpich.org" class="">discuss@mpich.org</a><br class="">To manage subscription options or unsubscribe:<br class=""><a href="https://lists.mpich.org/mailman/listinfo/discuss" class="">https://lists.mpich.org/mailman/listinfo/discuss</a></div></blockquote></div><br class=""></body></html>