<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><div><div><span class="im">Hi Wesley Bland,<br><br></span></div><span class="im">When I was searching on the Internet, I realized that it could because the mpich installed on these machines are too old. I found a FAQ entry as below :<br><a href="https://wiki.mpich.org/mpich/index.php/Frequently_Asked_Questions#Q:_I_don.27t_like_.3CWHATEVER.3E_about_mpd.2C_or_I.27m_having_a_problem_with_mpdboot.2C_can_you_fix_it.3F">https://wiki.mpich.org/mpich/index.php/Frequently_Asked_Questions#Q:_I_don.27t_like_.3CWHATEVER.3E_about_mpd.2C_or_I.27m_having_a_problem_with_mpdboot.2C_can_you_fix_it.3F</a><br><br></span></div><span class="im">I installed an up-to-date version of OpenMPI on these two machines. And the problem is gone. I guess a recent MPICH would help, too.<br><br>Thanks very much for your time.<br></span></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Oct 2, 2014 at 8:57 PM, XingFENG <span dir="ltr"><<a href="mailto:xingfeng@cse.unsw.edu.au" target="_blank">xingfeng@cse.unsw.edu.au</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><span class=""><div><div>Hi Wesley Bland,<br><br></div>Thanks for your reply.<br><br></div></span>My codes is relatively big( around 2000 lines). I will try to make and post one small example later.<br></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Oct 2, 2014 at 8:50 PM, Wesley Bland <span dir="ltr"><<a href="mailto:wbland@anl.gov" target="_blank">wbland@anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="auto"><div>Can you provide a minimal example code that reproduced the problem?<br><br><br></div><div><div><div><br>On Oct 2, 2014, at 2:13 AM, XingFENG <<a href="mailto:xingfeng@cse.unsw.edu.au" target="_blank">xingfeng@cse.unsw.edu.au</a>> wrote:<br><br></div><blockquote type="cite"><div><div dir="ltr"><div><div><div>Hi Wesley Bland,<br><br></div>Thanks for your reply.<br><br></div>I have modified my codes. For each process, it first receives then sends message from/to others. However, same error still appears. <br><br></div>I also noted that the code works fine for single node machine. It crushed with this error on multi-node cluster.<br><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Sep 28, 2014 at 10:44 PM, Wesley Bland <span dir="ltr"><<a href="mailto:wbland@anl.gov" target="_blank">wbland@anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">The problem in this situation usually is that you're not posting enough receives and too many of your messages are getting buffered by the MPI library. Make sure you match up your sends and receives and whenever possible you post your receives early.<br>
<br>
Wesley<br>
<div><div><br>
<br>
<br>
> On Sep 28, 2014, at 7:13 AM, XingFENG <<a href="mailto:xingfeng@cse.unsw.edu.au" target="_blank">xingfeng@cse.unsw.edu.au</a>> wrote:<br>
><br>
> Hi all,<br>
><br>
> I am running a MPI program on two machines. I got errors as follows:<br>
><br>
><br>
> ====================================================================<br>
> Fatal error in MPI_Test: Other MPI error, error stack:<br>
> MPI_Test(153)......................: MPI_Test(request=0xa0a088, flag=0x7fff470e86fc,  status=0x7fff470e86e0) failed<br>
> MPIDI_CH3I_Progress(150)...........:<br>
> MPID_nem_mpich2_test_recv(800).....:<br>
> MPID_nem_tcp_connpoll(1720)........:<br>
> state_commrdy_handler(1556)........:<br>
> MPID_nem_tcp_recv_handler(1459)....:<br>
> MPID_nem_handle_pkt(493)...........:<br>
> MPIDI_CH3_PktHandler_EagerSend(589): Failed to allocate memory for an unexpected message. 261892 unexpected messages queued.<br>
> Fatal error in MPI_Test: Other MPI error, error stack:<br>
> MPI_Test(153)......................: MPI_Test(request=0xadb128, flag=0x7fff33cba448, status=0x7fff33cba430) failed<br>
> MPIDI_CH3I_Progress(150)...........:<br>
> MPID_nem_mpich2_test_recv(800).....:<br>
> MPID_nem_tcp_connpoll(1720)........:<br>
> state_commrdy_handler(1556)........:<br>
> MPID_nem_tcp_recv_handler(1459)....:<br>
> MPID_nem_handle_pkt(493)...........:<br>
> MPIDI_CH3_PktHandler_EagerSend(589): Failed to allocate memory for an unexpected message. 261890 unexpected messages queued.<br>
> rank 1 in job 11  slave_36134   caused collective abort of all ranks<br>
>   exit status of rank 1: killed by signal 9<br>
><br>
> ====================================================================<br>
><br>
><br>
> I have never seen such errors before. What is the cause of this error? Is it an out of memory error? ( There is 20% remaining memory on machines )<br>
><br>
> Any help would be greatly appreciated. Thanks in advance!<br>
><br>
><br>
> --<br>
> Best Regards.<br>
> ---<br>
> Xing FENG<br>
> PhD Candidate<br>
> Database Research Group<br>
><br>
> School of Computer Science and Engineering<br>
> University of New South Wales<br>
> NSW 2052, Sydney<br>
><br>
> Phone: <a href="tel:%28%2B61%29%20413%20857%20288" value="+61413857288" target="_blank">(+61) 413 857 288</a><br>
</div></div>> _______________________________________________<br>
> discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
</blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Best Regards.<br>---<br>Xing FENG<div>PhD Candidate<br>Database Research Group<br><br></div><div>School of Computer Science and Engineering<div>University of New South Wales<br></div>NSW 2052, Sydney<br></div><div><br></div><div>Phone: <a href="tel:%28%2B61%29%20413%20857%20288" value="+61413857288" target="_blank">(+61) 413 857 288</a></div></div>
</div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a></span><br><span>To manage subscription options or unsubscribe:</span><br><span><a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a></span><br></div></blockquote></div></div></div><br>_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br></blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Best Regards.<br>---<br>Xing FENG<div>PhD Candidate<br>Database Research Group<br><br></div><div>School of Computer Science and Engineering<div>University of New South Wales<br></div>NSW 2052, Sydney<br></div><div><br></div><div>Phone: <a href="tel:%28%2B61%29%20413%20857%20288" value="+61413857288" target="_blank">(+61) 413 857 288</a></div></div>
</div>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Best Regards.<br>---<br>Xing FENG<div>PhD Candidate<br>Database Research Group<br><br></div><div>School of Computer Science and Engineering<div>University of New South Wales<br></div>NSW 2052, Sydney<br></div><div><br></div><div>Phone: (+61) 413 857 288</div></div>
</div>