<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body dir="auto"><div>Can you provide a minimal example code that reproduced the problem?<br><br><br></div><div><br>On Oct 2, 2014, at 2:13 AM, XingFENG <<a href="mailto:xingfeng@cse.unsw.edu.au">xingfeng@cse.unsw.edu.au</a>> wrote:<br><br></div><blockquote type="cite"><div><div dir="ltr"><div><div><div>Hi Wesley Bland,<br><br></div>Thanks for your reply.<br><br></div>I have modified my codes. For each process, it first receives then sends message from/to others. However, same error still appears. <br><br></div>I also noted that the code works fine for single node machine. It crushed with this error on multi-node cluster.<br><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Sep 28, 2014 at 10:44 PM, Wesley Bland <span dir="ltr"><<a href="mailto:wbland@anl.gov" target="_blank">wbland@anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">The problem in this situation usually is that you're not posting enough receives and too many of your messages are getting buffered by the MPI library. Make sure you match up your sends and receives and whenever possible you post your receives early.<br>
<br>
Wesley<br>
<div><div class="h5"><br>
<br>
<br>
> On Sep 28, 2014, at 7:13 AM, XingFENG <<a href="mailto:xingfeng@cse.unsw.edu.au">xingfeng@cse.unsw.edu.au</a>> wrote:<br>
><br>
> Hi all,<br>
><br>
> I am running a MPI program on two machines. I got errors as follows:<br>
><br>
><br>
> ====================================================================<br>
> Fatal error in MPI_Test: Other MPI error, error stack:<br>
> MPI_Test(153)......................: MPI_Test(request=0xa0a088, flag=0x7fff470e86fc,  status=0x7fff470e86e0) failed<br>
> MPIDI_CH3I_Progress(150)...........:<br>
> MPID_nem_mpich2_test_recv(800).....:<br>
> MPID_nem_tcp_connpoll(1720)........:<br>
> state_commrdy_handler(1556)........:<br>
> MPID_nem_tcp_recv_handler(1459)....:<br>
> MPID_nem_handle_pkt(493)...........:<br>
> MPIDI_CH3_PktHandler_EagerSend(589): Failed to allocate memory for an unexpected message. 261892 unexpected messages queued.<br>
> Fatal error in MPI_Test: Other MPI error, error stack:<br>
> MPI_Test(153)......................: MPI_Test(request=0xadb128, flag=0x7fff33cba448, status=0x7fff33cba430) failed<br>
> MPIDI_CH3I_Progress(150)...........:<br>
> MPID_nem_mpich2_test_recv(800).....:<br>
> MPID_nem_tcp_connpoll(1720)........:<br>
> state_commrdy_handler(1556)........:<br>
> MPID_nem_tcp_recv_handler(1459)....:<br>
> MPID_nem_handle_pkt(493)...........:<br>
> MPIDI_CH3_PktHandler_EagerSend(589): Failed to allocate memory for an unexpected message. 261890 unexpected messages queued.<br>
> rank 1 in job 11  slave_36134   caused collective abort of all ranks<br>
>   exit status of rank 1: killed by signal 9<br>
><br>
> ====================================================================<br>
><br>
><br>
> I have never seen such errors before. What is the cause of this error? Is it an out of memory error? ( There is 20% remaining memory on machines )<br>
><br>
> Any help would be greatly appreciated. Thanks in advance!<br>
><br>
><br>
> --<br>
> Best Regards.<br>
> ---<br>
> Xing FENG<br>
> PhD Candidate<br>
> Database Research Group<br>
><br>
> School of Computer Science and Engineering<br>
> University of New South Wales<br>
> NSW 2052, Sydney<br>
><br>
> Phone: (+61) 413 857 288<br>
</div></div>> _______________________________________________<br>
> discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a><br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
</blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Best Regards.<br>---<br>Xing FENG<div>PhD Candidate<br>Database Research Group<br><br></div><div>School of Computer Science and Engineering<div>University of New South Wales<br></div>NSW 2052, Sydney<br></div><div><br></div><div>Phone: (+61) 413 857 288</div></div>
</div>
</div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>discuss mailing list     <a href="mailto:discuss@mpich.org">discuss@mpich.org</a></span><br><span>To manage subscription options or unsubscribe:</span><br><span><a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a></span><br></div></blockquote></body></html>