<div dir="ltr"><div>Hello Mpich,</div><div>I use mpich-3.1 on Ubuntu 14.</div><div>Each process has complicated logic except process 0.<br></div><div>Process 0 is used as a router to communicate with an application and broadcast/collect results from other processes.</div><div>During night runs, sometimes I see a single failure of process with rank 0.</div><div><br></div><div>From process 0 I get wallowing print:</div><div><font size="1">Assertion failed in file src/mpid/ch3/channels/nemesis/netmod/tcp/socksm.c at line 596: hdr.pkt_type == MPIDI_NEM_TCP_SOCKSM_PKT_ID_INFO || hdr.pkt_type == MPIDI_NEM_TCP_SOCKSM_PKT_TMPVC_INFO<br>internal ABORT - process 0<br>*** Error in `/export/home/fpd/versions/current_ver/third_party/MPI_Scheduler': double free or corruption (fasttop): 0x00007f27003f59a0 ***<br></font></div><div><br></div><div><b><u>Stack trace:</u></b></div><font size="1">2d40 /lib/x86_64-linux-gnu/libc.so.6(+0x36d40) [0x7f2712ff2d40]<br> gsignal + 57<br> abort + 328<br>f394 /lib/x86_64-linux-gnu/libc.so.6(+0x73394) [0x7f271302f394]<br>b66e /lib/x86_64-linux-gnu/libc.so.6(+0x7f66e) [0x7f271303b66e]<br> std::basic_string<char, std::char_traits<char>, std::allocator<char> >::~basic_string() + 31<br>8259 /lib/x86_64-linux-gnu/libc.so.6(+0x3c259) [0x7f2712ff8259]<br>82a5 /lib/x86_64-linux-gnu/libc.so.6(+0x3c2a5) [0x7f2712ff82a5]<br>d049 /export/home/fpd/versions/current_ver/third_party/libMPIServices.so(+0x224049) [0x7f2714bdd049]<br> MPID_Abort + 103<br> MPIR_Assert_fail + 37<br>d598 /export/home/fpd/versions/current_ver/third_party/libMPIServices.so(+0x244598) [0x7f2714bfd598]<br> MPID_nem_tcp_connpoll + 366<br> MPIDI_CH3I_Progress + 1408<br> MPI_Waitany + 1072</font><br><div><br></div><div>From the rest of processes I get:</div><div><font size="1">terminate called after throwing an instance of 'int'<br>s/netmod/tcp/socksm.c at line 596: hdr.pkt_type == MPIDI_NEM_TCP_SOCKSM_PKT_ID_INFO || hdr.pkt_type == MPIDI_NEM_TCP_SOCKSM_PKT_TMPVC_INFO<br>internal ABORT - process 1<br>*** Error in `Scheduler': double free or corruption (fasttop): 0x0000000003e16d60 ***</font><br></div><div><br></div><div>Unfortunately, I can't reproduce this failure on a simplified system. </div><div>Even on a real system failure can happen once in at night. </div><div><br></div><div>We have a memory monitor which shows that we have free memory on the computer.</div><div>Can you please advise me, what can be the reason for failure?</div><div><br></div><div>Regards,</div><div>Anatoly.</div><div><br></div></div>