<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif;">
<div><br>
</div>
<div>It’s hard to tell, but this does indicate some problem with your communication setup.  Did you verify your /etc/hosts like described on the FAQ page?</div>
<div><br>
</div>
<div>  — Pavan</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt">
<span style="font-weight:bold">From: </span>维洛逐风 <<a href="mailto:wu_0317@qq.com">wu_0317@qq.com</a>><br>
<span style="font-weight:bold">Reply-To: </span>"<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>" <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<span style="font-weight:bold">Date: </span>Tuesday, February 18, 2014 at 5:21 AM<br>
<span style="font-weight:bold">To: </span>discuss <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<span style="font-weight:bold">Subject: </span>[mpich-discuss] Communication Error when installing MPICH on multi HOSTS.<br>
</div>
<div><br>
</div>
<div>
<div>
<div>HI.</div>
<div><br>
</div>
<div>
<div style="line-height: 21px;">My environment:</div>
<div style="line-height: 21px;">Two Vmware VMs with ubuntu-server12.04 OS, called mpimaster,mpislaver1</div>
<div style="line-height: 21px;">they both linked to a virtual network 10.0.0.1;</div>
<div style="line-height: 21px;">they can ssh to each other without password;</div>
<div style="line-height: 21px;">I have disabled the fire walls with "<span style="color: rgb(51, 51, 51); font-family: arial; font-size: 13px; line-height: 20.020000457763672px;">sudo ufw disable</span><span style="line-height: 1.5;">"</span></div>
<div style="line-height: 21px;"><span style="line-height: 1.5;">I  install  mpich3.0.4 on a NFS servered by mpimaster.</span></div>
</div>
<div><br>
</div>
<div>I installed mpich3.0.4 follow the "readme.txt", it has Communication problem when progresses from different host comunicate with each other.<br>
</div>
<div><img src="cid:E1179051@3853243A.43420353.png" filesize="68330" modifysize="94%" diffpixels="22px" scalingmode="zoom" style="width: 1148px; height: 774px;"></div>
<div><br>
</div>
<div>From picture above we can see it's ok to run "cpi" on both hosts separately.</div>
<div><br>
</div>
<div>If you can't see the picture,plz see the shell's below.</div>
<div><br>
</div>
<div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 1 of 4 is on mpimaster</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Process 3 of 4 is on mpimaster</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.028108</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster -n 4 ./examples/cpi</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 1 of 4 is on mpimaster</div>
<div>Process 3 of 4 is on mpimaster</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.027234</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpislaver1 -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpislaver1</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.000093</div>
<div>Process 1 of 4 is on mpislaver1</div>
<div>Process 2 of 4 is on mpislaver1</div>
<div>Process 3 of 4 is on mpislaver1</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster,mpislaver1 -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Fatal error in PMPI_Reduce: A process has failed, error stack:</div>
<div>PMPI_Reduce(1217)...............: MPI_Reduce(sbuf=0x7fff73a51ce8, rbuf=0x7fff73a51cf0, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(779)..........:</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(835)..........:</div>
<div>MPIR_Reduce_binomial(144).......:</div>
<div>MPIDI_CH3U_Recvq_FDU_or_AEP(667): Communication error with rank 1</div>
<div>MPIR_Reduce_intra(799)..........:</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(835)..........:</div>
<div>MPIR_Reduce_binomial(206).......: Failure during collective</div>
<div><br>
</div>
<div>================================================================================</div>
<div>=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES</div>
<div>=   EXIT CODE: 1</div>
<div>=   CLEANING UP REMAINING PROCESSES</div>
<div>=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES</div>
<div>================================================================================</div>
<div>[proxy:0:1@mpislaver1] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:886)</div>
<div>[proxy:0:1@mpislaver1] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c</div>
<div>[proxy:0:1@mpislaver1] main (./pm/pmiserv/pmip.c:206): demux engine error waitin</div>
<div>[mpiexec@mpimaster] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_</div>
<div>[mpiexec@mpimaster] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wa</div>
<div>[mpiexec@mpimaster] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:21</div>
<div>[mpiexec@mpimaster] main (./ui/mpich/mpiexec.c:331): process manager error waiti</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$</div>
</div>
<div><br>
</div>
<div>plz help,THX!</div>
<div><br>
</div>
<div><br>
</div>
<div>
<div style="color:#909090;font-family:Arial Narrow;font-size:12px">------------------</div>
<div style="font-size:14px;font-family:Verdana;color:#000;">
<div>Jie-Jun Wu<br>
Department of Computer Science,<br>
Sun Yat-sen University,<br>
Guangzhou, <br>
P.R. China<br>
<style></style></div>
</div>
</div>
<div> </div>
</div>
</div>
</span>
</body>
</html>