<div>Thank you! It helps!</div><div>I checked my /etc/hosts, as bellow:</div><div><br></div><div><div>127.0.0.1       localhost</div><div>127.0.1.1       mpislaver1</div><div>10.10.10.10     mpimaster</div><div>10.10.10.11     mpislaver1</div><div># The following lines are desirable for IPv6 capable hosts</div><div>::1     ip6-localhost ip6-loopback</div><div>fe00::0 ip6-localnet</div><div>ff00::0 ip6-mcastprefix</div><div>ff02::1 ip6-allnodes</div><div>ff02::2 ip6-allrouters</div></div><div><br></div><div>It seems that the second line"127.0.1.1 mpislaver1" causes ambiguity. </div><div>The Error gone after I deleted this line on both hosts!</div><div><br></div><div><div style="color:#909090;font-family:Arial Narrow;font-size:12px">------------------</div><div style="font-size:14px;font-family:Verdana;color:#000;"><div>Jie-Jun Wu<br>Department of Computer Science,<br>Sun Yat-sen University,<br>Guangzhou, <br>P.R. China<br>
<style></style>
</div></div></div><div> </div><div><div><br></div><div><br></div><div style="font-size: 12px;font-family: Arial Narrow;padding:2px 0 2px 0;">------------------ 原始邮件 ------------------</div><div style="font-size: 12px;background:#efefef;padding:8px;"><div><b>发件人:</b> "Balaji, Pavan";<balaji@anl.gov>;</div><div><b>发送时间:</b> 2014年2月19日(星期三) 中午12:38</div><div><b>收件人:</b> "discuss@mpich.org"<discuss@mpich.org>; <wbr></div><div></div><div><b>主题:</b> Re: [mpich-discuss] Communication Error when installing MPICH onmulti HOSTS.</div></div><div><br></div>




<div><br>
</div>
<div>It’s hard to tell, but this does indicate some problem with your communication setup.  Did you verify your /etc/hosts like described on the FAQ page?</div>
<div><br>
</div>
<div>  — Pavan</div>
<div><br>
</div>
<span id="OLK_SRC_BODY_SECTION">
<div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt">
<span style="font-weight:bold">From: </span>维洛逐风 <<a href="mailto:wu_0317@qq.com">wu_0317@qq.com</a>><br>
<span style="font-weight:bold">Reply-To: </span>"<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>" <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<span style="font-weight:bold">Date: </span>Tuesday, February 18, 2014 at 5:21 AM<br>
<span style="font-weight:bold">To: </span>discuss <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<span style="font-weight:bold">Subject: </span>[mpich-discuss] Communication Error when installing MPICH on multi HOSTS.<br>
</div>
<div><br>
</div>
<div>
<div>
<div>HI.</div>
<div><br>
</div>
<div>
<div style="line-height: 21px;">My environment:</div>
<div style="line-height: 21px;">Two Vmware VMs with ubuntu-server12.04 OS, called mpimaster,mpislaver1</div>
<div style="line-height: 21px;">they both linked to a virtual network 10.0.0.1;</div>
<div style="line-height: 21px;">they can ssh to each other without password;</div>
<div style="line-height: 21px;">I have disabled the fire walls with "<span style="color: rgb(51, 51, 51); font-family: arial; font-size: 13px; line-height: 20.020000457763672px;">sudo ufw disable</span><span style="line-height: 1.5;">"</span></div>
<div style="line-height: 21px;"><span style="line-height: 1.5;">I  install  mpich3.0.4 on a NFS servered by mpimaster.</span></div>
</div>
<div><br>
</div>
<div>I installed mpich3.0.4 follow the "readme.txt", it has Communication problem when progresses from different host comunicate with each other.<br>
</div>
<div><img src="cid:6FBB8BAD@5353463D.B35F0453.png" filesize="68330" modifysize="94%" diffpixels="22px" scalingmode="zoom" style="width: 1148px; height: 774px;"></div>
<div><br>
</div>
<div>From picture above we can see it's ok to run "cpi" on both hosts separately.</div>
<div><br>
</div>
<div>If you can't see the picture,plz see the shell's below.</div>
<div><br>
</div>
<div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 1 of 4 is on mpimaster</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Process 3 of 4 is on mpimaster</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.028108</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster -n 4 ./examples/cpi</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 1 of 4 is on mpimaster</div>
<div>Process 3 of 4 is on mpimaster</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.027234</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpislaver1 -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpislaver1</div>
<div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div>
<div>wall clock time = 0.000093</div>
<div>Process 1 of 4 is on mpislaver1</div>
<div>Process 2 of 4 is on mpislaver1</div>
<div>Process 3 of 4 is on mpislaver1</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster,mpislaver1 -n 4 ./examples/cpi</div>
<div>Process 0 of 4 is on mpimaster</div>
<div>Process 2 of 4 is on mpimaster</div>
<div>Fatal error in PMPI_Reduce: A process has failed, error stack:</div>
<div>PMPI_Reduce(1217)...............: MPI_Reduce(sbuf=0x7fff73a51ce8, rbuf=0x7fff73a51cf0, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(779)..........:</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(835)..........:</div>
<div>MPIR_Reduce_binomial(144).......:</div>
<div>MPIDI_CH3U_Recvq_FDU_or_AEP(667): Communication error with rank 1</div>
<div>MPIR_Reduce_intra(799)..........:</div>
<div>MPIR_Reduce_impl(1029)..........:</div>
<div>MPIR_Reduce_intra(835)..........:</div>
<div>MPIR_Reduce_binomial(206).......: Failure during collective</div>
<div><br>
</div>
<div>================================================================================</div>
<div>=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES</div>
<div>=   EXIT CODE: 1</div>
<div>=   CLEANING UP REMAINING PROCESSES</div>
<div>=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES</div>
<div>================================================================================</div>
<div>[proxy:0:1@mpislaver1] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:886)</div>
<div>[proxy:0:1@mpislaver1] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c</div>
<div>[proxy:0:1@mpislaver1] main (./pm/pmiserv/pmip.c:206): demux engine error waitin</div>
<div>[mpiexec@mpimaster] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_</div>
<div>[mpiexec@mpimaster] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wa</div>
<div>[mpiexec@mpimaster] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:21</div>
<div>[mpiexec@mpimaster] main (./ui/mpich/mpiexec.c:331): process manager error waiti</div>
<div>ailab@mpimaster:~/Downloads/mpich-3.0.4$</div>
</div>
<div><br>
</div>
<div>plz help,THX!</div>
<div><br>
</div>
<div><br>
</div>
<div>
<div style="color:#909090;font-family:Arial Narrow;font-size:12px">------------------</div>
<div style="font-size:14px;font-family:Verdana;color:#000;">
<div>Jie-Jun Wu<br>
Department of Computer Science,<br>
Sun Yat-sen University,<br>
Guangzhou, <br>
P.R. China<br>
<style></style></div>
</div>
</div>
<div> </div>
</div>
</div>
</span></div>