<div>HI.</div><div><br></div><div><div style="line-height: 21px;">My environment:</div><div style="line-height: 21px;">Two Vmware VMs with ubuntu-server12.04 OS, called mpimaster,mpislaver1</div><div style="line-height: 21px;">they both linked to a virtual network 10.0.0.1;</div><div style="line-height: 21px;">they can ssh to each other without password;</div><div style="line-height: 21px;">I have disabled the fire walls with "<span style="color: rgb(51, 51, 51); font-family: arial; font-size: 13px; line-height: 20.020000457763672px;">sudo ufw disable</span><span style="line-height: 1.5;">"</span></div><div style="line-height: 21px;"><span style="line-height: 1.5;">I  install  mpich3.0.4 on a NFS servered by mpimaster.</span></div></div><div><br></div><div>I installed mpich3.0.4 follow the "readme.txt", it has Communication problem when progresses from different host comunicate with each other.<br></div><div><img src="cid:E1179051@3853243A.43420353.png" filesize="68330" modifysize="94%" diffpixels="22px" scalingmode="zoom" style="width: 1148px; height: 774px;"></div><div><br></div><div>From picture above we can see it's ok to run "cpi" on both hosts separately.</div><div><br></div><div>If you can't see the picture,plz see the shell's below.</div><div><br></div><div><div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -n 4 ./examples/cpi</div><div>Process 0 of 4 is on mpimaster</div><div>Process 1 of 4 is on mpimaster</div><div>Process 2 of 4 is on mpimaster</div><div>Process 3 of 4 is on mpimaster</div><div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div><div>wall clock time = 0.028108</div><div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster -n 4 ./examples/cpi</div><div>Process 2 of 4 is on mpimaster</div><div>Process 0 of 4 is on mpimaster</div><div>Process 1 of 4 is on mpimaster</div><div>Process 3 of 4 is on mpimaster</div><div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div><div>wall clock time = 0.027234</div><div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpislaver1 -n 4 ./examples/cpi</div><div>Process 0 of 4 is on mpislaver1</div><div>pi is approximately 3.1415926544231239, Error is 0.0000000008333307</div><div>wall clock time = 0.000093</div><div>Process 1 of 4 is on mpislaver1</div><div>Process 2 of 4 is on mpislaver1</div><div>Process 3 of 4 is on mpislaver1</div><div>ailab@mpimaster:~/Downloads/mpich-3.0.4$ mpiexec -hosts mpimaster,mpislaver1 -n 4 ./examples/cpi</div><div>Process 0 of 4 is on mpimaster</div><div>Process 2 of 4 is on mpimaster</div><div>Fatal error in PMPI_Reduce: A process has failed, error stack:</div><div>PMPI_Reduce(1217)...............: MPI_Reduce(sbuf=0x7fff73a51ce8, rbuf=0x7fff73a51cf0, count=1, MPI_DOUBLE, MPI_SUM, root=0, MPI_COMM_WORLD) failed</div><div>MPIR_Reduce_impl(1029)..........:</div><div>MPIR_Reduce_intra(779)..........:</div><div>MPIR_Reduce_impl(1029)..........:</div><div>MPIR_Reduce_intra(835)..........:</div><div>MPIR_Reduce_binomial(144).......:</div><div>MPIDI_CH3U_Recvq_FDU_or_AEP(667): Communication error with rank 1</div><div>MPIR_Reduce_intra(799)..........:</div><div>MPIR_Reduce_impl(1029)..........:</div><div>MPIR_Reduce_intra(835)..........:</div><div>MPIR_Reduce_binomial(206).......: Failure during collective</div><div><br></div><div>================================================================================</div><div>=   BAD TERMINATION OF ONE OF YOUR APPLICATION PROCESSES</div><div>=   EXIT CODE: 1</div><div>=   CLEANING UP REMAINING PROCESSES</div><div>=   YOU CAN IGNORE THE BELOW CLEANUP MESSAGES</div><div>================================================================================</div><div>[proxy:0:1@mpislaver1] HYD_pmcd_pmip_control_cmd_cb (./pm/pmiserv/pmip_cb.c:886)</div><div>[proxy:0:1@mpislaver1] HYDT_dmxu_poll_wait_for_event (./tools/demux/demux_poll.c</div><div>[proxy:0:1@mpislaver1] main (./pm/pmiserv/pmip.c:206): demux engine error waitin</div><div>[mpiexec@mpimaster] HYDT_bscu_wait_for_completion (./tools/bootstrap/utils/bscu_</div><div>[mpiexec@mpimaster] HYDT_bsci_wait_for_completion (./tools/bootstrap/src/bsci_wa</div><div>[mpiexec@mpimaster] HYD_pmci_wait_for_completion (./pm/pmiserv/pmiserv_pmci.c:21</div><div>[mpiexec@mpimaster] main (./ui/mpich/mpiexec.c:331): process manager error waiti</div><div>ailab@mpimaster:~/Downloads/mpich-3.0.4$</div></div><div><br></div><div>plz help,THX!</div><div><br></div><div><br></div><div><div style="color:#909090;font-family:Arial Narrow;font-size:12px">------------------</div><div style="font-size:14px;font-family:Verdana;color:#000;"><div>Jie-Jun Wu<br>Department of Computer Science,<br>Sun Yat-sen University,<br>Guangzhou, <br>P.R. China<br>
<style></style>
</div></div></div><div> </div>