<div dir="ltr">Greetings,<div><br></div><div>I have been trying for about a week to get MPICH to work. </div><div><br></div><div>I am running Ubuntu 20.04.4 on an HP Z-600 as a master with three nodes all under NFS.</div><div><br></div><div>NFS is working with ssh passwordless access and common hard drive directory between all four computers, (master plus three nodes).</div><div><br></div><div>MPICH had some problems with HYDRA Proxies however a re-install with apt-get install mpich solved the problem and it worked with processors accessed on the entire array.</div><div><br></div><div>I installed a hard drive for a different user on the master node, leaving the master user mpiuser unchanged. There was some difficulty in getting the drive to mount on the different user, but now mpich ohny works on the master node. I have reinstalled a number of times and am installing by downloading mpich-4.0.1 from <a href="http://www.mpich.org">http://www.mpich.org</a>.</div><div><br></div><div>The running of a single node works:</div><div><br></div><div>mpiuser@BD-Main:~$ mpiexec -n 3 ./examples/cpi<br>Invalid MIT-MAGIC-COOKIE-1 keyInvalid MIT-MAGIC-COOKIE-1 keyInvalid MIT-MAGIC-COOKIE-1 keyProcess 0 of 3 is on BD-Main<br>Process 1 of 3 is on BD-Main<br>Process 2 of 3 is on BD-Main<br>pi is approximately 3.1415926544231318, Error is 0.0000000008333387<br>wall clock time = 0.002317<br>mpiuser@BD-Main:~$</div><div><br></div><div>and there is an invalid key somewhere in that output. Machinefile contains the following: (This is the host file???)</div><div><br></div>mpiuser@BD-Main:~$ more machinefile<br>node1:4<br>node2:2<br>node3:4<br><br>mpiuser@BD-Main:~$ <br><div><br></div><div>And there is the following error with multiple nodes:</div><div><br></div><div>mpiuser@BD-Main:~$ mpiexec -f machinefile -n 3 ./examples/cpi<br>/home/mpiuser/mpich-install/bin/hydra_pmi_proxy: error while loading shared libraries: libhwloc.so.15: cannot open shared object file: No such file or directory<br>^C[mpiexec@BD-Main] Sending Ctrl-C to processes as requested<br>[mpiexec@BD-Main] Press Ctrl-C again to force abort<br>[mpiexec@BD-Main] HYDU_sock_write (utils/sock/sock.c:254): write error (Bad file descriptor)<br>[mpiexec@BD-Main] HYD_pmcd_pmiserv_send_signal (pm/pmiserv/pmiserv_cb.c:176): unable to write data to proxy<br>[mpiexec@BD-Main] ui_cmd_cb (pm/pmiserv/pmiserv_pmci.c:42): unable to send signal downstream<br>[mpiexec@BD-Main] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status<br>[mpiexec@BD-Main] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:160): error waiting for event<br>[mpiexec@BD-Main] main (ui/mpich/mpiexec.c:325): process manager error waiting for completion<br>mpiuser@BD-Main:~$</div><div><br></div><div>The program hangs after the first error message  <br></div><div>/home/mpiuser/mpich-install/bin/hydra_pmi_proxy: error while loading shared libraries: libhwloc.so.15: cannot open shared object file: No such file or directory<br></div><div><br></div><div>and had to exit with ctl-c.</div><div><br></div><div>I have hunted everywhere for libhwloc.so.15 and found two rpm files hwloc-libs-1.11.8-4.el7.x86_64.rpm and hwloc-2.7.1.tar.bz2 which I managed to download but cannot install the librarires. Synaptic is not help since the repository for hwloc is not installed.</div><div><br></div><div>Another indication of  a problem is that the file cp mpich4.0.1/src/pm/hydra/tools/topo/hwloc/hwloc/config.log is missing from the ./configure step. Obviously it is not included in the zipped files attached here. The configure, make and make install steps ran without a hitch and without error.</div><div> <br></div><div>This is the output of mpich -info</div><div><br></div><div>mpiuser@BD-Main:~$ mpiexec -info<br>HYDRA build details:<br>    Version:                                 4.0.1<br>    Release Date:                            Tue Feb 22 16:37:51 CST 2022<br>    CC:                              gcc      <br>    Configure options:                       '--disable-option-checking' '--prefix=/home/mpiuser/mpich-install' '--cache-file=/dev/null' '--srcdir=.' 'CC=gcc' 'CFLAGS= ' 'LDFLAGS=' 'LIBS=' 'CPPFLAGS= '<br>    Process Manager:                         pmi<br>    Launchers available:                     ssh rsh fork slurm ll lsf sge manual persist<br>    Topology libraries available:            hwloc<br>    Resource management kernels available:   user slurm ll lsf sge pbs cobalt<br>    Demux engines available:                 poll select<br>mpiuser@BD-Main:~$</div><div><br></div><div>The master node is BD-Main and this is the output of /etc/hosts which is similar on all nodes:</div><div><br></div><div>mpiuser@BD-Main:~$ more /etc/hosts<br>127.0.0.1      localhost<br>127.0.1.1      BD-Main<br><br><br># The following lines are desirable for IPv6 capable hosts<br>::1     ip6-localhost ip6-loopback<br>fe00::0 ip6-localnet<br>ff00::0 ip6-mcastprefix<br>ff02::1 ip6-allnodes<br>ff02::2 ip6-allrouters<br><br># The following sets up the local network for cluster<br><br>10.0.0.1     master<br>10.0.0.2     node1<br>10.0.0.3     node2<br>10.0.0.4     node3<br><br></div><div>As I have mentioned before, this set-up seems to have worked and NFS is working well. I have purged both hydra and mpich and then reinstalled mpich-4.0.1 according to the instructions in the README fiel.</div><div><br></div><div>Any help would be greatly appreciated. Thank you for your time.</div><div><br></div><div>Yours,</div><div><br></div><div>Bruce</div><div><br></div><div> <br></div></div>