<div dir="ltr"><div>Hello, I am trying to use mpich for a beowulf cluster. I am able to do passwordless ssh from one node to another. I have made a common directory using nfs mount for both the nodes. So I don't think there are any issues on the ssh or networking side, but still mpirun is not working.</div><div><br></div><div>The output of the following line is :<br></div><div># mpiuser@ip-172-31-38-210:~/cloud$ mpirun -np 2 -hosts node1,node0 -v --launcher ssh ./cpi</div><div><br></div><div>host: node1<br>host: node0<br><br>==================================================================================================<br>mpiexec options:<br>----------------<br>  Base path: /usr/bin/<br>  Launcher: ssh<br>  Debug level: 1<br>  Enable X: -1<br><br>  Global environment:<br>  -------------------<br>    SHELL=/bin/bash<br>    PWD=/home/mpiuser/cloud<br>    LOGNAME=mpiuser<br>    HOME=/home/mpiuser<br>    LANG=C.UTF-8<br>    LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:<br>    LESSCLOSE=/usr/bin/lesspipe %s %s<br>    TERM=xterm<br>    LESSOPEN=| /usr/bin/lesspipe %s<br>    USER=mpiuser<br>    SHLVL=1<br>    LD_LIBRARY_PATH=”/usr/lib:”<br>    XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop<br>    PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin<br>    MAIL=/var/mail/mpiuser<br>    _=/usr/bin/mpirun<br>    OLDPWD=/home/mpiuser<br><br>  Hydra internal environment:<br>  ---------------------------<br>    GFORTRAN_UNBUFFERED_PRECONNECTED=y<br><br><br>    Proxy information:<br>    *********************<br>      [1] proxy: node1 (1 cores)<br>      Exec list: ./cpi (1 processes); <br><br>      [2] proxy: node0 (1 cores)<br>      Exec list: ./cpi (1 processes); <br><br><br>==================================================================================================<br><br>[mpiexec@ip-172-31-38-210] Timeout set to -1 (-1 means infinite)<br>[mpiexec@ip-172-31-38-210] Got a control port string of ip-172-31-38-210:39041<br><br>Proxy launch args: /usr/bin/hydra_pmi_proxy --control-port ip-172-31-38-210:39041 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id <br><br>Arguments being passed to proxy 0:<br>--version 3.3.2 --iface-ip-env-name MPIR_CVAR_CH3_INTERFACE_HOSTNAME --hostname node1 --global-core-map 0,1,2 --pmi-id-map 0,0 --global-process-count 2 --auto-cleanup 1 --pmi-kvsname kvs_8191_0_1424805634_ip-172-31-38-210 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 17 'SHELL=/bin/bash' 'PWD=/home/mpiuser/cloud' 'LOGNAME=mpiuser' 'HOME=/home/mpiuser' 'LANG=C.UTF-8' 'LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:' 'LESSCLOSE=/usr/bin/lesspipe %s %s' 'TERM=xterm' 'LESSOPEN=| /usr/bin/lesspipe %s' 'USER=mpiuser' 'SHLVL=1' 'LD_LIBRARY_PATH=”/usr/lib:”' 'XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop' 'PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin' 'MAIL=/var/mail/mpiuser' '_=/usr/bin/mpirun' 'OLDPWD=/home/mpiuser' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /home/mpiuser/cloud --exec-args 1 ./cpi <br><br>Arguments being passed to proxy 1:<br>--version 3.3.2 --iface-ip-env-name MPIR_CVAR_CH3_INTERFACE_HOSTNAME --hostname node0 --global-core-map 0,1,2 --pmi-id-map 0,1 --global-process-count 2 --auto-cleanup 1 --pmi-kvsname kvs_8191_0_1424805634_ip-172-31-38-210 --pmi-process-mapping (vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 17 'SHELL=/bin/bash' 'PWD=/home/mpiuser/cloud' 'LOGNAME=mpiuser' 'HOME=/home/mpiuser' 'LANG=C.UTF-8' 'LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:' 'LESSCLOSE=/usr/bin/lesspipe %s %s' 'TERM=xterm' 'LESSOPEN=| /usr/bin/lesspipe %s' 'USER=mpiuser' 'SHLVL=1' 'LD_LIBRARY_PATH=”/usr/lib:”' 'XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop' 'PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin' 'MAIL=/var/mail/mpiuser' '_=/usr/bin/mpirun' 'OLDPWD=/home/mpiuser' --global-user-env 0 --global-system-env 1 'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec --exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir /home/mpiuser/cloud --exec-args 1 ./cpi <br><br>[mpiexec@ip-172-31-38-210] Launch arguments: /usr/bin/ssh -x node1 "/usr/bin/hydra_pmi_proxy" --control-port ip-172-31-38-210:39041 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id 0 <br>[mpiexec@ip-172-31-38-210] Launch arguments: /usr/bin/ssh -x node0 "/usr/bin/hydra_pmi_proxy" --control-port ip-172-31-38-210:39041 --debug --rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2 --proxy-id 1 <br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): init<br>pmi_version=1 pmi_subversion=1 <br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=response_to_init pmi_version=1 pmi_subversion=1 rc=0<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get_maxes<br><br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=maxes kvsname_max=256 keylen_max=64 vallen_max=1024<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get_appnum<br><br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=appnum appnum=0<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get_my_kvsname<br><br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=my_kvsname kvsname=kvs_8191_0_1424805634_ip-172-31-38-210<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get_my_kvsname<br><br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=my_kvsname kvsname=kvs_8191_0_1424805634_ip-172-31-38-210<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get_my_kvsname<br><br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=my_kvsname kvsname=kvs_8191_0_1424805634_ip-172-31-38-210<br>[proxy:0:1@ip-172-31-38-210] got pmi command (from 4): get<br>kvsname=kvs_8191_0_1424805634_ip-172-31-38-210 key=PMI_process_mapping <br>[proxy:0:1@ip-172-31-38-210] PMI response: cmd=get_result rc=0 msg=success value=(vector,(0,2,1))<br>[proxy:0:1@ip-172-31-38-210] [mpiexec@ip-172-31-38-210] [pgid: 0] got PMI command: cmd=barrier_in<br>got pmi command (from 4): barrier_in<br><br>[proxy:0:1@ip-172-31-38-210] forwarding command (cmd=barrier_in) upstream<br>^C[mpiexec@ip-172-31-38-210] Sending Ctrl-C to processes as requested<br>[mpiexec@ip-172-31-38-210] Press Ctrl-C again to force abort<br>[mpiexec@ip-172-31-38-210] HYDU_sock_write (utils/sock/sock.c:256): write error (Bad file descriptor)<br>[mpiexec@ip-172-31-38-210] HYD_pmcd_pmiserv_send_signal (pm/pmiserv/pmiserv_cb.c:178): unable to write data to proxy<br>[mpiexec@ip-172-31-38-210] ui_cmd_cb (pm/pmiserv/pmiserv_pmci.c:77): unable to send signal downstream<br>[mpiexec@ip-172-31-38-210] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:77): callback returned error status<br>[mpiexec@ip-172-31-38-210] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:196): error waiting for event<br>[mpiexec@ip-172-31-38-210] main (ui/mpich/mpiexec.c:336): process manager error waiting for completion</div><div><br></div></div>