[mpich-discuss] MPICH not working for multiple nodes over ssh

Shubham Sahoo shubhamsomnath at gmail.com
Wed Nov 4 12:36:22 CST 2020


Hello, I am trying to use mpich for a beowulf cluster. I am able to do
passwordless ssh from one node to another. I have made a common directory
using nfs mount for both the nodes. So I don't think there are any issues
on the ssh or networking side, but still mpirun is not working.

The output of the following line is :
# mpiuser at ip-172-31-38-210:~/cloud$ mpirun -np 2 -hosts node1,node0 -v
--launcher ssh ./cpi

host: node1
host: node0

==================================================================================================
mpiexec options:
----------------
  Base path: /usr/bin/
  Launcher: ssh
  Debug level: 1
  Enable X: -1

  Global environment:
  -------------------
    SHELL=/bin/bash
    PWD=/home/mpiuser/cloud
    LOGNAME=mpiuser
    HOME=/home/mpiuser
    LANG=C.UTF-8

LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:
    LESSCLOSE=/usr/bin/lesspipe %s %s
    TERM=xterm
    LESSOPEN=| /usr/bin/lesspipe %s
    USER=mpiuser
    SHLVL=1
    LD_LIBRARY_PATH=”/usr/lib:”
    XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop

PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
    MAIL=/var/mail/mpiuser
    _=/usr/bin/mpirun
    OLDPWD=/home/mpiuser

  Hydra internal environment:
  ---------------------------
    GFORTRAN_UNBUFFERED_PRECONNECTED=y


    Proxy information:
    *********************
      [1] proxy: node1 (1 cores)
      Exec list: ./cpi (1 processes);

      [2] proxy: node0 (1 cores)
      Exec list: ./cpi (1 processes);


==================================================================================================

[mpiexec at ip-172-31-38-210] Timeout set to -1 (-1 means infinite)
[mpiexec at ip-172-31-38-210] Got a control port string of
ip-172-31-38-210:39041

Proxy launch args: /usr/bin/hydra_pmi_proxy --control-port
ip-172-31-38-210:39041 --debug --rmk user --launcher ssh --demux poll
--pgid 0 --retries 10 --usize -2 --proxy-id

Arguments being passed to proxy 0:
--version 3.3.2 --iface-ip-env-name MPIR_CVAR_CH3_INTERFACE_HOSTNAME
--hostname node1 --global-core-map 0,1,2 --pmi-id-map 0,0
--global-process-count 2 --auto-cleanup 1 --pmi-kvsname
kvs_8191_0_1424805634_ip-172-31-38-210 --pmi-process-mapping
(vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 17
'SHELL=/bin/bash' 'PWD=/home/mpiuser/cloud' 'LOGNAME=mpiuser'
'HOME=/home/mpiuser' 'LANG=C.UTF-8'
'LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:'
'LESSCLOSE=/usr/bin/lesspipe %s %s' 'TERM=xterm' 'LESSOPEN=|
/usr/bin/lesspipe %s' 'USER=mpiuser' 'SHLVL=1'
'LD_LIBRARY_PATH=”/usr/lib:”'
'XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop'
'PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin'
'MAIL=/var/mail/mpiuser' '_=/usr/bin/mpirun' 'OLDPWD=/home/mpiuser'
--global-user-env 0 --global-system-env 1
'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec
--exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir
/home/mpiuser/cloud --exec-args 1 ./cpi

Arguments being passed to proxy 1:
--version 3.3.2 --iface-ip-env-name MPIR_CVAR_CH3_INTERFACE_HOSTNAME
--hostname node0 --global-core-map 0,1,2 --pmi-id-map 0,1
--global-process-count 2 --auto-cleanup 1 --pmi-kvsname
kvs_8191_0_1424805634_ip-172-31-38-210 --pmi-process-mapping
(vector,(0,2,1)) --ckpoint-num -1 --global-inherited-env 17
'SHELL=/bin/bash' 'PWD=/home/mpiuser/cloud' 'LOGNAME=mpiuser'
'HOME=/home/mpiuser' 'LANG=C.UTF-8'
'LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:'
'LESSCLOSE=/usr/bin/lesspipe %s %s' 'TERM=xterm' 'LESSOPEN=|
/usr/bin/lesspipe %s' 'USER=mpiuser' 'SHLVL=1'
'LD_LIBRARY_PATH=”/usr/lib:”'
'XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop'
'PATH=/usr/bin:/usr/bin:/usr/lib:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin'
'MAIL=/var/mail/mpiuser' '_=/usr/bin/mpirun' 'OLDPWD=/home/mpiuser'
--global-user-env 0 --global-system-env 1
'GFORTRAN_UNBUFFERED_PRECONNECTED=y' --proxy-core-count 1 --exec
--exec-appnum 0 --exec-proc-count 1 --exec-local-env 0 --exec-wdir
/home/mpiuser/cloud --exec-args 1 ./cpi

[mpiexec at ip-172-31-38-210] Launch arguments: /usr/bin/ssh -x node1
"/usr/bin/hydra_pmi_proxy" --control-port ip-172-31-38-210:39041 --debug
--rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2
--proxy-id 0
[mpiexec at ip-172-31-38-210] Launch arguments: /usr/bin/ssh -x node0
"/usr/bin/hydra_pmi_proxy" --control-port ip-172-31-38-210:39041 --debug
--rmk user --launcher ssh --demux poll --pgid 0 --retries 10 --usize -2
--proxy-id 1
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): init
pmi_version=1 pmi_subversion=1
[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=response_to_init
pmi_version=1 pmi_subversion=1 rc=0
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get_maxes

[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=maxes kvsname_max=256
keylen_max=64 vallen_max=1024
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get_appnum

[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=appnum appnum=0
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get_my_kvsname

[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=my_kvsname
kvsname=kvs_8191_0_1424805634_ip-172-31-38-210
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get_my_kvsname

[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=my_kvsname
kvsname=kvs_8191_0_1424805634_ip-172-31-38-210
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get_my_kvsname

[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=my_kvsname
kvsname=kvs_8191_0_1424805634_ip-172-31-38-210
[proxy:0:1 at ip-172-31-38-210] got pmi command (from 4): get
kvsname=kvs_8191_0_1424805634_ip-172-31-38-210 key=PMI_process_mapping
[proxy:0:1 at ip-172-31-38-210] PMI response: cmd=get_result rc=0 msg=success
value=(vector,(0,2,1))
[proxy:0:1 at ip-172-31-38-210] [mpiexec at ip-172-31-38-210] [pgid: 0] got PMI
command: cmd=barrier_in
got pmi command (from 4): barrier_in

[proxy:0:1 at ip-172-31-38-210] forwarding command (cmd=barrier_in) upstream
^C[mpiexec at ip-172-31-38-210] Sending Ctrl-C to processes as requested
[mpiexec at ip-172-31-38-210] Press Ctrl-C again to force abort
[mpiexec at ip-172-31-38-210] HYDU_sock_write (utils/sock/sock.c:256): write
error (Bad file descriptor)
[mpiexec at ip-172-31-38-210] HYD_pmcd_pmiserv_send_signal
(pm/pmiserv/pmiserv_cb.c:178): unable to write data to proxy
[mpiexec at ip-172-31-38-210] ui_cmd_cb (pm/pmiserv/pmiserv_pmci.c:77): unable
to send signal downstream
[mpiexec at ip-172-31-38-210] HYDT_dmxu_poll_wait_for_event
(tools/demux/demux_poll.c:77): callback returned error status
[mpiexec at ip-172-31-38-210] HYD_pmci_wait_for_completion
(pm/pmiserv/pmiserv_pmci.c:196): error waiting for event
[mpiexec at ip-172-31-38-210] main (ui/mpich/mpiexec.c:336): process manager
error waiting for completion
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.mpich.org/pipermail/discuss/attachments/20201105/ab16a7f2/attachment.html>


More information about the discuss mailing list