<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Menlo;
        panose-1:2 11 6 9 3 8 4 2 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:12.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
p.msonormal0, li.msonormal0, div.msonormal0
        {mso-style-name:msonormal;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.EmailStyle16
        {mso-style-type:personal;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
p.p1, li.p1, div.p1
        {mso-style-name:p1;
        margin:0in;
        margin-bottom:.0001pt;
        background:white;
        font-size:8.5pt;
        font-family:Menlo;
        color:black;}
p.p2, li.p2, div.p2
        {mso-style-name:p2;
        margin:0in;
        margin-bottom:.0001pt;
        background:white;
        font-size:8.5pt;
        font-family:Menlo;
        color:black;}
span.s1
        {mso-style-name:s1;}
p.p3, li.p3, div.p3
        {mso-style-name:p3;
        margin:0in;
        margin-bottom:.0001pt;
        background:white;
        font-size:8.5pt;
        font-family:Menlo;
        color:black;}
span.s2
        {mso-style-name:s2;
        color:#AFAD24;}
span.s3
        {mso-style-name:s3;
        color:#D53BD3;}
span.s4
        {mso-style-name:s4;
        color:#C33720;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Hui,<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Sorry for the late reply, I keep getting pulled off on other projects. I’m actually running a test suite most of the time, so the job scripts look like<o:p></o:p></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<p class="p1"><span class="s1">#!/bin/csh</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -t 02:30:00</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -A XGA</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -p short,slurm,gpu</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -N 2</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -n 6</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -o ./test.out</span><o:p></o:p></p>
<p class="p1"><span class="s1">#SBATCH -e ./test.err</span><o:p></o:p></p>
<p class="p2"><o:p> </o:p></p>
<p class="p1"><span class="s1">source /etc/profile.d/modules.csh</span><o:p></o:p></p>
<p class="p2"><o:p> </o:p></p>
<p class="p1"><span class="s1">source ~/set_mpich</span><o:p></o:p></p>
<p class="p1"><span class="s1">env | grep PATH</span><o:p></o:p></p>
<p class="p1"><span class="s1">module list</span><o:p></o:p></p>
<p class="p2"><o:p> </o:p></p>
<p class="p1"><span class="s1">#make check-ga MPIEXEC="mpirun -n 6 "</span><o:p></o:p></p>
<p class="p1"><span class="s1">make check-ga MPIEXEC="srun -n 6 "<o:p></o:p></span></p>
<p class="p1"><span class="s1"><o:p> </o:p></span></p>
<p class="p1"><span class="s1">I’ve tried using mpirun, srun and mpiexec in the MPIEXEC variable. If I run a test standalone, then the job submission script is<o:p></o:p></span></p>
<p class="p1"><span class="s1"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#!/bin/csh<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -t 02:30:00<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -A XGA<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -p short,slurm,gpu<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -N 2<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -n 6<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -o ./test.out<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#5230E1">#SBATCH -e ./test.err<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#AFAD24">source</span><span style="font-size:8.5pt;font-family:Menlo;color:black"> /etc/profile.d/modules.csh<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:#AFAD24">source</span><span style="font-size:8.5pt;font-family:Menlo;color:black"> ~/set_mpich<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black">env | grep
</span><span style="font-size:8.5pt;font-family:Menlo;color:#D53BD3">PATH</span><span style="font-size:8.5pt;font-family:Menlo;color:black"><o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black">module list<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black">srun -n
</span><span style="font-size:8.5pt;font-family:Menlo;color:#C33720">6</span><span style="font-size:8.5pt;font-family:Menlo;color:black"> test.x
</span><span style="font-size:8.5pt;font-family:Menlo;color:#AFAD24">></span><span style="font-size:8.5pt;font-family:Menlo;color:black"> test.out<o:p></o:p></span></p>
<p class="p1"><o:p> </o:p></p>
<p class="p1">Again, I’ve tried running with mpirun, srun, and mpiexec. The environment in the set_mpich file is<o:p></o:p></p>
<p class="p1"><o:p> </o:p></p>
<p class="p1"><span class="s1">module purge</span><o:p></o:p></p>
<p class="p1"><span class="s1">module load gcc/5.2.0</span><o:p></o:p></p>
<p class="p1"><span class="s1">module load python/2.7.8</span><o:p></o:p></p>
<p class="p1"><span class="s1">module load cmake/3.8.2</span><o:p></o:p></p>
<p class="p1"><span class="s1">module load git</span><o:p></o:p></p>
<p class="p1"><span class="s1">module load mkl</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv CC gcc</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv CFLAGS "-pthread"</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv CXX g++</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv CXXFLAGS "-pthread"</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv FC gfortran</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv FCFLAGS "-pthread"</span><o:p></o:p></p>
<p class="p1"><span class="s1">unsetenv F90</span><o:p></o:p></p>
<p class="p1"><span class="s1">unsetenv F90FLAGS</span><o:p></o:p></p>
<p class="p2"><o:p> </o:p></p>
<p class="p1"><span class="s1">setenv PATH /people/d3g293/mpich/mpich-3.3.2/install/bin:${PATH}</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv MANPATH /people/d3g293/mpich/mpich-3.3.2/install/share/man:${MANPATH}</span><o:p></o:p></p>
<p class="p1"><span class="s1">setenv LD_LIBRARY_PATH /people/d3g293/mpich/mpich-3.3.2/install/lib:${LD_LIBRARY_PATH}</span><o:p></o:p></p>
<p class="p1"><o:p> </o:p></p>
<p class="p1">Bruce<o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="color:black">From: </span></b><span style="color:black">"Zhou, Hui" <zhouh@anl.gov><br>
<b>Date: </b>Thursday, April 30, 2020 at 11:25 AM<br>
<b>To: </b>"Palmer, Bruce J" <Bruce.Palmer@pnnl.gov>, "discuss@mpich.org" <discuss@mpich.org><br>
<b>Subject: </b>Re: [mpich-discuss] MPICH configure<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"><o:p> </o:p></span></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Bruce, </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Could you share your job scripts with us? It’ll be helpful to understand how you exactly launches jobs.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div>
<div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt">-- <br>
Hui Zhou</span><o:p></o:p></p>
</div>
</div>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="color:black">From: </span></b><span style="color:black">"Palmer, Bruce J" <Bruce.Palmer@pnnl.gov><br>
<b>Date: </b>Thursday, April 30, 2020 at 9:25 AM<br>
<b>To: </b>"Zhou, Hui" <zhouh@anl.gov>, "discuss@mpich.org" <discuss@mpich.org><br>
<b>Subject: </b>Re: [mpich-discuss] MPICH configure</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
</div>
<p class="MsoNormal"><span style="font-size:11.0pt">Hi Hui,</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I checked with the system admins and they say there are no firewall restrictions between nodes. According to them they can talk to any port on any machine.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">I’ve also followed up on their suggestion that I link with PMI and verified with ldd that the PMI libraries are showing up before MPI in the executables. I still only get 1 process when running with srun.
 This is a summary of what I am seeing when I run on 2 nodes (after configuring and building with slurm).</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">MPICH-3.3.1</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Launch with mpiexec: runs okay</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Launch with mpirun: runs okay</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Link with PMI and Launch with srun: only get 1 process (from MPI_Comm_size on MPI_COMM_WORLD)</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">MPICH-3.3.2</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Launch with mpiexec: hangs</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Launch with mpirun: hangs</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Link with PMI and Launch with srun: only get 1 process (from MPI_Comm_size on MPI_COMM_WORLD)</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">For what it’s worth, it looks like the error message</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black">[proxy:0:1@node168.local] HYDU_sock_connect (utils/sock/sock.c:145): unable to connect from "node168.local" to "node100.local" (Connection refused)</span><o:p></o:p></p>
<p class="MsoNormal" style="background:white"><span style="font-size:8.5pt;font-family:Menlo;color:black">[proxy:0:1@node168.local] main (pm/pmiserv/pmip.c:183): unable to connect to server node100.local at port 54762 (check for firewalls!)</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">doesn’t show up immediately. It looks like it appears (if it appears) after the system has been hung up for a while.</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt">Bruce</span><o:p></o:p></p>
<p class="MsoNormal"><span style="font-size:11.0pt"> </span><o:p></o:p></p>
<p class="MsoNormal"> <o:p></o:p></p>
</div>
</body>
</html>