<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<style type="text/css" style="display:none;"> P {margin-top:0;margin-bottom:0;} </style>
</head>
<body dir="ltr">
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Hi Kurt,</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Thanks for the details. When you say the job is failing, is it process hanging or abort? Are there any error messages?</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
My suspicion is that slurm is preventing extra process to be launched since you have assigned all the resources to the first two MPI processes. Could you try increase the ntasks in the batch command?</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
<br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
-- <br>
</div>
<div style="font-family: Calibri, Arial, Helvetica, sans-serif; font-size: 12pt; color: rgb(0, 0, 0);">
Hui Zhou<br>
</div>
<div id="appendonsend"></div>
<hr style="display:inline-block;width:98%" tabindex="-1">
<div id="divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>From:</b> Mccall, Kurt E. (MSFC-EV41) <kurt.e.mccall@nasa.gov><br>
<b>Sent:</b> Friday, January 7, 2022 3:33 PM<br>
<b>To:</b> Zhou, Hui <zhouh@anl.gov>; discuss@mpich.org <discuss@mpich.org><br>
<b>Cc:</b> Mccall, Kurt E. (MSFC-EV41) <kurt.e.mccall@nasa.gov><br>
<b>Subject:</b> Re: Slurm and MPI_Comm_spawn</font>
<div> </div>
</div>
<style>
<!--
@font-face
        {font-family:"Cambria Math"}
@font-face
        {font-family:Calibri}
p.x_MsoNormal, li.x_MsoNormal, div.x_MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif}
a:link, span.x_MsoHyperlink
        {color:#0563C1;
        text-decoration:underline}
span.x_EmailStyle20
        {font-family:"Calibri",sans-serif;
        color:windowtext}
.x_MsoChpDefault
        {font-size:10.0pt}
@page WordSection1
        {margin:1.0in 1.0in 1.0in 1.0in}
div.x_WordSection1
        {}
-->
</style>
<div lang="EN-US" link="#0563C1" vlink="#954F72" style="word-wrap:break-word">
<div class="x_WordSection1">
<p class="x_MsoNormal">Thanks for the reply, Hui.</p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">configure --prefix=/home/kmccall/mpich-install-4.0b1 --with-device=ch3:nemesis --disable-fortran  -enable-debuginfo --enable-g=debug 
</p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">The program is run via sbatch, which is given a bash script as an argument.  
</p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">sbatch  --nodes=2  --ntasks=2  --cpus-per-task=24   <bash_script></p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">The bash script calls mpiexec:</p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">mpiexec -print-all-exitcodes -enable-x -np 2  -wdir ${work_dir} -env DISPLAY localhost:10.0 --ppn 1 <cmd></p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal"> </p>
<div>
<div style="border:none; border-top:solid #E1E1E1 1.0pt; padding:3.0pt 0in 0in 0in">
<p class="x_MsoNormal"><b>From:</b> Zhou, Hui <zhouh@anl.gov> <br>
<b>Sent:</b> Friday, January 7, 2022 2:39 PM<br>
<b>To:</b> discuss@mpich.org<br>
<b>Cc:</b> Mccall, Kurt E. (MSFC-EV41) <kurt.e.mccall@nasa.gov><br>
<b>Subject:</b> [EXTERNAL] Re: Slurm and MPI_Comm_spawn</p>
</div>
</div>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">MPICH uses PMI 1 by default.</p>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal">How is your MPICH configured? And how do you run your program, is it via srun?</p>
<p class="x_MsoNormal"> </p>
<div>
<div>
<div>
<p class="x_MsoNormal">-- <br>
Hui Zhou</p>
</div>
</div>
</div>
<p class="x_MsoNormal"> </p>
<p class="x_MsoNormal"> </p>
<div style="border:none; border-top:solid #B5C4DF 1.0pt; padding:3.0pt 0in 0in 0in">
<p class="x_MsoNormal" style="margin-right:0in; margin-bottom:12.0pt; margin-left:.5in">
<b><span style="font-size:12.0pt; color:black">From: </span></b><span style="font-size:12.0pt; color:black">Mccall, Kurt E. (MSFC-EV41) via discuss <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<b>Date: </b>Friday, January 7, 2022 at 2:21 PM<br>
<b>To: </b><a href="mailto:discuss@mpich.org">discuss@mpich.org</a> <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>><br>
<b>Cc: </b>Mccall, Kurt E. (MSFC-EV41) <<a href="mailto:kurt.e.mccall@nasa.gov">kurt.e.mccall@nasa.gov</a>><br>
<b>Subject: </b>[mpich-discuss] Slurm and MPI_Comm_spawn</span></p>
</div>
<p class="x_MsoNormal" style="margin-left:.5in">My MPICH/Slurm job is failing when the call to MPI_Comm_spawn is made.   The Slurm MPI guide
<a href="https://gcc02.safelinks.protection.outlook.com/?url=https%3A%2F%2Fslurm.schedmd.com%2Fmpi_guide.html%23mpich2&data=04%7C01%7Ckurt.e.mccall%40nasa.gov%7C85a0f5810bf64b7adaee08d9d21db0c7%7C7005d45845be48ae8140d43da96dd17b%7C0%7C0%7C637771847237637255%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C3000&sdata=ypExoCbDiU1nAf7Y8XHIj8Og9I3ZRK0IgKXZi0KHnCw%3D&reserved=0">
https://slurm.schedmd.com/mpi_guide.html#mpich2</a> specifically states that MPI_Comm_spawn will work going through Hydra’s PMI 1.1 interface.</p>
<p class="x_MsoNormal" style="margin-left:.5in"> </p>
<p class="x_MsoNormal" style="margin-left:.5in">How do I ensure that it goes through that interface?
</p>
<p class="x_MsoNormal" style="margin-left:.5in"> </p>
<p class="x_MsoNormal" style="margin-left:.5in">Maybe we’ll have to rebuild Slurm to support PMI 1.1.    This Slurm command  yields the following and PMI 1.1 is not mentioned, although PMI 2 is.</p>
<p class="x_MsoNormal" style="margin-left:.5in"> </p>
<p class="x_MsoNormal" style="margin-left:.5in">$ srun –mpi=list</p>
<p class="x_MsoNormal" style="margin-left:.5in">srun: MPI types are...</p>
<p class="x_MsoNormal" style="margin-left:.5in">srun: cray_shasta</p>
<p class="x_MsoNormal" style="margin-left:.5in">srun: pmi2</p>
<p class="x_MsoNormal" style="margin-left:.5in">srun: none</p>
<p class="x_MsoNormal" style="margin-left:.5in"> </p>
<p class="x_MsoNormal" style="margin-left:.5in"> </p>
</div>
</div>
</body>
</html>