<div dir="ltr">Hi Hui Zhou,<div><br></div><div>Robert and I managed to incorporate multiple communicators- we use MPI_Gather() of Send/Receives.  However the issue remains- for a small (N<50) # of threads, the calculations work and seem fine.  For large (N>=50) # of threads, the issue persists.  We will try compiling for ch4 tonight...  But I wonder if we're doing something wrong?  Should we do Gather of Gathers?   </div><div><br></div><div>Our MPI implementation is merely finding the sum of the results of the N processes, where N is large.  Is MPI_Reduce going to be faster?  </div><div><br></div><div>Best,</div><div>Brent</div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 14, 2021 at 2:15 AM Robert Katona <<a href="mailto:robert.katona@hotmail.com" target="_blank">robert.katona@hotmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">




<div dir="ltr">
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
Hi <span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline">Hui Zhou,</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline">Thanks for the findings. You are right, we used one communicator. And my idea was also to recompile the MPICH with ch4.</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline">First I would like to try the MPI_Split() and use multiple communicator. But I stuck on the implementation. In the attachment you
 can see a toy app where all node want to share a float value with world rank 0.</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><br>
</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline">But when I run the app for 20 processes I got the following output:</span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline">0, 1, 2, 3, 4, 5, ,6, 7, 8, 9, 0, 0, 0, 0, 0,
<span style="background-color:rgb(255,255,255);display:inline">0, 0, 0, 0, 0,<span> </span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><br>
</span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span>But the expected is:</span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="background-color:rgb(255,255,255);display:inline">0,
 1, 2, 3, 4, 5, ,6, 7, 8, 9, 10, 11, 12, 13, 14, 15</span><span style="margin:0px;background-color:rgb(255,255,255);display:inline">, 16, 17, 18, 19,</span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px"><br>
</span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px">What
 am I missing?</span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px"><br>
</span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px">Regards,</span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px"><br>
</span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><span style="margin:0px;background-color:rgb(255,255,255);display:inline"><span style="margin:0px">Robert </span></span></span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><span style="background-color:rgb(255,255,255);display:inline"><span><br>
</span></span></span></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<span style="font-family:Calibri,sans-serif;font-size:14.6667px;background-color:rgb(255,255,255);display:inline"><br>
</span></div>
<div>
<div id="gmail-m_-1328304056524589182gmail-m_-7390180511783217357appendonsend"></div>
<div style="font-family:Calibri,Helvetica,sans-serif;font-size:12pt;color:rgb(0,0,0)">
<br>
</div>
<hr style="display:inline-block;width:98%">
<div id="gmail-m_-1328304056524589182gmail-m_-7390180511783217357divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" color="#000000" style="font-size:11pt"><b>Feladó:</b> Zhou, Hui <<a href="mailto:zhouh@anl.gov" target="_blank">zhouh@anl.gov</a>><br>
<b>Elküldve:</b> 2021. január 13., szerda 17:39<br>
<b>Címzett:</b> Robert Katona <<a href="mailto:robert.katona@hotmail.com" target="_blank">robert.katona@hotmail.com</a>>; <a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a> <<a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a>><br>
<b>Másolatot kap:</b> Brent Morgan <<a href="mailto:brent.taylormorgan@gmail.com" target="_blank">brent.taylormorgan@gmail.com</a>><br>
<b>Tárgy:</b> Re: [mpich-devel] mpich3 error</font>
<div> </div>
</div>
<div lang="EN-US">
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Hi Robert,</p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Were you running MPI_Gather in multiple threads concurrently on a same communicator?
</p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
That is not allowed. You’ll need at least different communicator for different threads.<br>
<br>
If that was not the issue, could you try compile MPICH with ch4, with `--with-device=ch4:ofi`, assuming you are using the latest release.</p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<div>
<div>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
-- <br>
Hui Zhou</p>
</div>
</div>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(181,196,223);padding:3pt 0in 0in">
<p style="margin:0in 0in 12pt;font-size:11pt;font-family:Calibri,sans-serif">
<b><span style="font-size:12pt;color:black">From: </span></b><span style="font-size:12pt;color:black">Robert Katona <<a href="mailto:robert.katona@hotmail.com" target="_blank">robert.katona@hotmail.com</a>><br>
<b>Date: </b>Wednesday, January 13, 2021 at 10:34 AM<br>
<b>To: </b>Zhou, Hui <<a href="mailto:zhouh@anl.gov" target="_blank">zhouh@anl.gov</a>>, <a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a> <<a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a>><br>
<b>Cc: </b>Brent Morgan <<a href="mailto:brent.taylormorgan@gmail.com" target="_blank">brent.taylormorgan@gmail.com</a>><br>
<b>Subject: </b>Re: [mpich-devel] mpich3 error</span></p>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Hello Hui Zhou,</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">And can you help us in brainstorming?</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Unfortunately we cannot share the code. But I can give you more details. </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Couple of computers are connected into the same network and we would like to run a distributed calculation. During testing we run the MPI application over 50 job executer processes/threads and one job evaluter master/root thread.
 Each job calculate two float value what the master collects. To distribute this data we use the MPI_Gather() function. The execution of the problem runs fine but randomly stops with error message what Brent sent to you.</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Sometimes it stops after 10 iterative calculation, sometimes after 50 or 70. We do the same calculation, with same input, but the event of the error is very random. And it always stops in the MPI_Gather() function, when the master
 try to collect the data from all of the jobs.</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">If there is a network issue with any of the computer can it produce this error?</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">We are using Mpich 3.3.2, in the release note of 3.4 it is written the network communication has changed from ch3 to ch4. With ch4 can we expect better behavior?</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Can you give us any hint where to look and what to check in this topic?</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Regards,</span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)"> </span></p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;background:white">
<span style="color:rgb(33,33,33)">Robert</span></p>
<div id="gmail-m_-1328304056524589182gmail-m_-7390180511783217357x_ms-outlook-mobile-signature">
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Az <a href="https://aka.ms/ghei36" target="_blank">Android Outlook</a> letöltése</p>
</div>
<div id="gmail-m_-1328304056524589182gmail-m_-7390180511783217357x_id-512d1ffc-1bac-4aa0-bcc7-f8897b2efba4">
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
<span style="font-family:Arial,sans-serif;color:black"> </span></p>
</div>
<div align="center" style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif;text-align:center">
<hr size="0" width="89%" align="center">
</div>
<div id="gmail-m_-1328304056524589182gmail-m_-7390180511783217357x_divRplyFwdMsg">
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
<strong><span style="font-family:Calibri,sans-serif">Feladó:</span></strong> Zhou, Hui <<a href="mailto:zhouh@anl.gov" target="_blank">zhouh@anl.gov</a>><br>
<strong><span style="font-family:Calibri,sans-serif">Elküldve:</span></strong> 2021. január 13., szerda 15:51<br>
<strong><span style="font-family:Calibri,sans-serif">Címzett:</span></strong> <a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a><br>
<strong><span style="font-family:Calibri,sans-serif">Másolat:</span></strong> Brent Morgan; Robert Katona<br>
<strong><span style="font-family:Calibri,sans-serif">Tárgy:</span></strong> Re: [mpich-devel] mpich3 error</p>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
<br>
<br>
</p>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Hi Brent,</p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Unfortunately, unless you can provide us with a reproducer, there is little we can do to find the issue.</p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<div>
<div>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
-- <br>
Hui Zhou</p>
</div>
</div>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
<div style="border-right:none;border-bottom:none;border-left:none;border-top:1pt solid rgb(181,196,223);padding:3pt 0in 0in">
<p style="margin:0in 0in 12pt;font-size:11pt;font-family:Calibri,sans-serif">
<b><span style="font-size:12pt;color:black">From: </span></b><span style="font-size:12pt;color:black">Brent Morgan via devel <<a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a>><br>
<b>Date: </b>Wednesday, January 13, 2021 at 3:20 AM<br>
<b>To: </b><a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a> <<a href="mailto:devel@mpich.org" target="_blank">devel@mpich.org</a>><br>
<b>Cc: </b>Brent Morgan <<a href="mailto:brent.taylormorgan@gmail.com" target="_blank">brent.taylormorgan@gmail.com</a>>, Robert Katona <<a href="mailto:robert.katona@hotmail.com" target="_blank">robert.katona@hotmail.com</a>><br>
<b>Subject: </b>[mpich-devel] mpich3 error</span></p>
</div>
<div>
<p style="margin:0in 0in 12pt;font-size:11pt;font-family:Calibri,sans-serif">
Hello mpich dev support,<br>
<br>
I am receiving the following error in my MPI implementation, when I use 110+ threads.<br>
<br>
Assertion failed in file src/mpid/ch3/channels/nemesis/src/ch3_progress.c at line 567: !vc_ch->recv_active<br>
0x7f7f870937 ???<br>
???:0<br>
0x7f7f870957 ???<br>
???:0<br>
0x7f7f8089cf ???<br>
???:0<br>
0x7f7f854983 ???<br>
???:0<br>
0x7f7f75a4f3 ???<br>
???:0<br>
0x7f7f7cd8bf ???<br>
???:0<br>
0x7f7f7cde0f ???<br>
???:0<br>
0x7f7f78d577 ???<br>
???:0<br>
0x7f7f6ea6cb ???<br>
???:0<br>
0x7f7f6ea8f3 ???<br>
???:0<br>
0x7f7f78c7ff ???<br>
???:0<br>
0x7f7f6e9e6f ???<br>
???:0<br>
0x7f7f6e9eb7 ???<br>
???:0<br>
0x7f7f6ea033 ???<br>
???:0<br>
0x55793fe47b ???<br>
???:0<br>
0x55793f96b3 ???<br>
???:0<br>
0x7f7f29908f ???<br>
???:0<br>
0x55793f9a9b ???<br>
???:0<br>
internal ABORT - process 171</p>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Does this give a clue as to what I may be doing wrong?  Thank you,</p>
</div>
<div>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
</div>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Best,</p>
</div>
<div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
Brent</p>
</div>
</div>
</div>
</div>
<p style="margin:0in;font-size:11pt;font-family:Calibri,sans-serif">
 </p>
</div>
</div>
</div>
</div>
</div>

</blockquote></div>