<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle21
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal">Hi Robert,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Were you running MPI_Gather in multiple threads concurrently on a same communicator?
<o:p></o:p></p>
<p class="MsoNormal">That is not allowed. You’ll need at least different communicator for different threads.<br>
<br>
If that was not the issue, could you try compile MPICH with ch4, with `--with-device=ch4:ofi`, assuming you are using the latest release.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div>
<div>
<p class="MsoNormal">-- <br>
Hui Zhou<o:p></o:p></p>
</div>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Robert Katona <robert.katona@hotmail.com><br>
<b>Date: </b>Wednesday, January 13, 2021 at 10:34 AM<br>
<b>To: </b>Zhou, Hui <zhouh@anl.gov>, devel@mpich.org <devel@mpich.org><br>
<b>Cc: </b>Brent Morgan <brent.taylormorgan@gmail.com><br>
<b>Subject: </b>Re: [mpich-devel] mpich3 error<o:p></o:p></span></p>
</div>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Hello Hui Zhou,<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">And can you help us in brainstorming?<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Unfortunately we cannot share the code. But I can give you more details. <o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Couple of computers are connected into the same network and we would like to run a distributed calculation. During testing we run the MPI application over 50 job executer processes/threads
 and one job evaluter master/root thread. Each job calculate two float value what the master collects. To distribute this data we use the MPI_Gather() function. The execution of the problem runs fine but randomly stops with error message what Brent sent to
 you.<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Sometimes it stops after 10 iterative calculation, sometimes after 50 or 70. We do the same calculation, with same input, but the event of the error is very random. And it always stops
 in the MPI_Gather() function, when the master try to collect the data from all of the jobs.<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">If there is a network issue with any of the computer can it produce this error?<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">We are using Mpich 3.3.2, in the release note of 3.4 it is written the network communication has changed from ch3 to ch4. With ch4 can we expect better behavior?<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Can you give us any hint where to look and what to check in this topic?<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Regards,<o:p></o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121"><o:p> </o:p></span></p>
<p class="MsoNormal" style="background:white"><span style="color:#212121">Robert<o:p></o:p></span></p>
<div id="ms-outlook-mobile-signature">
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<p class="MsoNormal">Az <a href="https://aka.ms/ghei36">Android Outlook</a> letöltése<o:p></o:p></p>
</div>
<div id="id-512d1ffc-1bac-4aa0-bcc7-f8897b2efba4">
<div>
<p class="MsoNormal"><span style="font-family:"Arial",sans-serif;color:black"><o:p> </o:p></span></p>
</div>
<div class="MsoNormal" align="center" style="text-align:center">
<hr size="0" width="89%" align="center">
</div>
<div id="divRplyFwdMsg">
<p class="MsoNormal"><strong><span style="font-family:"Calibri",sans-serif">Feladó:</span></strong> Zhou, Hui <zhouh@anl.gov><br>
<strong><span style="font-family:"Calibri",sans-serif">Elküldve:</span></strong> 2021. január 13., szerda 15:51<br>
<strong><span style="font-family:"Calibri",sans-serif">Címzett:</span></strong> devel@mpich.org<br>
<strong><span style="font-family:"Calibri",sans-serif">Másolat:</span></strong> Brent Morgan; Robert Katona<br>
<strong><span style="font-family:"Calibri",sans-serif">Tárgy:</span></strong> Re: [mpich-devel] mpich3 error<o:p></o:p></p>
</div>
<p class="MsoNormal"><br>
<br>
<o:p></o:p></p>
<div>
<p class="MsoNormal">Hi Brent,<o:p></o:p></p>
<p class="MsoNormal"> <o:p></o:p></p>
<p class="MsoNormal">Unfortunately, unless you can provide us with a reproducer, there is little we can do to find the issue.<o:p></o:p></p>
<p class="MsoNormal"> <o:p></o:p></p>
<div>
<div>
<div>
<p class="MsoNormal">-- <br>
Hui Zhou<o:p></o:p></p>
</div>
</div>
</div>
<p class="MsoNormal"> <o:p></o:p></p>
<p class="MsoNormal"> <o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="margin-bottom:12.0pt"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">Brent Morgan via devel <devel@mpich.org><br>
<b>Date: </b>Wednesday, January 13, 2021 at 3:20 AM<br>
<b>To: </b>devel@mpich.org <devel@mpich.org><br>
<b>Cc: </b>Brent Morgan <brent.taylormorgan@gmail.com>, Robert Katona <robert.katona@hotmail.com><br>
<b>Subject: </b>[mpich-devel] mpich3 error</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">Hello mpich dev support,<br>
<br>
I am receiving the following error in my MPI implementation, when I use 110+ threads.<br>
<br>
Assertion failed in file src/mpid/ch3/channels/nemesis/src/ch3_progress.c at line 567: !vc_ch->recv_active<br>
0x7f7f870937 ???<br>
???:0<br>
0x7f7f870957 ???<br>
???:0<br>
0x7f7f8089cf ???<br>
???:0<br>
0x7f7f854983 ???<br>
???:0<br>
0x7f7f75a4f3 ???<br>
???:0<br>
0x7f7f7cd8bf ???<br>
???:0<br>
0x7f7f7cde0f ???<br>
???:0<br>
0x7f7f78d577 ???<br>
???:0<br>
0x7f7f6ea6cb ???<br>
???:0<br>
0x7f7f6ea8f3 ???<br>
???:0<br>
0x7f7f78c7ff ???<br>
???:0<br>
0x7f7f6e9e6f ???<br>
???:0<br>
0x7f7f6e9eb7 ???<br>
???:0<br>
0x7f7f6ea033 ???<br>
???:0<br>
0x55793fe47b ???<br>
???:0<br>
0x55793f96b3 ???<br>
???:0<br>
0x7f7f29908f ???<br>
???:0<br>
0x55793f9a9b ???<br>
???:0<br>
internal ABORT - process 171<o:p></o:p></p>
<div>
<p class="MsoNormal">Does this give a clue as to what I may be doing wrong?  Thank you,<o:p></o:p></p>
</div>
<div>
<div>
<p class="MsoNormal"> <o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">Best,<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">Brent<o:p></o:p></p>
</div>
</div>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</div>
</body>
</html>