<div dir="ltr">Kurt,<div><br></div><div>There is another common component between current MPICH and Open MPI: UCX, that is handling the low level communications. I suggest to try to change the communication substrate to see if your issue continues to exist. For OMPI add `--mca pml ob1 --mca btl self,sm,tcp' to your mpirun command.<div><br></div><div>George.</div><div><br></div></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Sep 15, 2023 at 11:20 AM Joachim Jenke via discuss <<a href="mailto:discuss@mpich.org">discuss@mpich.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Am 15.09.23 um 17:09 schrieb Tony Curtis via discuss:<br>
> <br>
> <br>
>> On Sep 15, 2023, at 11:07 AM, Raffenetti, Ken via discuss <br>
>> <<a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a>> wrote:<br>
>><br>
>> 1. Is there a way to detect this kind of overload with an MPI call?<br>
>><br>
>> If MPI detects an error at runtime, the default behavior is to abort <br>
>> the application. If you application does not abort (and you haven't <br>
>> changed the default error handler), then no error was detected by MPI.<br>
>><br>
> <br>
> There’s a tool called MUST that might help<br>
> <br>
> MUST - RWTH AACHEN UNIVERSITY Lehrstuhl für Informatik 12 - Deutsch <br>
> <<a href="https://www.i12.rwth-aachen.de/go/id/nrbe" rel="noreferrer" target="_blank">https://www.i12.rwth-aachen.de/go/id/nrbe</a>><br>
> <a href="http://i12.rwth-aachen.de" rel="noreferrer" target="_blank">i12.rwth-aachen.de</a> <<a href="https://www.i12.rwth-aachen.de/go/id/nrbe" rel="noreferrer" target="_blank">https://www.i12.rwth-aachen.de/go/id/nrbe</a>><br>
>       apple-touch-icon-180x180.png <<a href="https://www.i12.rwth-aachen.de/go/id/nrbe" rel="noreferrer" target="_blank">https://www.i12.rwth-aachen.de/go/id/nrbe</a>><br>
> <br>
> <<a href="https://www.i12.rwth-aachen.de/go/id/nrbe" rel="noreferrer" target="_blank">https://www.i12.rwth-aachen.de/go/id/nrbe</a>><br>
> <br>
<br>
The current release version can only detect conflicts in buffer usage at <br>
MPI API level. That means, it will only detect buffer conflicts for <br>
in-flight messages as in:<br>
<br>
MPI_Irecv(buf, MPI_INT, 10, ..., req1);<br>
MPI_Irecv(&buf[9], MPI_INT, 10, ..., req2);<br>
MPI_Wait(req1,...);<br>
MPI_Wait(req2,...);<br>
<br>
The upcoming release I was referencing in my other mail would detect <br>
conflicting accesses to in-flight buffers as in:<br>
<br>
MPI_Irecv(buf, MPI_INT, 10, ..., req);<br>
buf[5]=5;<br>
MPI_Wait(req,...);<br>
<br>
> <br>
> (Not affiliated, just happen to have been looking at it)<br>
<br>
Happy to see that people look at the tool :D<br>
<br>
- Joachim<br>
<br>
> <br>
> Tony<br>
> <br>
> <br>
> <br>
> _______________________________________________<br>
> discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mpich.org/mailman/listinfo/discuss" rel="noreferrer" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
<br>
-- <br>
Dr. rer. nat. Joachim Jenke<br>
<br>
IT Center<br>
Group: High Performance Computing<br>
Division: Computational Science and Engineering<br>
RWTH Aachen University<br>
Seffenter Weg 23<br>
D 52074  Aachen (Germany)<br>
Tel: +49 241 80- 24765<br>
Fax: +49 241 80-624765<br>
<a href="mailto:jenke@itc.rwth-aachen.de" target="_blank">jenke@itc.rwth-aachen.de</a><br>
<a href="http://www.itc.rwth-aachen.de" rel="noreferrer" target="_blank">www.itc.rwth-aachen.de</a><br>
<br>
_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" rel="noreferrer" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
</blockquote></div>