<div dir="ltr">Hello there,<div><br></div><div>I'm Pedro, and I work in a research group that researches the use of OpenMP in distributed systems using MPI as a communication layer. </div><div><br></div><div>In particular, we are working with multithreaded MPICH, where there are two main "users" of MPI in our system, an Event System and a Fault Tolerance (FT) system that work together in separate threads. Those systems carry mainly MPI asynchronous messages where the requests were freed or tested until the completion. Everything works fine and correctly.</div><div><br></div><div>Recently, sometimes we are getting an assert error in the program ending when calling MPI_Finalize(), here is the error with some callstack: (<i>An important note: this error <b>does not always happen. </b>In fact, it is much more common for the application to finish correctly, instead of asserting like that</i>)</div><div><br></div><div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><i>Error in system call pthread_mutex_destroy: Device or resource busy<br>    src/mpi/init/mutex.c:90<br>Assertion failed in file src/mpi/init/mutex.c at line 91: err == 0<br>/usr/local/mpi/lib/libmpi.so.12(MPL_backtrace_show+0x35) [0x7f3429505673]<br>/usr/local/mpi/lib/libmpi.so.12(+0x3248b4) [0x7f34294a38b4]<br>/usr/local/mpi/lib/libmpi.so.12(MPI_Finalize+0xb8) [0x7f34293a4b28]<br>/builds/ompcluster/llvm-project/build/projects/openmp/libomptarget/<a href="http://libomptarget.rtl.mpi.so">libomptarget.rtl.mpi.so</a>(+0xafa5) [0x7f342b800fa5]<br>/lib/x86_64-linux-gnu/libc.so.6(+0x43161) [0x7f342a849161]<br>/lib/x86_64-linux-gnu/libc.so.6(+0x4325a) [0x7f342a84925a]<br>/builds/ompcluster/llvm-project/build/projects/openmp/libomptarget/<a href="http://libomptarget.rtl.mpi.so">libomptarget.rtl.mpi.so</a>(+0xf3d9) [0x7f342b8053d9]<br>/builds/ompcluster/llvm-project/build/projects/openmp/libomptarget/libomptarget.so.12(__tgt_register_lib+0xf9) [0x7f342b8673c9]<br>./ompcluster/main() [0x40ef3d]<br>/lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0x78) [0x7f342a827b88]<br>./ompcluster/main() [0x402a5a]<br>Abort(1) on node 2: Internal error</i><br></div><div><br></div></blockquote>I've looked at the mutex.c file and saw that this is a problem when destroying the global mutex employed in the multithread MPI. I would like to ask if there are any known scenarios, or common reasons for this problem to occur, to help me find what could be happening at the end of the execution.</div><div><br></div><div>Here is the MPICH configuration in our container:</div><div><br></div><div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div><i>$ mpichversion</i></div><i>MPICH Version:          3.4.2<br>MPICH Release date:     Wed May 26 15:51:40 CDT 2021<br>MPICH Device:           ch4:ucx<br>MPICH configure:        --prefix=/usr/local/mpi --disable-static --with-device=ch4:ucx --with-ucx=/usr/local/ucx<br>MPICH CC:       gcc    -O2<br>MPICH CXX:      g++   -O2<br>MPICH F77:      gfortran   -O2<br>MPICH FC:       gfortran   -O2<br>MPICH Custom Information: </i></blockquote></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"></blockquote></blockquote><div><br></div><div><br></div><div>Regards, Pedro</div></div>