<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr">Because Blue Gene doesn't have fork() or any other OS mechanism for spawning processes after job start, it has never had a nontrivial implementation of MPI_Comm_spawn and thus has never passed the MPICH test suite.  By nontrivial, I mean one that does something other than fail in a compliant way because world_size = universe_size (which may not have happened but which I proposed as a trivial way to achieve MPI-2.2 compliance).<div><br></div><div>For Blue Gene/Q acceptance testing, every MPICH test (from some version of the test suite circa 2012, which I do not recall offhand) passed except those explicitly excluded.  The exclusions were anything related to dynamic processes, connect-accept, etc. and language bindings (certainly Fortran; I don't know what we said about C++, but I don't think that is relevant here).  Fortran was excluded because that has nothing to do with the guts of MPI, the network, etc. It is strictly a test of the Fortran compiler and the Fortran bindings.  So if some MPICH Fortran test is failing, it is either a compiler issue or a problem with MPICH Fortran bindings.</div><div><br>I hope this helps.</div><div><br></div><div>Jeff<br><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jan 19, 2016 at 8:59 AM, Rob Latham <span dir="ltr"><<a href="mailto:robl@mcs.anl.gov" target="_blank">robl@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
<br>
On 01/17/2016 08:16 PM, Dominic Chien wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi,<br>
<br>
I have built MPICH 3.1.3 on Bluegene/Q, based on the following configuration<br>
../configure --host=powerpc64-bgq-linux --with-device=pamid:BGQ --with-file-system=gpfs:BGQ --with-bgq-install-dir=/bgsys/drivers/V1R2M0/ppc64 --disable-wrapper-rpath --enable-fast=nochkmsg,notiming,O3 --with-assert-level=0 --disable-error-messages --disable-debuginfo --enable-thread-cs=per-object --with-atomic-primitives --enable-handle-allocation=tls --enable-refcount=lock-free --disable-predefined-refcount --with-cross-file=src/mpid/pamid/cross/bgq8 --prefix=/scratch/home/chiensh/apps/mpich/3.1.3-opt/ --disable-spawn<br>
<br>
The resultant mpich has passed most of the tests (679) and 9 are failed (see below), but I am not sure if these errors are critical.  Can anyone comment on this?<br>
<br>
</blockquote>
<br></span>
I don't know if MPICH ever passed 100% of the mpich tests on Blue Gene (maybe back in 1.5.1 days, but we had fewer tests then, too).<br>
<br>
These 9 errors all look like something an application might run into: probing messages, truncated messages, RMA via the fortran interface, examining the status object.<br>
<br>
If your application does any of those things I'd pay particular attention to the results.  It's entirely possible that your application won't touch the parts of MPICH that are not fully up to spec on Blue Gene.<br>
<br>
So, I would say these errors are concerning, but not critical.  Press on and let us know how things go with your application!<span class="HOEnZb"><font color="#888888"><br>
<br>
==rob</font></span><div class="HOEnZb"><div class="h5"><br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Many Thanks!<br>
<br>
Regards,<br>
Dominic Chien<br>
<br>
=========================================================<br>
not ok 283 - ./init/timeout 2<br>
   ---<br>
   Directory: ./init<br>
   File: timeout<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 13:55:50 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## srun returned a zero status but the program returned a nonzero status<br>
=========================================================<br>
=========================================================<br>
not ok 324 - ./pt2pt/mprobe 2<br>
   ---<br>
   Directory: ./pt2pt<br>
   File: mprobe<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 14:07:47 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## 2016-01-13 14:07:47.846 (WARN ) [0xfff8d988bb0] 78050:ibm.runjob.client.Job: terminated by signal 11<br>
## 2016-01-13 14:07:47.846 (WARN ) [0xfff8d988bb0] 78050:ibm.runjob.client.Job: abnormal termination by signal 11 from rank 1<br>
=========================================================<br>
=========================================================<br>
not ok 538 - ./f77/rma/wingetf 5<br>
   ---<br>
   Directory: ./f77/rma<br>
   File: wingetf<br>
   Num-procs: 5<br>
   Date: "Wed Jan 13 16:28:10 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
##  0  buf( 1 , 11 ) =  751  expected  251<br>
##  0  buf( 2 , 11 ) =  752  expected  252<br>
##  0  buf( 3 , 11 ) =  753  expected  253<br>
##  0  buf( 4 , 11 ) =  754  expected  254<br>
##  0  buf( 5 , 11 ) =  755  expected  255<br>
##  0  buf( 6 , 11 ) =  756  expected  256<br>
##  0  buf( 7 , 11 ) =  757  expected  257<br>
##  0  buf( 8 , 11 ) =  758  expected  258<br>
##  0  buf( 9 , 11 ) =  759  expected  259<br>
##  0  buf( 10 , 11 ) =  760  expected  260<br>
##   Found  25  errors<br>
=========================================================<br>
=========================================================<br>
not ok 640 - ./f90/rma/wingetf90 5<br>
   ---<br>
   Directory: ./f90/rma<br>
   File: wingetf90<br>
   Num-procs: 5<br>
   Date: "Wed Jan 13 18:10:17 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
##  4  buf( 1 ,0) =  0  expected 976<br>
##  4  buf( 2 ,0) =  24525328  expected 977<br>
##  4  buf( 3 ,0) =  31  expected 978<br>
##  4  buf( 4 ,0) =  -1073759872  expected 979<br>
##  4  buf( 5 ,0) =  1107296292  expected 980<br>
##  4  buf( 6 ,0) =  -1073758504  expected 981<br>
##  4  buf( 7 ,0) =  0  expected 982<br>
##  4  buf( 8 ,0) =  22184620  expected 983<br>
##  4  buf( 9 ,0) =  0  expected 984<br>
##  4  buf( 10 ,0) =  25808064  expected 985<br>
##   Found  50  errors<br>
=========================================================<br>
=========================================================<br>
not ok 668 - ./errors/pt2pt/truncmsg1 2<br>
   ---<br>
   Directory: ./errors/pt2pt<br>
   File: truncmsg1<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 18:16:19 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## MPI_Recv (short) returned MPI_SUCCESS instead of truncated message<br>
## MPI_Recv (irecv-short) returned MPI_SUCCESS instead of truncated message<br>
## MPI_Recv (medium) returned MPI_SUCCESS instead of truncated message<br>
##  Found 3 errors<br>
=========================================================<br>
=========================================================<br>
not ok 670 - ./errors/pt2pt/errinstatts 2<br>
   ---<br>
   Directory: ./errors/pt2pt<br>
   File: errinstatts<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 18:16:45 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## Did not get ERR_IN_STATUS in Testsome (outcount = 2, should equal 2); class returned was 0<br>
##  Found 1 errors<br>
=========================================================<br>
=========================================================<br>
not ok 671 - ./errors/pt2pt/errinstatta 2<br>
   ---<br>
   Directory: ./errors/pt2pt<br>
   File: errinstatta<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 18:16:58 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## Did not get ERR_IN_STATUS in Testall<br>
##  Found 1 errors<br>
=========================================================<br>
=========================================================<br>
not ok 672 - ./errors/pt2pt/errinstatws 2<br>
   ---<br>
   Directory: ./errors/pt2pt<br>
   File: errinstatws<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 18:17:11 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## Did not get ERR_IN_STATUS in Waitsome.  Got 0.<br>
##  Found 1 errors<br>
=========================================================<br>
=========================================================<br>
not ok 673 - ./errors/pt2pt/errinstatwa 2<br>
   ---<br>
   Directory: ./errors/pt2pt<br>
   File: errinstatwa<br>
   Num-procs: 2<br>
   Date: "Wed Jan 13 18:17:23 2016"<br>
   ...<br>
## Test output (expected 'No Errors'):<br>
## Did not get ERR_IN_STATUS in Waitall<br>
##  Found 1 errors<br>
=========================================================<br>
<br>
<br>
_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" rel="noreferrer" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
<br>
</blockquote>
_______________________________________________<br>
discuss mailing list     <a href="mailto:discuss@mpich.org" target="_blank">discuss@mpich.org</a><br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss" rel="noreferrer" target="_blank">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature">Jeff Hammond<br><a href="mailto:jeff.science@gmail.com" target="_blank">jeff.science@gmail.com</a><br><a href="http://jeffhammond.github.io/" target="_blank">http://jeffhammond.github.io/</a></div>
</div></div></div>