<div dir="ltr"><div>Rob,</div>  Is it possible for me to install a debug version PAMI on Mira? I read the InstallReadme*_BGQ.txt. It is quite complex and and looks I need root privilege.<div>  If it is possible, I can profile the code further.</div>
</div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">--Junchao Zhang</div></div>
<br><br><div class="gmail_quote">On Mon, Jul 7, 2014 at 10:19 AM, Rob Latham <span dir="ltr"><<a href="mailto:robl@mcs.anl.gov" target="_blank">robl@mcs.anl.gov</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class=""><br>
<br>
On 07/03/2014 04:45 PM, Jeff Hammond wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
PAMI is open-source via <a href="https://repo.anl-external.org/repos/bgq-driver/" target="_blank">https://repo.anl-external.org/<u></u>repos/bgq-driver/</a>.<br>
<br>
I believe ALCF has already reported this bug but you can contact<br>
<a href="mailto:support@alcf.anl.gov" target="_blank">support@alcf.anl.gov</a> for an update.<br>
</blockquote>
<br></div>
in a nice bit of circular logic, ALCF keeps trying to close that ticket saying "this is being discussed on the MPICH list".<br>
<br>
Specifically to Jeff's point, the PAMI things are in bgq-VERSION-gpl.tar.gz<br>
<br>
Junchao: you can find the implementation of PAMI_Geometry_create_taskrange in comm/sys/pami/api/c/pami.cc, but all it does is immediately call the objects' create_taskrange' member function, so now you have to find where *that* is...<br>

<br>
==rob<div class="HOEnZb"><div class="h5"><br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Best,<br>
<br>
Jeff<br>
<br>
On Thu, Jul 3, 2014 at 2:41 PM, Junchao Zhang <<a href="mailto:jczhang@mcs.anl.gov" target="_blank">jczhang@mcs.anl.gov</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi, Sam,<br>
   I wrote micro-benchmarks for MPI_Comm_split/dup. My profiling results<br>
suggested the problem lies in a IBM PAMI library call,<br>
PAMI_Geometry_create_<u></u>taskrange().  Unfortunately, I don't have access to the<br>
PAMI source code and don't know why. I reported it to IBM and hope IBM will<br>
fix it.<br>
   Alternatively, you can set an environment variable PAMID_COLLECTIVES=0 to<br>
disables pami collectives. My tests showed it at least fixed the scalability<br>
problem of Comm_split and Comm_dup.<br>
   Also through profiling, I found the qsort() called in MPICH code is<br>
actually using the merge sort algorithm in Mira's libc library.<br>
<br>
<br>
<br>
--Junchao Zhang<br>
<br>
<br>
On Sat, May 17, 2014 at 9:06 AM, Sam Williams <<a href="mailto:swwilliams@lbl.gov" target="_blank">swwilliams@lbl.gov</a>> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
I've been conducting scaling experiments on the Mira (Blue Gene/Q) and K<br>
(Sparc) supercomputers.  I've noticed that the time required for<br>
MPI_Comm_split and MPI_Comm_dup can grow quickly with scale (~P^2).  As<br>
such, its performance eventually becomes a bottleneck.  That is, although<br>
the benefit of using a subcommunicator is huge (multigrid solves are<br>
weak-scalable), the penalty of creating one (multigrid build time) is also<br>
huge.<br>
<br>
For example, when scaling from 1 to 46K nodes (= cubes of integers) on<br>
Mira, the time (in seconds) required to build a MG solver (including a<br>
subcommunicator) scales as<br>
222335.output:   Total time in MGBuild      0.056704<br>
222336.output:   Total time in MGBuild      0.060834<br>
222348.output:   Total time in MGBuild      0.064782<br>
222349.output:   Total time in MGBuild      0.090229<br>
222350.output:   Total time in MGBuild      0.075280<br>
222351.output:   Total time in MGBuild      0.091852<br>
222352.output:   Total time in MGBuild      0.137299<br>
222411.output:   Total time in MGBuild      0.301552<br>
222413.output:   Total time in MGBuild      0.606444<br>
222415.output:   Total time in MGBuild      0.745272<br>
222417.output:   Total time in MGBuild      0.779757<br>
222418.output:   Total time in MGBuild      4.671838<br>
222419.output:   Total time in MGBuild     15.123162<br>
222420.output:   Total time in MGBuild     33.875626<br>
222421.output:   Total time in MGBuild     49.494547<br>
222422.output:   Total time in MGBuild    151.329026<br>
<br>
If I disable the call to MPI_Comm_Split, my time scales as<br>
224982.output:   Total time in MGBuild      0.050143<br>
224983.output:   Total time in MGBuild      0.052607<br>
224988.output:   Total time in MGBuild      0.050697<br>
224989.output:   Total time in MGBuild      0.078343<br>
224990.output:   Total time in MGBuild      0.054634<br>
224991.output:   Total time in MGBuild      0.052158<br>
224992.output:   Total time in MGBuild      0.060286<br>
225008.output:   Total time in MGBuild      0.062925<br>
225009.output:   Total time in MGBuild      0.097357<br>
225010.output:   Total time in MGBuild      0.061807<br>
225011.output:   Total time in MGBuild      0.076617<br>
225012.output:   Total time in MGBuild      0.099683<br>
225013.output:   Total time in MGBuild      0.125580<br>
225014.output:   Total time in MGBuild      0.190711<br>
225016.output:   Total time in MGBuild      0.218329<br>
225017.output:   Total time in MGBuild      0.282081<br>
<br>
Although I didn't directly measure it, this suggests the time for<br>
MPI_Comm_Split is growing roughly quadratically with process concurrency.<br>
<br>
<br>
<br>
<br>
I see the same effect on the K machine (8...64K nodes) where the code uses<br>
comm_split/dup in conjunction:<br>
run00008_7_1.sh.o2412931:   Total time in MGBuild      0.026458 seconds<br>
run00064_7_1.sh.o2415876:   Total time in MGBuild      0.039121 seconds<br>
run00512_7_1.sh.o2415877:   Total time in MGBuild      0.086800 seconds<br>
run01000_7_1.sh.o2414496:   Total time in MGBuild      0.129764 seconds<br>
run01728_7_1.sh.o2415878:   Total time in MGBuild      0.224576 seconds<br>
run04096_7_1.sh.o2415880:   Total time in MGBuild      0.738979 seconds<br>
run08000_7_1.sh.o2414504:   Total time in MGBuild      2.123800 seconds<br>
run13824_7_1.sh.o2415881:   Total time in MGBuild      6.276573 seconds<br>
run21952_7_1.sh.o2415882:   Total time in MGBuild     13.634200 seconds<br>
run32768_7_1.sh.o2415884:   Total time in MGBuild     36.508670 seconds<br>
run46656_7_1.sh.o2415874:   Total time in MGBuild     58.668228 seconds<br>
run64000_7_1.sh.o2415875:   Total time in MGBuild    117.322217 seconds<br>
<br>
<br>
A glance at the implementation on Mira (I don't know if the implementation<br>
on K is stock) suggests it should be using qsort to sort based on keys.<br>
Unfortunately, qsort is not performance robust like heap/merge sort.  If one<br>
were to be productive and call comm_split like...<br>
MPI_Comm_split(...,mycolor,<u></u>myrank,...)<br>
then one runs the risk that the keys are presorted.  This hits the worst<br>
case computational complexity for qsort... O(P^2).  Demanding programmers<br>
avoid sending sorted keys seems unreasonable.<br>
<br>
<br>
I should note, I see a similar lack of scaling with MPI_Comm_dup on the K<br>
machine.  Unfortunately, my BGQ data used an earlier version of the code<br>
that did not use comm_dup.  As such, I can’t definitively say that it is a<br>
problem on that machine as well.<br>
<br>
Thus, I'm asking for scalable implementations of comm_split/dup using<br>
merge/heap sort whose worst case complexity is still PlogP to be prioritized<br>
in the next update.<br>
<br>
<br>
thanks<br>
______________________________<u></u>_________________<br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/devel" target="_blank">https://lists.mpich.org/<u></u>mailman/listinfo/devel</a><br>
</blockquote>
<br>
<br>
<br>
______________________________<u></u>_________________<br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/devel" target="_blank">https://lists.mpich.org/<u></u>mailman/listinfo/devel</a><br>
</blockquote>
<br>
<br>
<br>
</blockquote>
<br>
-- <br></div></div><div class="im HOEnZb">
Rob Latham<br>
Mathematics and Computer Science Division<br>
Argonne National Lab, IL USA<br></div><div class="HOEnZb"><div class="h5">
______________________________<u></u>_________________<br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/devel" target="_blank">https://lists.mpich.org/<u></u>mailman/listinfo/devel</a></div></div></blockquote></div><br></div>