<meta http-equiv="Content-Type" content="text/html; charset=utf-8"><div dir="ltr"><p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">Dear All,</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">I would like to understand some details about MPI I/O hints on bg-q and out of memory error while doing collective i/o.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">Quick Summary :</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">1. On bg-q I see cb_buffer_size as 16MB when we query on file handle using MPI_File_get_info.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">An application that we are looking at has code section like: </p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">….</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">MPI_File_set_view( fh, position_to_write, MPI_FLOAT, mappingType, _native_, MPI_INFO_NULL );</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">max_mb_on_any_rank_using_Kernel_GetMemorySize () => 275 MB</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">MPI_File_write_all( fh, mappingBuffer, .................... MPI_FLOAT, &status);</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">max_mb_on_any_rank_using_Kernel_GetMemorySize () => 373 MB</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">……</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">Why we see that spike in memory usage?  (see Detail section for size information)</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">I have seen “Kernel_GetMemorySize(KERNEL_MEMSIZE_HEAP….)” not returning accurate memory footprint but I am not sure if that is the case here.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">Darshan screenshot attached shows the access sizes while running on 4 rack.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">2. Is romio_cb_alltoall ignored on bg-q? Even if I disable it, I see “automatic” in the output.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">(I am looking at srcV1R2M4/comm/lib/dev/mpich2/src/mpi/romio/adio/ad_bg/ad_bg_hints.c and see the code section is commented.)</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">More Details :</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">We are debugging an application on MIRA which runs on 1,2,4 racks but fails at 8 racks while dumping a custom checkpoint. These are strong scaling runs and the size of checkpoint remains same (~172GB). 32 ranks per mode. Max memory usage before start of checkpoint (i.e. before single write_all call)</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">for 8 rack is ~ 300 MB. The checkpoint size from each rank is between Kbs to few MBs (as shown by darshan). Once application call checkpoint, we see below error :</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">  Out of memory in file /bgsys/source/srcV1R2M2.15270/comm/lib/dev/mpich2/src/mpi/romio/adio/ad_bg/ad_bg_wrcoll.c,     line 500</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">And hence I am confused about behaviour mentioned in question 1.</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">If someone has any insight, it will be great help!</p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px">Regards,</p><p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px">Pramod</p><p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">p.s. </p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">Default values of all hints </p>
<p style="margin:0px;font-size:12px;font-family:helvetica;min-height:14px"><br></p>
<p style="margin:0px;font-size:12px;font-family:helvetica">cb_buffer_size, value = 16777216</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_read, value = enable</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_write, value = enable</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">cb_nodes, value = 8320             (change based on partition size)</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_no_indep_rw, value = false</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_pfr, value = disable</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_fr_types, value = aar</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_fr_alignment, value = 1</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_ds_threshold, value = 0</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_cb_alltoall, value = automatic</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">ind_rd_buffer_size, value = 4194304</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_ds_read, value = automatic</p>
<p style="margin:0px;font-size:12px;font-family:helvetica">romio_ds_write, value = disable</p></div>