<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from text --><style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<div>I'll try to capture a photo next time. As screenshot won't work, I'll have to grab the image with a camera.<br>
<br>
<br>
<div id="x_acompli_signature">Regards,<br>
Vaibhav Rekhate<br>
College of Engineering, Pune<br>
</div>
<br>
<br>
<br>
<div class="x_gmail_quote">On Fri, Mar 27, 2015 at 9:10 AM -0700, "Kenneth Raffenetti"
<span dir="ltr"><<a href="mailto:raffenet@mcs.anl.gov" target="_blank">raffenet@mcs.anl.gov</a>></span> wrote:<br>
<br>
</div>
</div>
<font size="2"><span style="font-size:10pt;">
<div class="PlainText">Are you able to capture the debug or panic output from the nodes before
<br>
they reboot? It is difficult to diagnose the issue without that information.<br>
<br>
On 03/27/2015 10:52 AM, Vaibhav Rekhate wrote:<br>
> I have setup a cluster on Ubuntu 12.04 machines (using the steps<br>
> outlined here: <a href="https://help.ubuntu.com/community/MpichCluster">https://help.ubuntu.com/community/MpichCluster</a>)<br>
><br>
> The environment variable PATH is set. The code is compiled on the master<br>
> node and executed on the master node. After execution of the code, the<br>
> slave nodes crash, i.e. the slaves start rebooting, debug statements on<br>
> the display indicate kernel panic. The slaves have to be restarted. This<br>
> is not exactly reproducible as it does not happen every time, but sometimes.<br>
><br>
><br>
> Regards,<br>
> Vaibhav Rekhate<br>
> B. Tech, Computer Engineering<br>
> College of Engineering, Pune<br>
> ------------------------------------------------------------------------<br>
> *From:* Huiwei Lu <huiweilu@mcs.anl.gov><br>
> *Sent:* 27 March 2015 07:41 PM<br>
> *To:* discuss@mpich.org<br>
> *Subject:* Re: [mpich-discuss] Slave hosts panic after mpirun<br>
> Hi Vaibhav,<br>
><br>
> Can you give us some details of how the slaves panic?<br>
><br>
> --<br>
> Huiwei Lu<br>
><br>
> On Fri, Mar 27, 2015 at 2:19 AM, Vaibhav Rekhate<br>
> <rekhatevm11.comp@coep.ac.in <<a href="mailto:rekhatevm11.comp@coep.ac.in">mailto:rekhatevm11.comp@coep.ac.in</a>>> wrote:<br>
><br>
>     Hello there!<br>
>     I have setup a small cluster (only 3 nodes - 1 master, 2 slaves).<br>
>     I was trying to run a sample program by using this command:<br>
><br>
>          $MPI_INSTALL_DIR/bin/mpirun -n 9 --machinefile machinefile ./a.out<br>
><br>
><br>
>     Contents of machine file:<br>
><br>
>          host1:3<br>
>          host2:3<br>
>          host3:3<br>
><br>
><br>
>     Please help.<br>
><br>
>     Regards,<br>
>     Vaibhav Rekhate<br>
>     _______________________________________________<br>
>     discuss mailing list discuss@mpich.org <<a href="mailto:discuss@mpich.org">mailto:discuss@mpich.org</a>><br>
>     To manage subscription options or unsubscribe:<br>
>     <a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
><br>
><br>
><br>
><br>
> _______________________________________________<br>
> discuss mailing list     discuss@mpich.org<br>
> To manage subscription options or unsubscribe:<br>
> <a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
><br>
_______________________________________________<br>
discuss mailing list     discuss@mpich.org<br>
To manage subscription options or unsubscribe:<br>
<a href="https://lists.mpich.org/mailman/listinfo/discuss">https://lists.mpich.org/mailman/listinfo/discuss</a><br>
</div>
</span></font>
</body>
</html>