<div dir="ltr">I can concur that in the distant past, I had similar issues which were tracked down to the MPI stack.  Seems like Open MPI was more stable at the time.  These things typically happened during a scatter/gather type of operation, like the reading of a restart file, or an lbc file, or even just an output, where Task 0 is doing some heavy communication with all the other tasks.</div>
<div class="gmail_extra"><br clear="all"><div><div>Voice:  +1 907 450 8679</div>Arctic Region Supercomputing Center<br><a href="http://weather.arsc.edu/" target="_blank">http://weather.arsc.edu/</a><div><a href="http://www.arsc.edu/%7Emorton/" target="_blank">http://people.arsc.edu/~morton/</a></div>
</div>
<br><br><div class="gmail_quote">On Mon, Feb 3, 2014 at 10:26 AM, Dominikus Heinzeller <span dir="ltr">&lt;<a href="mailto:climbfuji@ymail.com" target="_blank">climbfuji@ymail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Hi Michael and Dmitry,<br>
<br>
I encountered a similar problem with WRF/ARW 3.5 for the following combination, very similar to yours:<br>
<br>
pgi64-12.10<br>
netcdf-3.6.3 / netcdf-4.2.1.1<br>
mvapich2-1.9<br>
<br>
It went away when using mpich-3.0.2 instead of mvapich2. For other compilers (gnu, intel), this version of mvapich2 worked fine with any netcdf version.<br>
<br>
Dom<br>
<div class="HOEnZb"><div class="h5"><br>
On 31/01/2014, at 11:25 pm, Dmitry N. Mikushin &lt;<a href="mailto:maemarcus@gmail.com">maemarcus@gmail.com</a>&gt; wrote:<br>
<br>
&gt; Hi Michael,<br>
&gt;<br>
&gt; This looks like a nasty software bug, that needs a state comparison.<br>
&gt; In order to get one, I&#39;d try to modify the model code to signal<br>
&gt; entering abnormal state as early as possible. In this code I&#39;d also<br>
&gt; put an infinite loop, such that engineer can get back on cluster and<br>
&gt; attach the debugger to the processes of problematic run. Then -<br>
&gt; keeping the problematic run on hold, I&#39;d start another equal run in<br>
&gt; another instance of debugger, let it work to the point where the first<br>
&gt; run entered the fail-path. As result, you will have &quot;bad&quot; and &quot;good&quot;<br>
&gt; runs frozen at the point of problem, and will be able to compare their<br>
&gt; states interactively through debuggers.<br>
&gt;<br>
&gt; - D.<br>
&gt;<br>
&gt;<br>
&gt; 2014-01-31 Zulauf, Michael &lt;<a href="mailto:Michael.Zulauf@iberdrolaren.com">Michael.Zulauf@iberdrolaren.com</a>&gt;:<br>
&gt;&gt; Hey folks - for my work I have WRF/ARW 3.3.1 running in an operational mode<br>
&gt;&gt; for forecasting purposes.  We use GFS as the primary forcing data, and we<br>
&gt;&gt; begin our runs once we have 24 hours of GFS available (in order to get<br>
&gt;&gt; things underway quickly.)  Once that portion is complete, and assuming we<br>
&gt;&gt; have the remainder of our desired GFS data available, we restart the run and<br>
&gt;&gt; continue our forecast (after running the usual WPS pre-processing, etc).<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Generally, this works quite well.  Maybe once a week (ie, once every 30 runs<br>
&gt;&gt; or so, we run 4 runs a day, 7 days a week), the job hangs up shortly after<br>
&gt;&gt; beginning the restart.  The job typically outputs the wrfout files for the<br>
&gt;&gt; first time step, and sends significant output to the rsl.error/rsl.out<br>
&gt;&gt; files.  The processes still show as running, just no further output of any<br>
&gt;&gt; kind appears, and eventually the queue/batch system kills it once it goes<br>
&gt;&gt; beyond the allocated time.  There are no error messages in any logs or rsl<br>
&gt;&gt; files or anywhere else I&#39;ve seen.  On rerunning the job, it nearly always<br>
&gt;&gt; runs to completion without problem.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Anyone seen this sort of thing?  Until recently, I didn&#39;t see this as a<br>
&gt;&gt; major problem, because by far the most important data was within the first<br>
&gt;&gt; 24 hours.  Lately our business needs are making the longer-lead forecasts<br>
&gt;&gt; more valuable than they were.  I suppose I can put in additional<br>
&gt;&gt; job-monitoring machinery, and attempt to &quot;restart the restart&quot; if it hangs<br>
&gt;&gt; up, but obviously I&#39;d like to minimize the incidence in the first place.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; I&#39;ve got WRF 3.5.1 running experimentally, but not enough yet to see if that<br>
&gt;&gt; helps.  We try not to change our WRF version too frequently (or other<br>
&gt;&gt; components), since this is an operational system, and even slight changes<br>
&gt;&gt; can change behavior, skewing statistics, etc.  But if it helped, I&#39;d<br>
&gt;&gt; consider it.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Since it always seems to happen at the same point (after restart, after<br>
&gt;&gt; first wrfouts, before additional time stepping), I doubt it&#39;s a hardware or<br>
&gt;&gt; systems issue.  Maybe some infrequently triggered race condition or similar?<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Other details:<br>
&gt;&gt;<br>
&gt;&gt; PGI 10.6<br>
&gt;&gt;<br>
&gt;&gt;                netcdf-4.1.3<br>
&gt;&gt;<br>
&gt;&gt;                mvapich2-1.7<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Thoughts?  Thanks,<br>
&gt;&gt;<br>
&gt;&gt; Mike<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt;<br>
&gt;&gt; Mike Zulauf<br>
&gt;&gt;<br>
&gt;&gt; Meteorologist, Lead Senior<br>
&gt;&gt;<br>
&gt;&gt; Operational Meteorology<br>
&gt;&gt;<br>
&gt;&gt; Iberdrola Renewables<br>
&gt;&gt;<br>
&gt;&gt; 1125 NW Couch, Suite 700<br>
&gt;&gt;<br>
&gt;&gt; Portland, OR 97209<br>
&gt;&gt;<br>
&gt;&gt; Office: 503-478-6304  Cell: 503-913-0403<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; This message is intended for the exclusive attention of the recipient(s)<br>
&gt;&gt; indicated.  Any information contained herein is strictly confidential and<br>
&gt;&gt; privileged. If you are not the intended recipient, please notify us by<br>
&gt;&gt; return e-mail and delete this message from your computer system. Any<br>
&gt;&gt; unauthorized use, reproduction, alteration, filing or sending of this<br>
&gt;&gt; message and/or any attached files may lead to legal action being taken<br>
&gt;&gt; against the party(ies) responsible for said unauthorized use. Any opinion<br>
&gt;&gt; expressed herein is solely that of the author(s) and does not necessarily<br>
&gt;&gt; represent the opinion of the Company. The sender does not guarantee the<br>
&gt;&gt; integrity, speed or safety of this message, and does not accept<br>
&gt;&gt; responsibility for any possible damage arising from the interception,<br>
&gt;&gt; incorporation of viruses, or any other damage as a result of manipulation.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; Wrf-users mailing list<br>
&gt;&gt; <a href="mailto:Wrf-users@ucar.edu">Wrf-users@ucar.edu</a><br>
&gt;&gt; <a href="http://mailman.ucar.edu/mailman/listinfo/wrf-users" target="_blank">http://mailman.ucar.edu/mailman/listinfo/wrf-users</a><br>
&gt;&gt;<br>
&gt; _______________________________________________<br>
&gt; Wrf-users mailing list<br>
&gt; <a href="mailto:Wrf-users@ucar.edu">Wrf-users@ucar.edu</a><br>
&gt; <a href="http://mailman.ucar.edu/mailman/listinfo/wrf-users" target="_blank">http://mailman.ucar.edu/mailman/listinfo/wrf-users</a><br>
<br>
_______________________________________________<br>
Wrf-users mailing list<br>
<a href="mailto:Wrf-users@ucar.edu">Wrf-users@ucar.edu</a><br>
<a href="http://mailman.ucar.edu/mailman/listinfo/wrf-users" target="_blank">http://mailman.ucar.edu/mailman/listinfo/wrf-users</a><br>
</div></div></blockquote></div><br></div>