<br><br><div class="gmail_quote">On Wed, Feb 11, 2009 at 11:36 PM, Steven Adeff <span dir="ltr">&lt;<a href="mailto:adeffs.mythtv@gmail.com">adeffs.mythtv@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div><div></div><div class="Wj3C7c">On Wed, Feb 11, 2009 at 9:10 PM, &nbsp;&lt;<a href="mailto:jarpublic@gmail.com">jarpublic@gmail.com</a>&gt; wrote:<br>
&gt; On Wed, Feb 11, 2009 at 8:16 PM, Brian Wood &lt;<a href="mailto:beww@beww.org">beww@beww.org</a>&gt; wrote:<br>
&gt;&gt; On Wednesday 11 February 2009 17:42:37 <a href="mailto:jarpublic@gmail.com">jarpublic@gmail.com</a> wrote:<br>
&gt;&gt; &gt; At this point I am getting off topic for this list. It is certainly some<br>
&gt;&gt; &gt; hardware failure. When it fails I can&#39;t get it to reboot. When I try to<br>
&gt;&gt; &gt; boot from a live CD I get the same kernel panic. However, I would hate<br>
&gt;&gt; &gt; get<br>
&gt;&gt; &gt; rid of the whole system, just because I am too ignorant to track down<br>
&gt;&gt; &gt; exactly which pieced of hardware is failing. Does anybody know a good<br>
&gt;&gt; &gt; linux<br>
&gt;&gt; &gt; list that may be able to help me track down which bit of hardware is<br>
&gt;&gt; &gt; going<br>
&gt;&gt; &gt; bad? It is especially challenging because if I let the system sit for a<br>
&gt;&gt; &gt; while it will boot up an work fine for some some indeterminate amount of<br>
&gt;&gt; &gt; time. I have used lm-sensors to track temps and nothing seems to be hot,<br>
&gt;&gt; &gt; all of the fans are running, and I have checked all of the drives for<br>
&gt;&gt; &gt; bad<br>
&gt;&gt; &gt; blocks. I don&#39;t know what else to do at this point. I don&#39;t want to<br>
&gt;&gt; &gt; bother<br>
&gt;&gt; &gt; the list anymore but does somebody know the right group to bother about<br>
&gt;&gt; &gt; troubleshooting linux hardware?<br>
&gt;&gt;<br>
&gt;&gt; A machine that always works after being off for a while probably has some<br>
&gt;&gt; sort<br>
&gt;&gt; of thermal problem. Sensors are seldom helpful, as this could be on just<br>
&gt;&gt; about anything, chips, resistors, or even solder connections.<br>
&gt;&gt;<br>
&gt;&gt; You might try cooling various components with freeze-spray, that sometimes<br>
&gt;&gt; helps identify this sort of trouble. Remember that if the problem is on a<br>
&gt;&gt; chip die or the like it will take several seconds at least before things<br>
&gt;&gt; start to work after you spray it. Don&#39;t be impatient, or you will have<br>
&gt;&gt; sprayed lots of components and not know which one it was if it starts<br>
&gt;&gt; working.<br>
&gt;&gt;<br>
&gt;&gt; Otherwise, unless you have a lab full of test gear, the only practical<br>
&gt;&gt; troubleshooting method is substitution, replace things one by one with<br>
&gt;&gt; known<br>
&gt;&gt; good replacements until you find the problem.<br>
&gt;&gt;<br>
&gt;&gt; I&#39;d suspect the PSU first, but YMMV.<br>
&gt;<br>
&gt;<br>
&gt; A thermal problem seemed to be the most likely problem to me, but I wasn&#39;t<br>
&gt; sure how to narrow this thing down. I didn&#39;t really consider the power<br>
&gt; supply because it doesn&#39;t completely crash. It just freezes on the current<br>
&gt; screen, and I lose all input and network. Even if I had hardware around to<br>
&gt; switch out the problem is made complicated by the fact that even the bad<br>
&gt; hardware works for some of the time. So it would be hard to say if switching<br>
&gt; a component out help things work because of that component or because the<br>
&gt; failing component happens to be working at that moment. The kernel panic<br>
&gt; comes up immediately after grub before anything happens. So I was hoping<br>
&gt; that it would be simple to narrow it down to a drive or perhaps there was<br>
&gt; some way to get me some fore verbose error messages.<br>
&gt;<br>
<br>
</div></div>peripherally following this thread, but I have to agree with Brian<br>
that the first thing I would check is the power supply. I&#39;ve seen<br>
similar issues arise from power supply&#39;s on their last legs.<br>
other than that, without one of those PCI slot-based hardware testers<br>
it could be very hard to figure out without swapping out hardware<br>
piece by piece.<br>
<br>
-<br></blockquote></div><br>Unfortunately it is on old Dell workstation that was decommissioned from school. It has some large flat proprietary PSU that covers the bottom of the whole case. I don&#39;t think it would be easy to replace. It is a P4 beast and is big and loud. Maybe it is time to move on. I just have a hard time getting rid of old hardware if I can keep it working for something.<br>