服务器故障机房,破纪录呆在机房11小时
一个小问题,说出来真实小到不能再小的问题,从确认到处理结束确耗时11小时,让偶狂吐血
服务器配置:Intel Server Board,Xeon 800 3.0*2,2G DDR2 ecc,73GSCSi Raid1
系统:suse linux
故障发现:客户发现raid当中的1个磁盘处于不在线状态,要求解决
解决进程
1,进入SCSI bios查看硬盘状态,发现 id1硬盘状态错误faulted,重新拔插了一下数据线,再次进入scsi bios查看 显示out of sync 正常了
2,重启引导系统,suse提示:mptbase :scsi设备错误,但在scsi bios里面又是完全正常的,奇怪到底哪里出了问题?
3,更换新硬盘,一切正常,而且suselinux依然提示 scsi设备错误 ……
4,拔插数据线N次 依然错误…..
5,无法和客户商量处理方法,最后得出方法,完全格式化掉,重新作系统,因为是做得集群所以有其他的景象,采用此方法
6,安装win2003测试,按装正常,进入系统日志查看,提示scsi设备某个地方超时
7,重新安装 suse linux 发现检测硬件特别慢,但总算安装成功,但重新启动,问题依旧…..
到此完全傻眼
SCSI卡坏掉了?主板集成的,想更化不是件容易的事情,到底哪里出问题了,google 看资料等等 偶进入了死胡同,差点完全死心了
最后测试:scsi数据线上的设备全部拔掉重新插一下,重启,惊喜地发现,进入系统了一切ok了,scsi设备错误没有
回想我动了那里了?尝试拔掉了scsi数据线最后的哪个终端,引导系统,果然果然就是他的问题,在偶第一次插数据线的时候,碰送了它,555555
到此问题全部解决,就出在了小小的那个scsi数据线最后的那个终端上。。。。。
Posted: 05月 18th, 2007 under 偶滴流水帐.