• 欢迎来到 - 我就爱电子网 - http://www.592dz.com !
您的位置:> 我就爱电子网维修技术电脑技术硬件维修服务器维修服务器故障排除方法 -- 正文
正文

服务器故障排除方法

[05-04 22:22:38]   来源:http://www.592dz.com  服务器维修   阅读:9668

 

概要: 一、服务器开机无显示应怎么办1.检查供电环境,零-火;零-地电压?2.检查电源指示灯,如果亮,正常吗?3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?4. 是否更换过显示器,更换另一台显示器。5. 去掉增加内存6. 去掉增加的CPU7.去掉增加的第三方I/O卡8. 检查内存和CPU 插的是否牢靠9. Clear CMOS10. 更换主要备件,如系统板,内存和CPU二、服务器故障排错的基本原则是什么1. 尽量恢复系统缺省配置a:硬件配置:去除第三方厂商备件和非标配备件;b:资源配置:清除CMOS,恢复资源初始配置;c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?2. 从基本到复杂a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。3. 交换对比a:在最大可能相同的条件下,交换操作简单效果明显的部件;b: 交换NOS载体,既交换软件环境;c:交换硬件,既交换硬件环境;d:交换整

服务器故障排除方法,http://www.592dz.com


    相比PC而言,服务器出故障的机率是小多了,但是它出故障造成的损失可也大多了。作为服务器维修人员需要了解一些服务器故障恢复的基本知识,知道在维修时可以做些什么来最快速的解决问题也可以减少故障停机时间。

    本文并不是一本服务器故障解决的完全手册,但如果能够认真的按照下面的步骤维修维护,它也许可以解决大多数问题,但当你做完所有的这一切仍不管用时,不用惭愧,去找维修专家吧,可以放心的是,这些维修步骤不会出现大的损害,最坏的情形是“It does not work at all”。

    本文主要分三部分,第一部分讲的是服务器故障排除的基本原则性问题。第二部分讲述了一些服务器硬件故障排除的实例。第三部分讲述了一些服务器软件故障排除的实例

    第一部分  服务器故障排除的基本原则性问题

    一、服务器开机无显示应怎么办

1.检查供电环境,零-火;零-地电压?

2.检查电源指示灯,如果亮,正常吗?

3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗?

4. 是否更换过显示器,更换另一台显示器。

5. 去掉增加内存

6. 去掉增加的CPU

7.去掉增加的第三方I/O卡

8. 检查内存和CPU 插的是否牢靠

9. Clear CMOS

10. 更换主要备件,如系统板,内存和CPU

二、服务器故障排错的基本原则是什么

1. 尽量恢复系统缺省配置

a:硬件配置:去除第三方厂商备件和非标配备件;

b:资源配置:清除CMOS,恢复资源初始配置;

c: BIOS,F/W,驱动程序:升级最新的BIOS,F/W和相关驱动程序;

d: TPL:扩展的第三方的I/O卡属于该机型的硬件兼容列表(TPL)吗?

2. 从基本到复杂

a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。

b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。

c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。

3. 交换对比

a:在最大可能相同的条件下,交换操作简单效果明显的部件;

b: 交换NOS载体,既交换软件环境;

c:交换硬件,既交换硬件环境;

d:交换整机,既交换整体环境;

三、服务器故障排除需要收集哪些信息?
服务器信息:

1.机器型号

2.机器序列号(S/N: 如:NC00075534)

3.Bios 版本

4.是否增加其它设备,如网卡,SCSI 卡,内存,CPU

5.硬盘如何配置,是否做阵列, 阵列级别

6.安装什么操作系统及版本(Winnt 4, Netware, Sco, others)

故障信息

1.在POST时,屏幕显示的异常信息

2.服务器本身指示灯的状态?

3. 报警声和BEEP CODES

4. NOS的事件记录文件?

5. Events Log 文件
确定故障类型和故障现象:

1. 开机无显示;

2.上电自检阶段故障;

3. 安装阶段故障和现象;

4. 操作系统加载失败;

5. 系统运行阶段故障;

第二部分 服务器硬件故障处理几例

硬件故障是指服务器硬件出现异常而导致的各类错误。由于服务器构成比较复杂,因此在检查的时候必须认真、仔细。下面以一台万全4500为例说明。(例子,在实际问题中如果遇到相似现象,也需要具体问题具体分析,不要盲目套用)

有一台万全4500,配有256M内存,使用一个PIII XEON 500带2M高速缓存的处理器。开机后没有任何显示,但系统日志上提示了一条CPU电压为0伏的信息,系统指示灯三灯不停在闪烁(指示灯三灯闪烁是服务器的另一种报警方式,我会在文后说明)。这种错误一般是处理器电压调节模块(VRM)出错或CPU出错或CPU与CPU板块接触不良,但也可能是CPU板块出错,这时情况就比较复杂了,必须经过认真慎重的思考。因为CPU板块在整个服务器中,占有举足轻重的地位,如果它出错服务器是会报致命错误的,并且在系统日志中会提示致命错误,但报CPU电压错的情况也有5%左右。我们立刻把CPU调换在另一CPU插槽中,开机后依然是刚才的那种故障。所以在初步判断中,可以排除是CPU板块坏。

这时,取出CPU仔细擦拭金手指,以及CPU板块中与CPU接触的地方后,开机依然无显示。

相对处理器坏的情况来说处理器电压模块(VRM)出现故障的情况比较大。于是立即在另一台万全4500中取下一个处理器电压模块,安装在此服务器中。开机后,服务器依然没有任何显示,系统日志上依然提示CPU电压为0伏的信息,系统指示灯三灯依然不停在闪烁。这时的情况就比较明显了。于是立即从另一台万全 4500中取下一个CPU安装后,开机正常。

总结:
在服务器的维修中,线索都会显得扑朔迷离,一般来说不可能一次就可以准确地判断出问题的所在。这样就要求相关人员要有信心及耐心。出现错误一般的流程是通过系统日志上的信息来解决,如果没有解决问题再找出其它因素,然后再看日志信息。总之,服务器出错后,必须一步一步解决,没有捷径可言。

又如:

    有一台万全4200开机不显示,发现开机时系统日志没有任何信息,且系统指示灯不亮。初步判断是电源方面出现了错误。经过仔细检查,发现服务器的电源是正常的,因此最大的可能就是服务器的电源管理板出现故障。更换电源管理板后,开机显示正常。但这时,新的问题来了:自检时,用CTRL+M不能检测到硬盘。

    硬盘在别的服务器上是正常的,因此立即清除此服务器的CMOS,但依然不正常。立刻上网找到此服务器的最新BIOS,升级BIOS后也不能解决问题。又检查硬盘笼子和服务器里的数据线及电源线后依然出错。这时,一般情况会怀疑是服务器的I/O板(输入输出板块)有问题。但就在这个时候,我发现在I/O板上有一个非联想的旧式网卡,立即去除此网卡后服务器就一切正常。

[1] [2] [3]  下一页


标签:服务器维修服务器故障解决,电脑硬件维修教程电脑技术 - 硬件维修 - 服务器维修
《服务器故障排除方法》相关文章