工控机关于非蓝屏现象的死机故障的探讨
死机是工控机故障中较为常见的一种,同时它也是最令人头疼的一种。因为其故障点可大可小,而且产生死机的原因有很多种,另外其故障现象也是多种多样的,我们可以把故障现象总的归为两大类——规律性死机和随机性死机。至于死机现象给人的主观表现多为“蓝屏”、画面“定格”无反应(同时鼠标和键盘也无法输入)、经常出现非法操作(或强行关闭某程序)、在进入操作系统前就已失去反应等,在这一篇只讨论除蓝屏之外的死机现象。 乍看上去死机故障好象很“可怕”,但其故障原因永远也脱离不了硬件与软件这两方面,下面就以出现死机故障的前提“条件”来分类说明一下工控机“死机”的原因及其处理方法(结合故障现象),希望对大家会有一些帮助。
第一类情况:在正常使用的情况下偶尔出现死机故障且日益频繁,或突然出现死机故障后就频繁出现。
1、因灰尘过多而引发的频繁“死机”故障
一台新工控机在国内的一般电厂的中控室使用一年左右后,其内部就会有很多灰尘了,如果进入到某个板卡的插槽中就可能引起该板卡接触不良而出现死机或其它故障,而且常是无故死机。 另外,机器内灰尘过多就会对某些重要工控机硬件设备的散热问题造成坏的影响,CPU和显卡等重要硬件如果散热不良自然就会引起蓝屏或花屏或定格或黑屏死机故障,此类死机现象虽然通常并没有什么规律可言,但使用时间越长其死机次数就越频繁。如果软驱磁头或光驱激光头上的灰尘过多的话,那么就会会导致读写盘困难,严重的就会引起工控机蓝屏死机。
所以说一定要交代录波器用户一年对工控机进行一次彻底除尘,当然,如果对工控机结构不是很懂的话的话,就要找一个懂计算机的人来操作,以免造成其它故障。平时经常保持工控机运行环境的洁净也是一个非常不错的措施。 2、因某硬件的散热不良而导致频繁“死机”故障
CPU、显卡、硬盘、电源等硬件在工作中发热量都是非常大的,好在它们多数都拥有自己的散热风扇,所以通常并不会因此而发生死机现象,但如果风扇上的灰尘过多或润滑不良或磨损严重或严重老化的话,那么这些硬件设备的散热就存在问题了,久而久之,随着情况的不断恶化,就会出现在开机使用一段时间后频繁死机或重启的现象。
所以说一定要提醒录波器用户定期检查一下工控机中各风扇的工作状态并定期为其进行润滑(建议使用缝纫机油)或者更换以避免此类故障。如果已经出现了每次使用都会频繁死机故障的话,也不要着急,只要打开机箱并在工控机运行时观察一下哪个风扇有异常(如噪音很大或转速明显减慢或停转等)或哪个硬件温度异常(如用手一摸某芯片或散热片非常烫手等),然后再做相应的处理就可以了。
3、因内存中存在冲突而导致无故“死机”故障
这一情况在同时运行多个软件时比较容易出现,虽然有时候同时运行很多软件一切正常,但有时却忽然间莫名其妙地死机了,重新启动后再运行这些应用程序时又已十分正常了,其实这些故障中有很多只是假死机现象,其原因多是内存资源发生了冲突——应用软件是在内存中运行的,但有些应用软件由于设计方面的原因会和另一软件同时使用同一块内存地址,这时就会出现冲突。此类死机现象通常是定格死机或重启或蓝屏或提示“非法操作”或失去响应。
对于此类故障只能避免而不能根除——即尽量不要让很多程序同时运行,避免用户安装使用一些不明来源的软件。 4、因接插件接触不良而引起无规律“死机”现象
此类故障比较好判别,因为无论您运行多么小型的程序都有可能会死机,甚至有时在启动时就定格死机,而有时长时间运行大型程序也不会死机。所以此类故障的故障点还是非常好找的,通常您只要把所有能拔下来的东西(如网卡和电源插头等)都拔下来做清洁再插上去就可以了,当然,如果有哪里生锈了的话,您要先除锈或将这个生锈的部件换新。
5、因内存条故障而导致的频繁“死机”故障
由于内存条的工作频率越来越高,其发热量也随之升高,而稳定性也就要相对差一些了,通常内存条故障是指内存条松动、虚焊或内存芯片本身损坏或不稳定等。如果工控内存插槽上插着着两个不同规格的内存,最好去掉一个,使用两个不同规格的内存也会导致死机。
如果您在WINDOWS操作系统中经常出现与内存有关的非法操作等死机现象或直接提示注册表出错而重新启动机器的话,那么我们就要先检查一下是不是内存条松动或有灰尘进行入到了内存插槽内,如果未发现异常您就要换一下内存条试试了,如果一切正常了那就说明内存条本身可能存在故障了。
6、硬盘剩余空间太少或磁盘碎片太多也会导致“死机”故障
由于一些大型应用程序运行时需要大量的内存,如果物理内存不足就需要使用硬盘上的虚拟内存,此时如果硬盘的剩余空间太少的话,那么就有可能会引起死机现象。另外,如果工控机长时间没有整理硬盘碎片的话也会使系统资源紧张而死机,当然,如果硬盘中的垃圾文件过多的话,也会造成硬盘寻找文件的困难而造成死机现象。此类故障的表现也是比较特殊的——通常都是在硬盘连续“疯狂”进行读、写盘操作时会突然定格或蓝屏死机。当然,NTFS磁盘文件格式会产生较少的磁盘碎片。所以系统盘一定要使用NTFS磁盘文件格式。
所以说,您最好是把虚拟内存设置到剩余空间比较大的分区中,而且要定期清理各种垃圾文件和定期整理磁盘碎片。
7、因硬盘故障而导致频繁“死机”故障
如果硬盘严重老化或在运行中受到震动或出现逻辑、物理坏道或出现坏扇区的话,那么工控机在运行时就很容易发生频繁死机故障。至于处理方法最好是更换硬盘,如果只是逻辑错误的话还是可以用各种修复软件进行修复的。由于有些此类故障的故障点并不是很容易就能发现的,所以如果进行“磁盘扫描程序”,也会排除此类故障。
8、因劣质配件而导致的频繁“死机”故障
此类故障多是由于使用了品质不良的板卡引起的,如果运行什么大型程序都死机的话,就要考虑更换一下电源试试了,这是一个不容忽视的问题。工控机内安装有大量的板卡,耗电很厉害,如果电源容量不足,很容易出问题。
所以说在出厂调试时一定要严格测试,以免日后出现问题。
9、随机启动的程序太多也会导致无故“死机”故障
此类死机故障比较特殊,因为这可谓是名符其实的无故死机。现场调试时,就是去喝个水的功夫来操作工控机就会造成死机、在关机时也可能会出现死机,不过好在此类死机故障并不会出现在启动时,所以还是比较好判断的。有人说此类故障只是在内存比较小的工控机中才会出现,但在实际维修中笔者发现在大内存的工控机上一样会出现,因为系统资源是多方面的(除内存资源外还包括缓存、GUI、CPU等资源),CPU和硬盘等也会因此而受不了的,解决方法也很简单,除了必需的数据库和录波分析软件,不要随机启动其他的任何程序。
另外,如果桌面上的图标过多或打开的窗口过多的话同样会出现无故死机故障,所以这一点一定也要注意避免,桌面上的图标和“快速启动栏”中的图标越少越好,其它的快捷方式您可放入到“开始”菜单中,通常“开始”菜单是没有什么限制的。
第二类情况:在进行了某种操作或发生某突发事件后,就频繁出现死机故障或根本就无法正常使用工控机了。
1、在对BIOS设置进行了修改后出现“死机”故障
有时运行人员为了提高系统的性能往往对硬盘参数设置、模式设置、内存参数、CPU参数等设置进行了某些错误的设置,轻则系统变得不稳定而频繁死机,重则根本就进入不了WINDOWS系统了,更有甚者干脆就开不了机了。
对于无法再开机的工控机来说通常只要清除BIOS设置就行了,在BIOS里选择“Load fail-safe Defaults(最低性能)”或者“Load optimized Defaults(最高性能)”;对于在进入WINDOWS时就死机或经常要求您进入“安全模式”,这时就要查看一下BIOS中有关硬盘和CPU的设置了,另外,如果将没有ECC功能的内存的ECC功能打开的话同样会因内存错误而造成死机,这时可做相应的修改或干脆恢复默认值。 2、在添加安装完某硬件或更新某硬件的驱动程序后出现频繁“死机”故障
对于第一类情况来说,通常是发生了设备冲突问题,如中断、DMA、端口、I/O等出现冲突。
对于第二类情况来说,所安装的硬件驱动程序有兼容性问题。可能是这个硬件设备新安装的驱动程序因和另一个设备的驱动程序存在冲突、新驱动程序本身存在问题、新驱动程序与系统的某个文件存在版本冲突;安装了别的操作系统下的驱动程序(比如把FOR xp的驱动安装到了2000操作系统中)以致于发生死机故障。由于引发该故障的可能性非常多,所以要做相应的解决方法,比如:以“安全模式”启动,然后在“设备管理器”中进行相应的查看和设置。或者卸载这个驱动,安装经过微软认证的驱动程序。安装后在硬件驱动程序版本里边有“数字签名程序:Microsoft Windows Hardware Compatibility Publisher”字样。。
3、在安装完某个软件后只要运行某软件或使用某硬件时就会出现“死机”现象
所安装的软件有兼容性问题(例如:可能是测试版本),和其他软件或者这个版本的操作系统有冲突。例如某些个人版软件不适合安装在服务器版操作系统上,强行安装会出现此类问题。 卸载导致蓝屏的软件,或者安装该软件和操作系统兼容性好的版本。通常是在安装了某个对系统要求非常严格的软件后才会出现此类故障。最好不要安装这个软件。如果必须要安装,可以试试使用其它的非测试版本,兼容性好的同类软件。
当然,有一些软件是因为本身的某个重要文件已损坏才会导致死机现象,该类情况多见于以前使用正常,但经过一个突发事件后就出现问题了的机器上,这时只要卸载该软件并重新安装一次就可以了。
注意:如果在安装完一个新的硬件设备后出现死机现象,也可能是由于该新硬件与原已存在的某个软件存在兼容问题。
4、对操作系统进行了某项设置后就频繁出现“死机”故障
对操作系统进行了某项错误的设置后经常会出现死机故障,比如把虚拟内存的大小设置得过小也会导致在运行大型程序时死机。由于此类故障原因非常好查找——检查虚拟内存时改为“让Windows 管理”也就可以了。
另外,出厂时必须把硬盘的休眠功能关闭;在电源管理里边把能造成硬盘关闭的电源使用方案全部删除。工控机大部分时间工作在不经常读、写硬盘的情况下,这样的设置有时也会造成数据上传时硬盘停止响应而死机。
5、在升级更新操作系统后或更换大容量硬盘后,因内存容量不够而导致“死机”故障
Windows 2000 和大容量的硬盘对物理内存都有更高的要求,如果内存容量不够大的话,就会因此而发生死机故障,而且该死机现象通常是没有什么规律的,通常表现多是蓝屏死机。
在理论上内存容量应不小于硬盘容量的0.3~1%,如果内存容量不能达到这个比例的话,需要把内存进行相应的扩容。
6、人为地把某动态链接库文件、系统的初始化文件、系统文件误删除后导致系统“死机”或无法启动
扩展名为DLL的文件就是动态链接库文件,在Windows操作系统中它的作用是非常重要的,这些文件从性质上来讲是属于共享类文件——即一个DLL文件可能会有多个软件在运行时需要调用它;Windows 2000系统在启动时需要有boot.ini和一些虚拟设备驱动等文件,如果这些文件被误删除或遭破坏的话,那么您就进不了Windows了,除非使用Ghost恢复或者重新安装系统。
7、因非正常关闭工控机而导致“死机”故障
这里所说的非法关机主要是指直接关闭电源而不用WINDOWS自动关机,通常一次非法关机不会造成太大的危害,但如果长期非法关机就有可能造成系统文件损坏或丢失,引起在启动、运行中、关机时出现定格,蓝屏等死机故障。对于Windows操作系统来说这点非常重要,所以只要告诉值班人员正确关机就不会导致此类故障了。
另外,有时这种非法关机还会造成硬盘出现逻辑错误而频繁出现死机,不过好在非法关机后系统会自动进行磁盘扫描,但有些人会将其跳过不让系统进行自动检查,交代值班人员不要这么做,不然如果出现逻辑坏道时就要后悔了。
8、使用病毒实时监控软件或防火墙后导致系统经常“死机” 已经发现个人版的杀毒软件安装在Windows 2000 Server上便会导致系统不稳定,如果需要此类软件,请安装经过测试的企业版杀毒软件。
9、因感染了计算机病毒而导致了死机故障
有些病毒可以使计算机工作效率和系统资源急剧下降而造成频繁死机。对于这一种故障,最好是在系统正常时把操作系统所在分区进行镜像备份,到中毒后只要还原一下就行了。
10、在升级BIOS时出现意外或升级失败或升级的BIOS文件已损坏而导致死机故障
如果你从来没有有过BIOS升级的经验或者硬件不需要升级,建议最好不要这样做,这是个很危险的操作。应该把工控机交给厂商处理。
11、在对某硬件设备进行了热插拔后出现死机故障
对IDE接口的硬盘进行热插拔非常容易造成死机(指双硬盘),尤其是在某些国产品牌机中这一现象更为普遍。但这个死机故障并不会持续太久,通常只要关机再开机就可将问题解决了。另外,虽然说现在有很多设备都支持热插拔,但还是不要这么做,毕竟对于电力系统用户来说“安全”至上。
提交
超越传统直觉,MATLAB/Simulink助力重型机械的智能化转型
新大陆自动识别精彩亮相2024华南国际工业博览会
派拓网络被Forrester评为XDR领域领导者
智能工控,存储强基 | 海康威视带来精彩主题演讲
展会|Lubeworks路博流体供料系统精彩亮相AMTS展会