某厂DCS网络故障事件分析
一、事件经过
DCS操作员站操作无响应、西门子T3000系统控制画面自动关闭,无法重新开启。
某月19日某厂#2燃机调停。16时08分运行人员发现#2机组二、检查与分析
仪控人员立即到现场检查发现以下故障现象:
a)#2机组操作员站无画面显示;
b)#2机主服务器A面板上“放大镜”信号灯亮, “SAFE TO PULL”指示灯灭;
c)#2机组DCS容错服务器A工作,服务器B备用且指示灯显示不正常,两台服务器硬盘指示灯均不亮(正常工作状态应为闪烁)。
咨询西门子技术人员后告知“放大镜”灯亮信号说明服务器内部存在故障,服务器在自检,需登陆服务器查看问题。但因#2机服务器始终无法登陆,检修人员无法进行任何检查。针对以上故障情况联系南西工程服务人员来现场服务。
20日8时30分,南京西门子人员抵达现场对服务器A、B分别进行软重启和断电重启,服务器A均能正常工作,B一直无法恢复正常,经更换硬盘后服务器B恢复正常工作。服务器进行主辅切换两台服务器均能正常工作。在重启服务器完成后,检查画面发现控制器AP235下所有所有监视点异常且无法正常操作,通过工程师站检查发现服务器同AP235通讯中断。由于AP235控制组主要控制电气设备,#1机组正带负荷运行,为不影响机组正常运行,将AP235控制器组的重启放到#1机停机后进行。
21日9时30分按预案对 AP235进行重启后系统恢复正常。
经现场排查分析认为#2机组操作员站未设置服务器工作状态的监视画面,运行人员未能及时发现DCS系统各类状态报警。由于服务器B硬盘故障,导致主服务器A始终通过网络查找服务器B,从而引起系统响应缓慢,最终引起DCS系统瘫痪。事件过程需要南京西门子公司进一步分析。
三、防范措施
1)对硬盘失效后引起DCS响应缓慢的事件进一步跟踪,根据南西最终分析报告制定防范措施;
2)加强设备巡检,尽早对失效设备进行更换,按设备寿命周期进行设备定期更换;
3)完善系统报警监视功能,在操作员站增加服务器故障报警;
4)总结故障处理经验,完善故障处理预案;对DCS系统卡件运行状态监视画面进行完善,增加重要部件故障异常的报警功能。
提交
派拓网络被Forrester评为XDR领域领导者
智能工控,存储强基 | 海康威视带来精彩主题演讲
展会|Lubeworks路博流体供料系统精彩亮相AMTS展会
中国联通首个量子通信产品“量子密信”亮相!
国家重大装备企业齐聚高交会 中国科技第一展11月深圳举行