分散控制系统(DCS)故障分析处理及维护防范措施
摘要:本文结合火电厂DCS在生产运行中出现的故障实例,对DCS故障进行了分类和分析,并就如何维护DCS以及减少DCS故障提出了具体办法和措施。
一、分散控制系统(DCS)概述
DCS具有通用性强、系统组态灵活、控制功能完善、数据处理方便、显示操作集中、人机界面友好、安装简单规范化、调试方便、运行安全可靠的特点,在国内外电力、石油、化工、冶金、轻工等生产领域特别是大型发电机组有着较为广泛的应用。目前国内应用较多的的品牌主要有:
(1)国外品牌:美国ABB、西屋、德国西门子、日本横河、日立等;
(2)国内:国电智深、和利时、新华等。
DCS的安全、可靠与否对于保证机组的安全、稳定运行至关重要,若发生问题将有可能造成机组设备的严重损坏甚至人身安全事故。所以非常有必要分析DCS运行中出现的各类问题,采取措施提高火电厂DCS的安全可靠性。
二、DCS在生产过程中的故障情况
每个厂家的DCS都有其各自的特点,因此其故障的现象分析和处理不尽相同,但归纳起来由DCS引起机组二类及以上障碍可划分为三大类:
(1)系统本身问题,包括设计安装缺陷、软硬件故障等。
(2)人为因素造成的故障,包括人员造成的误操作,管理制度不完善及执行环节落实。
(3)系统外部环境问题造成DCS故障。如环境温度过高、湿度过高或过低、粉尘、振动以及小动物等因素造成异常。
2.1 DCS本身问题故障实例
此类故障在生产过程中较为常见,主要包括系统设计安装缺陷,控制器(DPU或CPU)的死机、脱网等故障,操作员站黑屏,网络通讯堵塞,软件存在缺陷,系统配置较低,与其他系统及设备接口存在问题等。
2.1.1 电源及接地问题:
(1)某电厂DCS电源系统采用的是ABB公司Symphony III型电源,但基建时仍按照II型电源的接地方式进行机柜安装,与III型电源接地技术要求差异很大。机组投产以来发生多次DCS模件故障、信号跳变、硬件烧坏的情况,疑与接地系统有关。同样,某电厂在基建期间DCS接地网设计制作安装存在问题,DCS系统运行后所有热电阻热电偶温度测点出现周期波动。
(2)某厂因电源连线松动而导致汽机侧控制系统失效。
经验教训:DCS没有良好的接地系统和合理的电缆屏蔽,不仅系统干扰大,控制系统易误发信号,还易使模件损坏。可见,UPS电源、控制系统接地等存在问题将给电厂投产后DCS的安全稳定运行留下极大隐患。因此,DCS系统电源设计一定要有可靠的后备手段,负荷配置要合理并有一定余量;DCS的系统接地必须严格遵守制造厂技术要求(如制造厂无特殊说明应按照DLT774规定执行),所有进入DSC系统控制信号的电缆必须采用质量合格的屏蔽电缆,并要同动力电缆分开敷设且有良好的单端接地。
2.1.2 系统配置问题:
(1)浙江某电厂DCS(T-ME/XP系统)频繁故障和死机造成机组停运事故。7、8机组(2*330MW),从1997年2月试生产至5月,两台机组共发生22次DCS系统故障和死机,造成机组不正常跳闸8次。之后又多次发生操作画面故障(8号机组有两次发生全部6台操作站“黑屏”),严重威胁机组安全。经分析认为其DCS系统存在以下几个方面的问题:(1)DCS工程设计在性能计算软件、开关量冗余配置上存在问题。(2)硬件配置不匹配(其中包括T-ME和T-XP两种系统的匹配和通信问题)。(3)个别硬件设计不完善。(4)进一步分析,关键的CS275(下层T-ME)通讯总线负荷率过高出现“瓶颈”问题现象。而欧洲T-ME/XP系统用户在配置合理的前提下,T-ME/XP系统使用情况基本良好。
2.1.3 控制器(DPU或CPU)故障
(1)某电厂300MW #2机组HIACS-5000CM控制系统FSSS1的CPU故障,且未将控制权交出,从CPU未能切换为主控,导致该部分系统控制设备无法操作(设备保持原状态工作)。在对主CPU执行在线更换步序至停电时,从CUP切换主控CPU,系统设备受控,更换原主控CPU后系统一切正常。
(2)ABB早期某时间生产的SYMPHONY 同一PCU机柜内不同控制器之间通讯出现数据不一致的情况,通过升级固件这一问题得到解决;
(3)新华控制XDPS系统早期某批次DPU曾多次出现离线、死机现象,经检查为DPU卡件个别电容问题,经升级更换卡件问题解决。
由于目前DCS的控制器均为冗余配置,大大减少了主控制器“异常”引发机组跳闸的次数。但是,一旦一对冗余的控制器同时死机,将直接威胁到安全生产,对于此类情况一定要采取措施切实避免。
2.1.4 DCS网络故障
(1)某电厂西屋WDPF控制系统,由于多次改造系统增加了大量测点和自动控制回路,系统负荷率高达70%以上,造成网络通讯堵塞,多次出现操作员进行操作、切换画面时间过长、画面黑屏等问题。后经升级改造为OVATION系统,系统正常。
(2)某电厂600MW机组负荷508MW,工况稳定,汽轮机所有调门突然大幅摆动,经检查故障原因是机组运行时M5 控制器的转速信号短时间内由3000r/min 变成了0r/min,又马上恢复,调门摆动的原因也是M3和M5通讯时出现掉数据现象,导致Trip Bias(跳闸偏置)信号在机组运行时由0变为1,引起所有调门大幅摆动。对该问题采取措施:对PCU 控制总线的通讯信号进行多重化处理,对通讯信号增加一定延时,躲过通讯信号瞬间跳变;对重要的通讯信号采用了通讯冗余。
2.1.5 DCS软件问题
(1)某电厂300MW供热机组DCS调试过程中未对测点品质参数进行修改,致使其模拟量测点只有在断线的情况下才认为是坏品质测点,未充分起到品质校验功能。后对所有测点品质参数进行了设置,提高了设备运行的可靠性。
(2)HIACS-5000CM控制系统画面组态时,双击grab组态工具后,弹出 c++错误窗口无法正常使用。经检查发现grab.ini 文件被改动过,从其他机器拷贝文件覆盖后,工具恢复正常。因为grab 非正常退出后保留了错误的信息在grab.ini 文件中。
(3)某电厂除氧器水位控制回路逻辑是由高加水位控制逻辑拷贝修改而成,修改过程不彻底,PID参数未根据除氧器情况设置整定,造成运行中除氧器上水门发散调节,调节品质恶化。采取措施:检查逻辑,重新整定PID参数。
2.1.6 系统接口问题
某电厂200MW供热机组电气并网信号至DEH只有一路,在机组正常运行的过程中该电气并网辅助接点故障出现抖动,造成汽轮机跳闸。采取措施:使用屏蔽通讯电缆,增加冗余接点信号,并进行3取2逻辑判断。
2.2 人为因素造成DCS故障实例
人为因素造成DCS的故障,在生产过程中也较为常见。包括人员造成的误操作,管理制度不完善及未按规程规定执行工作步骤等。
2.2.1 未按规程规定执行工作步骤
(1)某电厂新华XDPS系统DEH的#12DPU故障,对其在线更换,使用的是小机MEH系统的DPU备品。在更换DPU后,只将#32主控DPU拷贝至#12副控未写电子磁盘,其实质只是将副控DPU的内存内容与主控保持一致,#12DPU电子磁盘内容仍为MEH小机控制逻辑。在系统停电吹灰后,按顺序启动#12DPU成为主控,由于其逻辑为MEH逻辑而非DEH逻辑,造成系统通讯异常、数据频闪、画面显示不正常,人机接口站无法操作。在重新对#12DPU送电,拷贝#32DPU逻辑并写盘后正常。
(2)某电厂HIACS-5000CM控制系统,循环水泵房远程I/O卡件更换,未执行在线更换操作步骤,其卡件未能激活进入工作状态,导致现场设备状态与DCS画面不符,设备无法控制。执行在线更换步序后,系统正常。
2.2.2 人员误操作
(1)某电厂机组运行中,在进行处理缺陷时工作人员误动DCS继电器柜继电器造成引风机跳闸,锅炉MFT。
(2)某电厂DCS卡件故障,在进行更换卡件过程中,由于工作人员未认真核对设备、卡件跳线错误,导致新更换的卡件烧损。
2.2.3 管理制度不完善
(1)某电厂DCS系统管理制度不完善,未对软件升级、备份等工作进行规定。其辅网水处理POK1操作员站在升级打补丁后,未进行备份。该操作员站硬盘出现故障在进行系统恢复后,由于其软件版本较低,导致与网络通讯不正常,数据不刷新。
(2)某电厂操作员站管理不严,其放置于集控室的主机USB端口及光驱未进行有效封闭,个别运行人员夜班期间利用操作员站玩游戏、看电影,导致操作员站死机。
2.3 外部环境因素造成DCS故障实例
外部环境因素造成DCS故障的数量相比于前两类问题而言相对较少,但在实际生产过程中也时有发生。
(1)某电厂电子设备间风道口正处于DPU机柜上方,由于设计和其他原因,机组运行中消防水通过风道流入DCS机柜,导致DPU、服务器等设备进水烧损,机组停运。
(2)某电厂循环水泵房远程IO柜,由于底部封堵不严,造成冬季老鼠窜入,在机柜上部温度较高处构筑巢穴,最终造成远程IO脱双网。
(3)某电厂电子设备间的封闭性较差,卡件、DPU积灰较为严重,曾多次出现故障。在采取完善电子间封闭、加装空调等措施后卡件、DPU等故障基本杜绝。
三、DCS系统故障防范及维护措施
通过以上诸多故障实例,我们不难看出,降低DCS系统的故障几率,必须做好分散控制系统从选型设计到运行、维护的全方位工作。
3.1 DCS的选型设计调试
3.1.1无论新建机组还是升级改造的DCS,系统和控制器的配置要重点考虑可靠性和负荷率(包括冗余度)指标。通讯总线负荷率设计必须控制在合理的范围内,控制器的负荷率要尽可能均衡,要避免因涉及规模大而资金不足所带来的、影响系统安全运行的“高负荷”问题的发生。
3.1.2系统控制逻辑的分配,不宜过分集中在某个控制器上,主要控制器应采用冗余配置。
3.1.3电源设计必须合理可靠。一是要强调电源设计的负荷率;二是要强调电源的冗余配置方式,同时一定要保证两路电源的独立性。
3.1.4要注重DCS系统接口的可靠性措施。强调重要接口的冗余度和接口方式的选择,主要是注意可靠性和实时性。
3.1.5对于DCS系统接地一定按厂家要求执行,避免接地问题造成系统大面积故障。应注重考虑系统的抗干扰措施、自诊断和自恢复能力,I/O通道应强调隔离措施。电缆的质量与屏蔽问题也必须高度重视,重要信号及控制应使用计算机专用屏蔽电缆。
3.1.6要充分考虑主辅设备的可控性,要根据设备的运行特点和各种工况下机组处理紧急故障的要求,配置操作员站和后备手操装置。紧急停机停炉按钮配置,应采用与DCS分开的单独操作回路。同时,不能盲目地追求人机界面的“简洁化”,系统配置还应以满足安全生产为第一位。特殊有关安全的紧急干预性操作不能完全建立在DCS完好的基础上。
3.1.7对涉及机组安全的执行机构、阀门等外围设备,在设计与配置时,要保证这些关键设备在失电、失气、失信号或DCS系统失灵的情况下,能够向安全方向动作或保持原位。
3.1.8对于保护系统,应采用多重化信号摄取法,并合理使用闭锁条件,使信号回路具有逻辑判断能力。
3.1.9在调试期间按照调试大纲和具体办法,对所有逻辑、回路、工况进行测试。
3.2 DCS运行、启停维护
3.2.1做好维护准备工作
做好DCS系统的维护工作,主要包括:
(1)维护人员应了解系统总体设计思路。熟悉DCS系统结构和功能构成,了解系统设备硬件知识,熟知各部件如控制器、IO卡件、电源等正常状态和异常状态,熟练掌握DCS组态软件。
(2)系统的备份:包括操作系统、驱动程序、引导启动盘、控制系统软件、授权盘、控制组态数据库,并控制组态数据是最新的和完整的。针对实际使用中的光盘容易磨损的缺点,注意多做备份,并采用移动硬盘、U盘、硬盘等备份形式确保各软件的保存。
(3)硬件储备: 对易损、使用周期短的部件和关键部件如键盘鼠标、I/ O 模块、电源、通讯卡等都应根据实际情况作适量的备份,保证各类型卡件、模块备品不少于1个,并按照制造厂要求存放,如有条件应对备品进行校验,切实掌握备品卡件模块状态。
(4)整理各类产品的售后服务范围、时间表,形成一份硬件生产厂家、系统设计单位技术支持人员通信录,充分利用DCS供货商和系统设计单位技术支持。
3.2.2 日常维护
系统的日常维护是DCS系统稳定高效运行的基础,主要的维护工作有以下几点:
(1)根据25项反措要求、DL/T774检修维护规程等制度文件规定,完善DCS系统管理制度。
(2)保证电子设备间的良好封闭,防止小动物窜入,减小粉尘对元件运行及散热产生的不良影响,保证温度、湿度符合制造厂规定,避免由于温度、湿度急剧变化导致在系统设备上的凝露。可考虑将DCS电子间的环境温度信号引入CRT中,并有报警。
(3)每天检查系统各机柜风扇是否工作正常,风道有无阻塞,以确保系统各设备能长期可靠地运行。
(4)保证系统供电电源质量且为两路电源可靠供电,当任一电源失去即报警。
(5)电子设备间禁止使用无线通讯工具,避免电磁场对系统的干扰,避免移动运行中的操作站、显示器等,避免拉动或碰伤设备连接电缆和通讯电缆等。
(6)规范DCS系统软件和应用软件管理,软件的修改、更新、升级必须履行审批授权及负责人制度。严禁使用非正版软件和安装与系统无关软件,做好主机USB端口、光驱等的封闭管理工作。
(7)做好各控制回路的PID参数、调节器正反作用等系统数据记录工作。
(8)检查控制主机、显示器、鼠标、键盘等硬件是否完好,实时监控工作是否正常。查看故障诊断画面,是否有故障提示。
(9)DCS设备包括DPU、人机接口站等上电应按照一定次序逐一进行,每台设备上电观察正常后再进行下一设备上电,避免出现异常难于分析。上电后,通信接头不能与机柜等导电体相碰,互为冗余的通信线、通信接头不能碰在一起,以免烧坏通信网卡。
(10)定期对DCS主系统及与主系统连接的所有相关系统的通信负荷率进行在线测试。检查冗余主从设备状态,条件许可或定期进行主从设备切换,对设备自行切换的原因进行检查分析。
(11) 增加组态易读性:对重要组态页增加了中文描述;对重要保护系统编写与组态一致的详细逻辑说明书;编制试验操作卡并保证随时更新。规范DCS组态作业,机组运行中尽量不做重大组态修改。必须进行组态时应慎重,充分做好相应的技术措施和安全措施,确保DCS和机组的安全稳定运行。
(12)定期逐台重新启动所有人机接口站一次(建议2、3个月左右),以消除计算机长期运行的累计误差。
3.2.3 停运维护
机组检修期间应对DCS 系统应进行彻底的维护,主要包括:
(1)利用机组检修时间逐个复位DCS系统的DPU、CPU和操作员站及数据站;删除组态中的无效I/O点,对组态进行优化。
(2)系统冗余测试: 对冗余电源、服务器、控制器、通讯网络进行冗余测试。注意观察系统停运过程中各设备停电时,主从设备切换、网络、人机接口站是否正常;系统检修重新上电后对各设备进行切换测试。
(3)系统灰尘清除:系统停运的情况下,整个系统进行吹灰,包括计算机内部、控制站机笼、电源箱、风扇、机柜滤网等部件的灰尘清理。
(4)系统供电线路检修,对UPS进行供电能力测试和实施放电操作。同时注意检查DPU主机卡CMOS电池电量,进行定期更换,防止因电池而引起的CMOS数据丢失。
(5)接地系统检修。包括端子检查、对地电阻测试。
(6)现场设备检修,根据检修维护规程,参照有关设备说明书进行。
(7)检查DCS系统和其他系统的接口,重要信号冗余处理,与其他系统的通信视其具体情况,采取单向传输和加装防火墙措施。
(8)系统上电:系统大修后维护负责人确认条件具备,方可上电。并应严格遵照上电步骤进行。
3.2.4 故障检修维护
系统在发生故障后应进行被动性维护,主要包括以下工作:
(1)在日常工作中应认真按照25项反措要求,充分做好包括DPU(CPU)死机、网络通讯崩溃在内的各种事故预想,将运行紧急处理措施、安全措施、技术措施、检修步骤编写成册,确保机组的安全运行。
(2)处理DCS故障按照制造厂应用手册中的要求开展工作,更换前确认卡件模块型号、地址(应确保与其他设备地址不冲突)、跳线等与被更换卡件一致并严格执行在线更换程序。
(3)故障被动维护同样应严格执行工作票制度,避免抢修冒进,应结合具体故障表现进行详细分析。根据DCS系统自诊断报警、故障现象判断,找到故障点,通过报警的消除来验证维修结果。如:通信接头接触不良会引起通信故障,确认通信接头接触不良后,利用工具重做接头;通信线破损应及时更换。 某个卡件故障灯闪烁或者卡件上全部数据都为零,可能的原因是组态信息有错、卡件处于备用状态而冗余端子连接线未接、卡件本身故障、该槽位没有组态信息等。 当某一生产状态异常或报警时,可以先找到反映此状态的仪表,然后顺着信号向上传递的方向,用仪器逐一检查信号的正误,直到查出故障所在。
(4)现场设备故障检修必须开具工作票,做好DCS强制和隔离措施。阀门维修时,应起用旁路阀。检修结束后及时通知集控运行人员进行检验,操作人员应将自控回路切为手动。
(5)当出现较大规模的硬件故障、原因不明故障或超出本厂维护人员技术水平的故障时,除当时采取紧急备件更换工作外,要及时和厂家取得联系,由厂家专业技术支持工程师进一步确认和排除故障。
四、结束语
DCS应进行从设计、施工、调试、运行进行全过程全方位管理,作为系统维护人员应根据系统配置和生产设备控制情况,制定科学、合理、可行的维护策略和方式方法,做到预防性维护、日常维护紧密配合,进行系统的、有计划的、定期的维护,对运行中出现的各种故障,应具体问题具体分析。减少DCS的故障关键是要做到预防第一,保证系统在要求的环境下长期良好地运行。
提交
超越传统直觉,MATLAB/Simulink助力重型机械的智能化转型
新大陆自动识别精彩亮相2024华南国际工业博览会
派拓网络被Forrester评为XDR领域领导者
智能工控,存储强基 | 海康威视带来精彩主题演讲
展会|Lubeworks路博流体供料系统精彩亮相AMTS展会