技术频道

分散控制系统故障分析和提高可靠性

摘要:本文结合电力生产实际,对近几年来安徽省火电厂分散控制系统(DCS)运行中的故障和安全隐患进行分析,并就进一步提高DCS安全可靠性及应用技术水平提出了建议。

由于DCS在火电厂中得到了普遍应用,热工自动化系统由原来的配角地位转变为决定机组安全经济运行的主导因素。但是,随着DCS使用年限增加导致的电子元器件老化、DCS的设计缺陷、应用水平的不够高、现场调试及日常运行维护工作中出现的纰漏等因素,或多或少地会影响机组的正常运行,严重时将导致机组的跳闸。因此,加强热控技术监督,完善DCS设备自身性能,防范DCS故障,进一步提高DCS应用技术水平便成为当前热控专业人员、DCS制造厂需要认真研究和解决的一个重要课题。
一、关于DCS软/硬件
由于DCS系统在硬件设计及其可靠性技术方面尚存在的一些问题,各种模件(特别是I/O模件、通讯模件和控制器)故障而导致辅机跳闸和主机保护误动机组被迫停运的次数在DCS故障类型中是最多的。
控制器故障表现在:主备切换不正常、脱网、负荷率高、甚至运算速度不一致而导致错误逻辑关系等等。究其原因,与控制器抗干扰能力差,或系统安装、连接不规范,配置和设计不当(数量常常因商务原因而配置偏紧,设计未遵循各系统的均匀性原则);DCS运行外部环境温度高(如控制间空调、电源风扇和机柜风扇故障等造成);供电电源波动大和切换时间过长;设计缺陷(如采用高功耗的芯片引发控制器温度过高)等有关。
部分DCS的AI模件(主要是热电偶、热电阻模件)测量精度差、误差大,特别是DI/DO模件发生莫名其妙的瞬间跳变,对机组的安全运行构成了严重的威协;仍存在DCS设计时对重要I/O点没能完全考虑采用非同一板件的冗余配置。
目前部分机组汽机跳闸系统(ETS)采用了纳入DCS一体化的设计。火电厂设计技术规程 (DL 5000—2000) [1] 第12.6.1中明确规定:炉、机跳闸保护系统的逻辑控制器应单独冗余设置。机组紧急跳闸系统ETS对时间响应要求高,过去所采用的电磁继电器等设备不存在采样周期问题,但纳入DCS系统后对控制周期有一定的要求。按照最新颁布实施的《火力发电厂热工自动化系统检修运行维护规程》(DL/T 774-2004)[2] 第4.2.1.3.4条中控制器模件处理周期的规定:快速处理回路中,模拟量控制系统不大于125ms,专用开关量控制不大于50ms。可以把50ms作为ETS保护回路的一个标准。但个别电厂DCS、ETS一体化设计的DCS系统难以满足两规程中的要求,实际为ETS和FSSS共用一对DPU,且ETS运算周期为100ms。
DCS组态软件存在的隐患表现在:控制模块输出异常、控制器程序在线下装功能不完善、历史数据丢失、记录和软光字牌功能不完善、功能模块功能不正常(如 “三选”和“二选”模块不能做到自动切换等)。某电厂#13炉曾发生两起因DCS的PID模块输出异常导致锅炉MFT的事故。
国产DCS系统软、硬件升级周期过短,从而给人感觉DCS开发缺乏系统性;在开发新功能方面,国外的系统主要考虑成熟性,因而系统组态都比国内系统较难掌握。软、硬件升级不当,由此可能会给DCS和机组运行带来安全隐患。近年来安徽电网大机组就曾发生多起DCS版本升级后因软件设计漏洞、硬件驱动程序不匹配造成通信网络紊乱机组跳闸的事故。
二、关于通信网络
DCS通信网络堵塞现象表现在:操作员站显示信息变慢、不能操作,控制器脱网,冗余控制器(服务器)切换不成功,数据通讯中断或异常等。通信网络堵塞涉及到设计、运行和维护等诸方面,主要和以下几种因素有关[3]:
1)采用广播式协议时,一个结点向网上的其他结点问询数据,如果其他结点没有这个数据,它就反复进行问询工作,直至读取到这个数据。那么如果网络上根本没有这个数据,就会造成网络堵塞。
2)对DCS系统进行软、硬件的不当改动或升级,因系统硬、软件不匹配引发DCS网络通讯堵塞。如某电厂#3机组DCS系统由原来V1.2.0 升级到V2.3.1B版本,在升级时更换了主控单元DP卡,多功能卡,电子盘,但网卡未相应的升级。因新版本软件与原来的网卡驱动程序不匹配,这样当16、17、19号I/O站主控单元切换后因个别点的扰动造成主控单元的网络驱动和网络任务没能成功启动,进而使16、17、19号I/O站故障离线导致DCS系统紊乱机组跳闸。
3)在极端工况下,外部触发因素可利用NT操作系统的安全漏洞,引发偶发性的大量报警信息,导致网络异常。如某电厂#2机组就发生过2起因DCS系统发出一种“I/O驱动出错”的大量系统报警信息(每秒约450余次)使网络通讯发生瘫痪机组跳闸的事故。
4)由于电厂管理信息系统(MIS)需要从DCS中读取生产实时数据。在网络中接进动态数据服务器,网络堵塞现象就变得十分频繁,从而使得各种人机界面的结点出现死机现象。另外当DCS与MIS网未配置防火墙隔离时,病毒有可能是通过MIS网络传播至DCS(如某电厂#4机组所有人机接口站曾感染了一种名为lovegate的病毒),使DCS人机界面感染病毒,从而造成各种人机界面的结点出现死机(或操作信息反应迟缓)现象。
5)DCS运行时间比较长的情况下,电厂的维护人员不断更替,控制器的组态也不断变化,但有一个现象是:组态只加不减,有一部分组态实际上已没有与真正的I/O点相连。而控制器读取数据时,欲将该控制器上所有数据点都读上去,而其中有很大数量的数据点是无效的,因而造成控制器负荷率过高,网络堵塞。此外,有些DCS工程技术人员在系统配置、I/O分配以及逻辑组态时,没有合理规划和设计,造成部分控制器、操作员站负荷率较高,在运行中发生通信堵塞而影响机组安全生产。
三、关于事件顺序记录(SOE)
事件顺序记录(SOE)是电厂重要的运行状态监测、记录、事故分析用设备,它能以ms级的分辨力获取事件信息,为热工和电气设备事故分析提供有力的证据。可以说其性能直接影响机组和重要辅机跳闸事故状态分析的及时性和准确性。2004年以前由于缺少必要的测试设备以及发电企业重视不够,SOE功能测试工作基本处于空白状态。对近几年来安徽电网火电厂生产情况的分析,SOE方面确实存在一些问题:一是对SOE记录设备不能进行正常的周期性测试,因而无法确认其设备运行健康与否;另一方面数个电厂发生SOE记录不正常现象,造成不能对机组跳闸进行及时、准确的判断。
对安徽省内火电厂主要DCS系统SOE功能测试结果表明[4]:设计在同一个机柜(DPU)内的SOE分辨力达到1--2ms,满足规程[2]要求;但对分布于不同机柜(DPU)的SOE分辨力,部分DCS系统仍能达到2ms,而个别DCS系统则不能满足规程要求。
通过对SOE的测试,还发现个别机组SOE系统存在一些隐患或问题,可能会造成SOE记录不全或不正常。如某电厂#2机组DCS系统部分SOE信号记录顺序与所接信号不相同(系DCS系统Soerec.ini组态文件中的组态与实际位号错位造成);某电厂#2机组SOE设计点数明显偏少,缺少手动跳机、MFT全部始发条件、炉膛层火焰消失信号、绝大部分重要辅机跳闸的始发条件等诸多关键信号。这些问题的存在可能会造成SOE信号记录与实际动作设备不相同,使相关人员难以对设备故障原因提供准确快速的分析,甚至还可能会产生错误的结论。
四、关于供电电源
DCS系统的供电电源是DCS可靠工作的重要保障。采用较多的方案有:N+1电源,两路直流电源各带50%负荷,两路交流电源冗余运行(一用一备)等。最后一种方案在DCS电源切换时存在安全隐患,即在电源电压斜坡下降的过程中,电源切换装置不能可靠进行切换,在电源电压降至DPU不能正常工作时,备用电源仍未能工作,有可能造成DPU初始化,所有数据丢失的现象。目前这个问题还难以彻底解决,因为切换电压主要取决于切换继电器的释放电压,而每个继电器不可能有完全相同的释放电压。
工程师站、操作员站供电是DCS系统供电的薄弱环节。常常是1路(220V AC)电源供操作员站或2路(220V AC)分别对一半数量操作员站供电、1路(220V AC)供工程师站及其打印机等,对每台站而言,实际为单路供电。
DCS备用电源切换时间要求在5ms以内[5],但个别DCS电源切换过程中电压波形有畸变现象,切换时间为40ms左右。
如果DCS系统机柜内的24V/48VDC的冗余配置不合理,在特殊情况下也会导致机组跳闸。如某电厂#2机组因DCS系统#7DPU柜内的24VDC冗余配置不合理(三台汽包水位变送器设计在同一个电源回路上),当该路电源总保险越级熔断后,导致全部汽包水位变送器失电,BMS判断汽包水位高,引发锅炉MFT。事实上,这种接法只能保证两个冗余的变压器其中的一个故障另一个可接替供电;而一旦像#7DPU这样第一路24VDC电源保险熔断则所有该端子排上24V电源消失,另一路所谓冗余供电电源失去意义。整个供电回路设置并未实现真正意义上的危险分散。
在作试验验证电源的安全性时,往往也被厂家承诺的所谓“冗余”误导,只将两个变压器输出端分别解掉测量端子排有电就认为系统是安全的,而没有仔细检查DPU内部的预制电缆实际接线方式。
从该事件中我们也可以看到,在之前如果能够认真全面地按照有关行业规程开展DCS冗余电源系统的测试是完全可以避免该次跳闸事故的。
五、关于DCS的设计组态
5.1 DCS的工程组态设计
限于工期、人力、技术等因素,一些电厂对DCS的“工程组态设计”仅将原控制策略“翻译”成DCS组态软件即告完成。在重要的保护和联锁逻辑组态设计时,未推行容错设计,没有以系统的观念进行考虑,特别是现场设备和控制设备本身可能的多种运行方式,造成机组不应发生的跳机跳炉事故。如某电厂#2炉联锁顺序启动电泵过程中应该开启的电泵冷却水电动门没有联锁开启,从而导致电泵工作油温迅速上升至跳闸值。根据历史数据分析,原因是两页逻辑时间配合上的问题(电泵顺控页和电泵冷却水控制逻辑页周期分别是200ms、500ms);某电厂#2机组启动时一切正常,但在机组一并网霎那,DEH的目标一下跳变为机组负荷的最高值320MW,因为这时参数较低(主汽压力5.0MPa),所有的高调门瞬间全部开完,主汽压力突变大幅度降低,汽包水位(虚假水位)突变到最大,机组MFT。由于当时未能及时查清原因,之后又发生了一次,后经多次试验,才查出其中有一页运算周期时间相差50ms,从而导致组态逻辑控制出错所造成的。但这是一种随机现象,即当两页运行周期不一致而又有引用关系时,就有可能发生随机的信号丢失现象,根据概率理论,信号不被丢失的概率等于两页运算周期的时间比。因此从某种意义来讲,这是隐藏的一种事故。同时提示我们在进行工程组态时要注意更深一层的页与页间的时间配合问题。
5.2 报警系统的设计
报警系统是人机界面的重要组成部分,同时报警系统涉及的数据信息量多面广,也是导致DCS通信故障甚至控制器、操作员站“死机”的祸根。报警系统的设计是目前DCS应用(特别是老机组DCS改造项目)的薄弱环节。
“报警信息多”是很多机组DCS的通病。除设备原因外,不合理的报警内容使得报警系统异常繁琐。机组正常运行时,出现的大量报警信息对运行人员没有多大参考价值,有时反而是一种干扰;在机组出现异常工况时,所需要的关键信息又淹没在大量的报警信息中,没有分类有序管理。我们认为应提高DCS报警技术水平,设计智能化、动态的报警系统。如:同时出现相关报警只显示真正原因(其它可查找),而不列出全部报警条目、实现报警智能化;报警状态、参数的设置与设备(机组)运行状态密切关联,以实现动态化报警。通过报警管理,分层分级向电厂运行、管理人员及时报告机组状况及原因:健康、亚健康、局部故障(不影响运行)、局部故障(降负荷运行)、事故停运等,真正使报警系统有效发挥作用,是目前DCS设计应用中需不断研究、探讨的课题。
六、关于DCS失灵后的后备操作
《防止电力生产重大事故的二十五项重点要求》[5]第12.l.6条规定了“紧急停机停炉按钮配置,应采用与DCS分开的单独操作回路”,但目前仍有部分机组的手动停炉停机按钮没有直接接入跳闸驱动回路中,而是直接进入DCS/ETS系统的输入卡件通道,参加逻辑运算后,再通过输出回路送至跳闸驱动回路。这样在DCS/ETS失灵后,运行人员将无法在集控室进行手动紧急停炉。
火电厂设计技术规程[1]第12.6.1.2.5条规定“机组跳闸命令不应通过总线传送”,但是,仍有个别机组的跳闸指令在DCS控制器内获得运算结果后,通过DCS的通讯总线再去完成跳闸动作,结果一旦DCS或通讯总线出现故障,就有可能使机组的跳闸指令失去应有的作用。
部分机组电气未设计润滑油压低联启直流油泵的硬逻辑。当DCS瘫痪机组DCS逻辑不起作用后,润滑油压低后有可能造成直流油泵无法启动,存在汽轮机断油烧瓦的隐患,近年来曾发生多次类似的事故。因此系统设计上必须充分考虑安全原则,系统配置还应以满足安全生产为第一位。特殊有关安全的紧急操作不能完全建立在DCS完好和运行人员手动干预的基础上。涉及机组安全停机和失电情况下的安全联锁功能以及大、小机油系统的联锁功能,除在DCS内用软逻辑实现外,还应在就地硬逻辑中设计并实现。
七、几点思考和建议
上述诸多问题(包括DCS自身和应用技术两方面)有些已直接影响到机组的安全稳定运行。因此需要有关部门领导加以关注和重视,技术监控单位、发电企业专业人员加强技术监督力度,全面认真地贯彻执行国家和电力行业规程规定,以努力减少DCS系统的不安全因素,提高DCS运行可靠性。
1)DCS制造厂应与时俱进,举一反三,深入了解目前火电厂DCS应用中存在的问题,针对其DCS自身的不足以及硬件配置可能产生的安全隐患,从软硬件等多方面不断地完善和发展,使已在使用或即将付诸使用的DCS软硬件具有足够的可靠性,使其功能、性能满足电力行业规程规定。另外DCS制造厂应及时通报本公司DCS系统在某电厂所出现的故障及处理办法,这样可避免其它电厂再次发生类似的故障。
2)技术监控单位需要针对现有的DCS模件和网络故障的预防监测处理方法开展研究,探讨现有设备预处理问题的能力;同时在必要时向有关发电集团发出预报,并由发电企业主管单位对设备制造商施加影响,在设备招标前明确责任和惩罚办法,以便对出现的问题能够得到及时的妥善处理。
3)目前由于电厂试验管理认识不足,相当多电厂DCS/DEH在线验收测试工作基本上处于空白,为机组安全运行埋下了隐患,这些隐患(问题)在近几年出现的机组异常/非计划停运中都有所反映。对首次应用的DCS/DEH系统在投产、大(小)修后认真按照DCS/DEH技术规范书(技术合同)、《火力发电厂热工自动化系统检修运行维护规程》[2]、火力发电厂分散控制系统在线验收测试规程[6]等行业规程规定,对DCS/DEH系统进行有针对性地开展在线测试工作,不失为一种积极有效的预防性措施。
4)某厂#2机组24VDC电源问题是在实际运行当中出现的,其状况比较特殊。但通过这起事件也使我们意识到在DCS内部有可能还存在着一些隐患,非到特殊情况不容易被发现。导致问题出现的原因可能有厂家设计存在缺陷、出厂测试疏忽或现场调试服务人员遗漏的因素,也有我们日常运行维护工作中出现纰漏的因素。这也敦促专业人员在以后的工作当中应当深入学习,更加全面了解DCS系统软/硬件设置,发挥它的最佳效能为发电机组的安全稳定运行服务。
5)DCS网络异常涉及到网络通讯负荷率高、控制器负荷率高等问题,由于目前还没有有效的手段在线监测控制器负荷率和网络通讯负荷率,想彻底杜绝这类事件还有一定的难度,只有进一步完善DCS系统故障的安全保护设计功能、加强DCS系统的运行维护和管理、认真落实《防止电力生产重大事故的二十五项重点要求》[5](充分做好包括DPU死机、通讯网络崩溃在内的各种事故预想,将运行紧急处理措施、安全措施、技术措施、检修步序编写成册,以便加快此类缺陷处理速度),才能够减少因DCS运行异常造成的机组非计划停运次数。
6)SOE是分析机组故障必不可少的工具,有关专业人员应该充分利用和掌握,经常对记录资料进行分析,还可以发现设备潜在的隐患和操作上存在的问题,超前预防系统故障的发生。对SOE硬件配置不足的问题,建议有关发电企业进行整改和完善,使现场操作人员及负责事故分析的专业人士得以迅速判断事故原因,了解事故过程,并为区别各种人为故障因素和非人为故障因素提供客观依据。
7)随着自动发电控制(AGC)在火电厂的广泛应用,对发电厂运行与调度的自动化水平提出了更高的要求。但是,大型机组所特有的锅炉容量大、机组负荷响应迟缓等特点,却限制了AGC系统的整体调节速度,影响了电网的电能质量,成为了发、供电系统间的一个瓶颈。目前安徽电网大机组普遍运行情况是当AGC速率提高到2--3%额定负荷/min后机组主要运行参数(主汽温度、主汽压力等)调节品质很不理想,参数波动较大,对机组的安全稳定运行和电网频率调整要求均产生了不利影响。尽管普遍采用了DCS进行监视和控制,从自动控制角度来说运行的并不理想,只是实现了常规的简单控制,未能充分发挥DCS可实现复杂控制策略的优势,造成资源浪费。因此在DCS中对机组自动调节系统应用先进控制策略和优化软件包,提高发电锅炉的控制水平,这已成为火电厂DCS领域迫切需要研究和应用的一个问题。

文章版权归西部工控xbgk所有,未经许可不得转载。