技术频道

DCS典型故障原因分析与防范对策

一、前 言
DCS在国内大型火力发电机组上应用始于上世纪八十年代后期,到目前为止只有十几年的运行经验。华能国际电力股份有限公司整套引进350MW机组,投资建设的南通、上安、大连、福州电厂是国内最早应用DCS的电厂。
随着火力发电机组自动化水平的不断提高,单元机组DCS系统的功能范围不断扩大。近两年新建和改造机组的单元控制室内除用于紧急停机、停炉用的后备手操外,其余操作全部依赖于DCS。因而,由于DCS本身故障引起的跳机现象时有发生。所以,如何提高DCS的可靠性作为一个重要课题摆在了从事热工自动化工作的各位人士的面前。
由于工作关系,有机会到过三十多家火电厂收资、交流或验收,接触到应用DCS的100~700MW单元机组近八十台,几乎覆盖了国内应用过的所有类型的DCS,对各种类型的DCS发生的故障有较多的了解,无论是进口DCS,还是国产DCS

,尽管在原理、结构上迥异,包含的子系统也不一样多,但都或多或少地出现过一些相类似的故障,通过对典型故障进行深入细致地分析,找出故障的真正原因,举一反三,制定出防范措施,并正确地实施,可以很好地防止此类DCS故障的重复发生。本文列举了几个典型的DCS故障案例,供从事热工技术管理及检修人员参考。
二、案例1:控制器重启引发机组跳闸
2.1 事件经过
2001年11月1日,A电厂4号机组停机前有功负荷270MW,无功96MVar,A、B励磁调节器自动并列运行,手动50Hz柜跟踪备用。
14时26分,事故音响发出,发电机出口开关、励磁开关跳闸,"调节器A柜退出运行"、"调节器B柜退出运行"等报警信号发出,机组解列。对ECS控制系统检查、试验,发现#14控制器发生故障已离线,与之冗余的#34控制器发生重启,更换了#14和#34控制器主机板后,机组重新启动,不久,发变组与系统并列。
2.2 原因分析
根据历时数据分析,13时31分,#14控制器硬件故障而离线运行,热备用的#34控制器自动由辅控切为主控。14时26分,#34控制器由于通讯阻塞引起"WATCHDOG"误判断,致使控制器重启。由于控制器控制励磁调节器的方式为长信号,没有断点保护功能,#34控制器重启后,不能自动回到断点前的状态,导致A、B调节器自动退出运行,手动50Hz柜自动投入。由于发电机失磁,发电机端电压下降,导致厂用电源电压降低,手动50Hz柜输出电压继续降低,手动50Hz柜投入后发电机没有脱离失磁状态,直至切除励磁装置,造成发电机失磁保护动作,发电机出口开关跳闸。

#14控制器和#34控制器控制发变组设备,包括厂用电切换的备自投继电器接点BK,#34控制器重启后,BK自动复位,继电器接点断开,BK投到退出位置,造成6KV电源开关6410、6420开关自投不成功。

2.3 防范措施

将故障控制器更换。后来制造厂确认这一批主板晶振存在问题,同意免费更换,利用停机机会更换4号机组所有控制器主板。
增加任一控制器、I/O卡、通讯卡离线报警功能。
程序内部"WATCHDOG"的时间设置太短,易造成误判断,对所有控制器进行软件升级。
调节器AQK、BQK方式开关和厂用电备自投BK开关组态图增加断点保护功能,防止控制器自启动后,励磁调节器和厂用电自投开关退出运行。
检查ECS系统的所有组态,对存在以上问题的逻辑进行修改。
联系调节器厂家,使调节器内部可以作到运行状态自保持,将控制器控制调节器的方式改为短脉冲信号控制。
在ECS内增加手动50Hz柜输出电压自动跟踪功能。
三、案例2:在线传代码致使机组解列

3.1 事件经过

2002年7月12日,B电厂#5机组监盘人员发现机组负荷从552MW迅速下降,主汽压力突升,汽轮机调门开度,由原来的20%关闭到10%并继续关闭,高调门继续迅速关闭至0%,机组负荷降低至5MW,运行人员被迫手动紧急停炉,汽轮机跳闸,发电机解列。

3.2 原因分析

DCS与汽轮机控制系统分别由两家国外公司制造,两系统差异较大,通讯问题没有很好地解决,存在一些难以消除的缺陷。热控人员在DCS工程师站上向负责DCS与汽轮机控制系统通讯的PLC传送通讯代码时,DCS将汽轮机阀位限制由正常运行中的120%修改为0.25%,造成汽机1、2、3号调门由20%关闭至0%,机组负荷由552MW迅速降至5MW。

3.3 防范措施

机组运行期间,禁止DCS传代码工作。
机组停运期间,DCS传代码时,应经运行班长同意,并做好安全措施。
将DCS操作员站对汽轮机控制系统操作员站画面进行操作的功能闭锁,但在DCS操作员站上仍能监视到汽轮机控制系统的信息。
四、案例3:DCS工作站时钟混乱引发DCS失灵

4.1事件经过

2001年 8月3日,C电厂2号机组负荷200MW,#1至#9控制器处于控制方式,#51至#59控制器处于备用方式。8时23分,各控制器依次发NTP报警,历史站报警窗口显示如下:

Aug 3 08:23:50 drop7 <7> NTP:too many recvbufs allocated(30)
Aug 3 08:23:50 drop4 <7> NTP:too many recvbufs allocated(30)
………

8时26分,#2控制器脱网,#52控制器切为主控;11时05分,#52控制器脱网;13时39分,#7控制器脱网,#57控制器切为主控,在#7控制器向#57控制器切换瞬间,由该控制器控制的A、B磨煤机跳闸;15时11分,#9控制器脱网,#59控制器切为主控,在#9控制器向#59控制器切换瞬间,由该控制器控制的E磨煤机跳闸;15时51分,#1控制器脱网,#51控制器切为主控,在#1控制器向#51控制器切换瞬间,由该控制器控制的A引风机动叶被强制关闭。

15时22分,重启操作员站drop213(备用时钟站),NTP报警未消失;15时35分,重启历史站,NTP报警未消失;15时59分,重启工程师站(主时钟站),NTP报警基本消失;16时09分,重启历史站,16时30分,系统恢复正常。
4.2 原因分析


NTP软件的作用就是维持网络时钟的统一,主时钟设置在工程师站上,备用时钟设置在操作员站上。控制器脱网原因为主时钟与备用时钟不同步造成系统时钟紊乱,从而造成NTP报警导致控制器脱网。

NTP故障的原因有两种可能,一种是主频为400MHz工作站,不同于1号机组的270MHz(SUN公司在400MHz工作站上对操作系统有较大改进)工作站,2号机组所用的1.1版本软件在400MHz工作站上未测试过,不能确保1.1版本软件在此配置上不出问题。另一种是主时钟与备用时钟不同步,在8月3日控制器脱网后,曾发现Drop214的时钟比其它站快了2秒, 当时Drop214的画面调用速度较慢,经重启后正常,并且NTP时钟报警是在系统运行73-75天左右才出现的,估计是系统时钟偏差积累到一定程度后导致主、备时钟不同步,而引起系统时钟紊乱,最终导致控制器脱网。
NTP时钟故障使控制器脱网,处理不及时会使报警的控制器依次脱网,从而导致整个控制系统瘫痪。
4.3 防范措施
根据本次故障现象,制造商将软件由1.1版本升级为1.2版本。
为确保控制系统可靠运行,定期重启主时钟和备用时钟站。
D电厂5号机组在2002年试运期间曾发生DCS时钟与GPS时钟不同步,引发DCS操作员站失灵事件。由于网 上传送的数据均带时间标签,时钟紊乱后会给运行机组带来严重后果,基本情况与C电厂2号机组类似。采取的措施是暂时断开GPS时钟,待软件升级和问题得到根本解决后,再恢复GPS时钟。
五、案例4:CABLETRON集线器总通讯板故障导致MFT误动
5.1 事件经过
2002年 1月1日,E电厂1号机组负荷250MW,#51至#59控制器处于控制方式,#1至#9控制器处于备用方式,A、B、C、E、F磨煤机运行。18时57分,所有磨煤机跳闸(直吹炉),MFT动作,机组跳闸。
5.2 原因分析
经分析,确认是DCS集线器的总通讯板故障,导致连在其上的所有控制器同时发生切换,在控制器向备用控制器切换过程中,#57、#58、#59控制器PK键信号误发(这三个控制器属FSSS系统),即CRT上"磨煤机跳闸按钮"的跳闸和确认指令同时发出,使所有磨煤机跳闸,导致MFT动作。
5.3 防范措施
CABLETRON集线器属于早期产品,目前在市场上购买备件已比较困难,采用CISCO集线器来取代CABLETRON集线器。
六、案例5:冗余控制器失灵造成机组跳闸
6.1 事件经过
2003年3月23日,F电厂#3机组停机前电负荷115MW,炉侧主汽压9.55MPa,主汽温537℃,主给水调节门开度43%,旁路给水调节门开度47%(每一条给水管道均能满足100%负荷的供水),汽包水位正常;其它各参数无异常变化。
监盘人员发现锅炉侧部分参数显示异常,各项操作均不能进行,同时炉侧CRT画面显示各项自动已处于解除状态。调自检画面发现#3控制器离线,#23控制器处于主控状态。运行人员立即联系热工人员处理,同时借助汽机侧CRT画面监视主汽压、主汽温,并对汽包电接点水位计和水位TV加强监视,主汽压在9.0~9.6MPa波动、主汽温在510~540℃波动、汽包水位在+75~-50mm波动,维持运行。
几分钟后,热工人员赶到现场,发现#3控制器离线、#23控制器为主控状态,但#23控制器主控下的I/O点(汽包水位、主汽温、主汽压、给水压力、等)均为坏点,自动控制手操失灵。经过多次重启,#3控制器恢复升为主控状态。在释放强制的I/O点时,监盘人员发现汽包水位急剧下降,就地检查发现旁路给水调节门在关闭状态,手动摇起三次均自动关闭,汽包水位TV和显示表监视不到水位,手动停炉、停机。
6.2 原因分析
根据能追忆到的历史记录分析,可以推断#3控制器(主控)故障前,#23控制器(辅控)因硬件故障或通讯阻塞,已经同I/O总线失去了通讯。当#3控制器因主机卡故障离线后,#23控制器升为主控,但无法读取I/O数据,造成参与汽水系统控制的一对冗余控制器同时失灵,给水自动控制系统失控,汽包水位保护失灵。在新更换的#3控制器重启成功后释放强制点的过程中,DCS将旁路给水调节门指令置零(逻辑如此设计是为了在控制器故障时,运行机组向更安全的方向发展),关闭旁路调节门。而旁路调节门为老型号的阀门,相当于解除了自保持的电动门(接受脉冲量信号),切手动时不能做到电气脱扣,因此,紧急情况下不能顺利打开,造成汽包缺水。
6.3 防范措施
更换#3、#23控制器主机板,同时考虑增加主机板的备品储备。
增加通讯卡,使控制器与I/O卡之间的通讯为冗余的。
对所有控制器、I/O卡、BC卡的通讯进行监测,增加脱网逻辑判断功能,生成报警点并进行历史记录。一旦控制器工作异常,可及时报警并处理。
增加控制器超温报警功能,在控制器出现故障之前可以采取措施,将事故消灭在萌芽之中。
汽包水位等重要调节、保护系统的输入信号,一般应为三路相互独立的信号,通过分流器将这三路信号变成六路信号,分别进六块端子板和AI卡件,送入两对控制器,一对控制器用于调节、保护,另一对控制器只参与保护。这样可以很好地解决一对冗余的控制器同时故障时,重要保护失灵的问题。
更换重要自动调节系统的执行机构,使之具有完善的操作功能。
DCS失灵时,若主要后备硬手操或监视仪表不能维持正常运行,运行人员应立即停机、停炉。
关闭MIS系统接口站中的所有硬盘共享功能,确保DCS系统同MIS系统只具备单向通讯功能。
七、结束语
以上案例只是在一定范围内发生的DCS故障的几个比较典型案例,即使将这些案例的反措全部应用到每套DCS中去,也不能避免DCS故障的再次发生。在更大范围内,由DCS故障引发的停机事件也不会太少,有些事件肯定会涉及到控制器负荷率高、网络通讯负荷率高等问题,由于目前还没有有效的手段监测控制器负荷率和网络通讯负荷率,找出这类事件的根本原因还有一定的难度,因此,消除这类缺陷也比较困难。
要防止各类事故的发生,必须从源头-DCS的设计和制造抓起,将国内应用的各种类型的DCS发生过的故障情况反馈到有关部门,由有关部门召集专家进行分析研究,制定出相应的标准、制度和反措,强制执行,并形成一个大的闭环质量控制体系,长期良性循环 。

文章版权归西部工控xbgk所有,未经许可不得转载。