【導(dǎo)讀】容錯(cuò)控制的研究雖然面臨著空前的挑戰(zhàn),但近些年來(lái),相關(guān)研究領(lǐng)域,如魯棒控制理論,模糊控制,神經(jīng)網(wǎng)絡(luò)控制研究的不斷深入和發(fā)展,也給容錯(cuò)控制的研究帶來(lái)了良好的機(jī)遇,提供了充分的條件。
而計(jì)算機(jī)控制技術(shù)、人工智能等技術(shù)的飛速發(fā)展,使得容錯(cuò)控制技術(shù)在實(shí)際工程中應(yīng)用的可能性變得越來(lái)越大。
一、容錯(cuò)
提高系統(tǒng)的可靠性一般有兩種辦法:
1、采用縝密的設(shè)計(jì)和質(zhì)量控制方法來(lái)盡量減少故障出現(xiàn)的概率。
2、以冗余資源為代價(jià)來(lái)?yè)Q取可靠性。
利用前一種方法來(lái)提高系統(tǒng)的可靠性是有限的,要想進(jìn)一步的提高必須采用容錯(cuò)技術(shù)。
容錯(cuò)控制技術(shù)在國(guó)外發(fā)展的比較早,是由馮·諾依曼提出的。隨著八十年代微型計(jì)算機(jī)的迅速發(fā)展和廣泛應(yīng)用,容錯(cuò)技術(shù)也得到了飛速的發(fā)展,容錯(cuò)技術(shù)被應(yīng)用到各個(gè)環(huán)境中。我國(guó)的容錯(cuò)技術(shù)現(xiàn)在發(fā)展的也很迅速,一些重要的工作場(chǎng)合如航天、電廠等現(xiàn)在都采用了容錯(cuò)技術(shù)。
所謂容錯(cuò):就是容許錯(cuò)誤,是指設(shè)備的一個(gè)或多個(gè)關(guān)鍵部分發(fā)生故障時(shí),能夠自動(dòng)地進(jìn)行檢測(cè)與診斷,并采取相應(yīng)措施,保證設(shè)備維持其規(guī)定功能,或犧牲性能來(lái)保證設(shè)備在可接受范圍內(nèi)繼續(xù)工作。
錯(cuò)誤一般分為兩類:
第一類是先天性的固有錯(cuò),如元器件生產(chǎn)過(guò)程中造成的錯(cuò)、線路與程序在設(shè)計(jì)過(guò)程中產(chǎn)生的錯(cuò)。這一類的錯(cuò)誤需對(duì)其拆除、更換或修正,是不能容忍的。
第二類的錯(cuò)后天性的錯(cuò),它是由于設(shè)備在運(yùn)行中產(chǎn)生了缺陷所導(dǎo)致的故障。這種故障有瞬時(shí)性、間歇性和永久性的區(qū)別。
容錯(cuò)技術(shù)是提高系統(tǒng)可靠性的重要途徑。常采用的容錯(cuò)方法有硬件容錯(cuò)、軟件容錯(cuò)、信息容錯(cuò)和時(shí)間容錯(cuò)。
1、什么叫“智能容錯(cuò)”
智能容錯(cuò)IFT(Intelligent Fault-Tolerance):就是設(shè)備在運(yùn)行過(guò)程中一個(gè)或多個(gè)關(guān)鍵部件發(fā)生故障或即將發(fā)生故障之前,利用人工智能理論和方法,通過(guò)采取有效措施,對(duì)故障自動(dòng)進(jìn)行補(bǔ)償、抑制、消除、修復(fù),以保證設(shè)備繼續(xù)安全、高效、可靠運(yùn)行,或以犧牲性能損失為代價(jià),保證設(shè)備在規(guī)定的時(shí)間內(nèi)完成其預(yù)定功能。
智能容錯(cuò)技術(shù)的構(gòu)成方法可以采用以下三步來(lái)實(shí)現(xiàn):
(1)建立系統(tǒng)的設(shè)計(jì)目標(biāo);
(2)設(shè)計(jì)智能容錯(cuò)處理機(jī)構(gòu);
(3)根據(jù)設(shè)計(jì)目標(biāo)對(duì)所作的設(shè)計(jì)進(jìn)行評(píng)價(jià),如果滿足目標(biāo)則設(shè)計(jì)成功,否則將返回第二步進(jìn)行重新設(shè)計(jì),直到滿足設(shè)計(jì)目標(biāo)要求。
硬件智能容錯(cuò) HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技術(shù)。其基本思想是對(duì)設(shè)備的關(guān)鍵部件配備多重相似或相同部件,一旦檢測(cè)和診斷出設(shè)備發(fā)生故障就可以立刻切換到備份部件,以達(dá)到故障容錯(cuò)的目的。圖 1 所示為二冗余結(jié)構(gòu)原理圖:
圖 1 二冗余結(jié)構(gòu)原理圖
2、硬件智能容錯(cuò)方式的分類
硬件智能容錯(cuò)按其工作方式可以分為:靜態(tài)冗余、動(dòng)態(tài)冗余和混合冗余。
靜態(tài)冗余容錯(cuò)是通過(guò)表決和比較屏蔽系統(tǒng)中出現(xiàn)的故障,如圖2所示:
圖 2 三模冗余(靜態(tài)冗余)TMR系統(tǒng)結(jié)構(gòu)圖
靜態(tài)冗余容錯(cuò)的主要特點(diǎn)是:
(1)由于故障被屏蔽,所以不需要識(shí)別故障;
(2)容易與無(wú)冗余系統(tǒng)進(jìn)行轉(zhuǎn)換;
(3)所有模件都消耗能量。
動(dòng)態(tài)冗余的主要方式是多重模塊相繼運(yùn)行來(lái)維持設(shè)備正常工作。當(dāng)檢測(cè)到工作模塊出現(xiàn)故障時(shí),一個(gè)備用模塊立即接替故障模塊并投入工作。
動(dòng)態(tài)冗余容錯(cuò)控制的主要特點(diǎn)是:
(1)僅有一個(gè)模件消耗能量;
(2)模件數(shù)目可隨任務(wù)而改變,不會(huì)影響系統(tǒng)工作;
(3)轉(zhuǎn)換裝置和檢測(cè)裝置中任一故障都會(huì)導(dǎo)致系統(tǒng)失效。
圖 3 動(dòng)態(tài)冗余容錯(cuò)控制結(jié)構(gòu)圖
混合冗余兼動(dòng)態(tài)冗余和靜態(tài)冗余之所長(zhǎng),通常用H(n,k)來(lái)表示,如圖4所示。圖中的V為表決器,n表示模塊的總數(shù),k代表以表決方式實(shí)現(xiàn)靜態(tài)冗余的模塊數(shù),而其余N-K個(gè)模塊則作為表決系統(tǒng)中模塊的備份。當(dāng)參與表決的k個(gè)模塊中(通常k>=3)有一個(gè)模塊出現(xiàn)故障時(shí),備份就替代該模塊參與表決,維持靜態(tài)冗余系統(tǒng)的完整。當(dāng)所有備份都被替換完后,系統(tǒng)就成為一般的表決系統(tǒng)。
如在硬件構(gòu)成的邏輯系統(tǒng)中表決器是由開關(guān)電路實(shí)現(xiàn)的,而軟件中表決需要通過(guò)軟件斷言SA(Software Assertions)來(lái)實(shí)現(xiàn)。軟件斷言就是當(dāng)軟件在宿主系統(tǒng)中運(yùn)行時(shí),對(duì)其進(jìn)程或功能的正確與否做出判斷的條件。
圖 4 H(n,k)系統(tǒng)結(jié)構(gòu)
3、智能容錯(cuò)的故障處理方式
智能容錯(cuò)技術(shù)是一種外延廣博的綜合性技術(shù)。為了消除故障的影響,可以采用以下處理方式來(lái)實(shí)現(xiàn):
(1)故障檢測(cè)
通過(guò)故障檢測(cè)可以迅速準(zhǔn)確地對(duì)故障進(jìn)行定位。故障檢測(cè)是容錯(cuò)的基礎(chǔ)。故障檢測(cè)方式可分兩種:脫機(jī)檢測(cè),即進(jìn)行檢測(cè)時(shí)系統(tǒng)不能做有用的工作,聯(lián)機(jī)檢測(cè),即檢測(cè)與系統(tǒng)工作同步進(jìn)行,它具有實(shí)時(shí)檢測(cè)的能力。
(2)故障定位
在給定的故障條件下,找出故障原因,確定發(fā)生故障元件的具體位置。定位的詳細(xì)程度視具體問(wèn)題而定,一般定位到進(jìn)行系統(tǒng)重構(gòu)所需的最小單元。
(3)故障屏蔽
故障屏蔽能夠把故障效應(yīng)掩蓋起來(lái),以防止故障對(duì)輸出產(chǎn)生影響。故障屏蔽只能容忍故障,而不能給出故障警告,當(dāng)冗余資源耗盡時(shí),將使設(shè)備產(chǎn)生錯(cuò)誤輸出。
常用的故障屏蔽方法有多模表決冗余和屏蔽邏輯兩種,多模表決冗余就是在設(shè)備的多個(gè)裝置中,只要至少有一個(gè)裝置正常工作,系統(tǒng)就能完成其功能;屏蔽邏輯主要用于門級(jí)電路的故障屏蔽,它能有效地限制邏輯線路門輸出的臨界故障與亞臨界故障。
(4)故障限制
故障限制就是規(guī)定故障的傳播范圍,把故障效應(yīng)的傳播限制到某一區(qū)域內(nèi)。故障限制可以用軟件和硬件來(lái)實(shí)現(xiàn)。
(5)故障隔離
故障隔離就是將故障隔離起來(lái)以防其進(jìn)一步擴(kuò)散和對(duì)設(shè)備產(chǎn)生影響。
(6)故障修復(fù)
當(dāng)設(shè)備發(fā)生故障經(jīng)檢測(cè)和定位后,就可采取更換、修理、自修復(fù)等方式使設(shè)備復(fù)原。
(7)系統(tǒng)重組
當(dāng)設(shè)備發(fā)生故障時(shí),通過(guò)任務(wù)的重新分配或內(nèi)部器件的重新組合,以切除或替換故障部件。
(8)系統(tǒng)重構(gòu)
重構(gòu)就是把修復(fù)的模件重新加入到系統(tǒng)中去。
(9)系統(tǒng)恢復(fù)
系統(tǒng)恢復(fù)就是經(jīng)過(guò)屏蔽、重組等,使故障恢復(fù)到故障前的工作狀態(tài),不丟失或少丟失信息,并保證下一步的正常運(yùn)行,系統(tǒng)恢復(fù)通常用軟件實(shí)現(xiàn)。
4、智能容錯(cuò)的實(shí)現(xiàn)方法
智能容錯(cuò)的實(shí)現(xiàn)方法分為: (1)故障信號(hào)檢測(cè);(2)故障特征識(shí)別;(3)故障狀態(tài)預(yù)測(cè);(4)故障維修決策;(5)故障容錯(cuò)控制。
故障容錯(cuò)的目的在于針對(duì)不同的故障源和故障特征,采取相應(yīng)的容錯(cuò)處理措施,對(duì)故障進(jìn)行補(bǔ)償、消除或自動(dòng)修復(fù),以保證設(shè)備繼續(xù)安全可靠運(yùn)行,或以犧牲性能損失為代價(jià),保證設(shè)備在規(guī)定時(shí)間內(nèi)完成其基本功能。結(jié)構(gòu)框圖如圖5所示。
圖 5 故障容錯(cuò)控制過(guò)程框圖
二、冗余技術(shù)
所謂冗余(Redundancy)就是多余資源,冗余技術(shù)可供用來(lái)處理故障,冗余技術(shù)分為:
(1)硬件冗余法:
硬件冗余HR(Hardware Redundancy)就是依靠附加硬件的冗余性和互補(bǔ)性來(lái)實(shí)現(xiàn)故障容錯(cuò),附加硬件通常采用儲(chǔ)備形式,當(dāng)設(shè)備某個(gè)或某些關(guān)鍵部件發(fā)生故障后,可以用備份硬件替代故障部件,以削弱或消除故障的影響。
(2)軟件冗余法:
軟件冗余SR(Software Redundancy)可以通過(guò)增加軟件功能來(lái)實(shí)現(xiàn),其中包括修改容錯(cuò)控制策略、重新配置系統(tǒng)軟件、有效地降低設(shè)備的運(yùn)行速度、多模塊并行診斷決策等。
冗余附加技術(shù)指為實(shí)現(xiàn)上述榮譽(yù)另外所需的資源和技術(shù),包括程序、指令、數(shù)據(jù)以及存放和調(diào)動(dòng)他們的空間和通道。他們和硬件冗余中冗余備份一樣,在沒(méi)有容錯(cuò)要求的系統(tǒng)中是不需要的,而在容錯(cuò)系統(tǒng)中卻是必不可少的。以屏蔽硬件故障為目的容錯(cuò)技術(shù)中,冗余附加技術(shù)包括:
1)關(guān)鍵程序和數(shù)據(jù)的榮譽(yù)存儲(chǔ)和調(diào)用;
2)進(jìn)行檢測(cè)、表決、切換、重構(gòu)、糾錯(cuò)、復(fù)算的實(shí)現(xiàn)。在屏蔽軟件故障的容錯(cuò)系統(tǒng)中,冗余附加件的構(gòu)成不同。
冗余附加件包括:
1)獨(dú)立設(shè)計(jì)的相同功能冗余備份程序的存儲(chǔ)及調(diào)用;
2)實(shí)現(xiàn)糾錯(cuò)誤檢測(cè)及恢復(fù)的程序;
3)為實(shí)現(xiàn)容錯(cuò)軟件所需固化了的程序。
冗余、容錯(cuò)技術(shù)發(fā)展現(xiàn)狀伴隨著大規(guī)模和超大規(guī)模集成電路的發(fā)展,硬件可靠性大大提高而價(jià)格卻大幅度降低,使采用各種容錯(cuò)技術(shù)在經(jīng)濟(jì)上更易接受。
容錯(cuò)技術(shù)應(yīng)用范圍擴(kuò)展于銀行事務(wù)處理及各種實(shí)時(shí)控制系統(tǒng),甚至許多通用計(jì)算機(jī)系統(tǒng)也采用了容錯(cuò)技術(shù)。在七八十年代,容錯(cuò)技術(shù)應(yīng)用已經(jīng)很廣泛,例如:1975年的美國(guó)貝爾實(shí)驗(yàn)室的3A號(hào)ESS處理系統(tǒng)和美國(guó) TANDEM16容錯(cuò)事務(wù)處理系統(tǒng):1976年的美國(guó)AMDAHL470V/6 容錯(cuò)通用計(jì)算機(jī)和 1978 年容錯(cuò)空間計(jì)算機(jī) FTSC;1979年BIM推出容錯(cuò)的4300通用計(jì)算機(jī)系列;1980年容錯(cuò)多處理機(jī) FTMP 及軟件實(shí)現(xiàn)的容錯(cuò)計(jì)算機(jī)sift研制成功等等。
隨著電子交易的日益廣泛,出現(xiàn)了商用容錯(cuò)計(jì)算機(jī)市場(chǎng)和以分布式為體系的容錯(cuò)計(jì)算機(jī)系統(tǒng)。容錯(cuò)的VLSI技術(shù)和人工智能在容錯(cuò)技術(shù)上的應(yīng)用——計(jì)算機(jī)故障診斷專家系統(tǒng),給冗余、容錯(cuò)技術(shù)的發(fā)展增添了新的活力。
冗余、容錯(cuò)技術(shù)理論的研究,也是相當(dāng)活躍的。1952 年,馮·諾依曼作了一系列關(guān)于用重復(fù)邏輯模塊改善系統(tǒng)可靠性的報(bào)告;1956 年,他發(fā)表了論文《概率邏輯及用不可靠元件設(shè)計(jì)可靠的結(jié)構(gòu)》。
1971 年以來(lái),IEEE 計(jì)算機(jī)學(xué)會(huì)容錯(cuò)技術(shù)委員會(huì)每年召開一次國(guó)際容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議;1987 年中國(guó)計(jì)算機(jī)學(xué)會(huì)成立了容錯(cuò)計(jì)算專業(yè)委員會(huì)等等?;谌蒎e(cuò)控制(TFC)基本思想,F(xiàn)TC 的研究主要有被動(dòng)容錯(cuò)控制(Passives)和主動(dòng)容錯(cuò)控制(Activate)兩種途徑。
主動(dòng)容錯(cuò)控制是在控制系統(tǒng)故障檢測(cè)與 FDD(Fau1t Detection and Diagnose)的基礎(chǔ)上,當(dāng) FDD 環(huán)節(jié)檢測(cè)出系統(tǒng)故障后,重新調(diào)整控制器參數(shù),甚至改變控制器結(jié)構(gòu),在保證系統(tǒng)穩(wěn)定的前提下,盡量恢復(fù)系統(tǒng)故障前的性能。被動(dòng)容錯(cuò)控制是設(shè)計(jì)對(duì)故障具有容忍能力的強(qiáng)魯棒控制器,被動(dòng)容錯(cuò)控制的研究可以充分利用魯棒控制技術(shù)的研究成果,且不受 FDD 發(fā)展水平的限制,所以對(duì)于被動(dòng)容錯(cuò)控制的研究取得的成果較多。
1、主動(dòng)容錯(cuò)控制
主動(dòng)容錯(cuò)控制一般需要兩個(gè)基本步驟:控制系統(tǒng)的故障檢測(cè)、診斷與隔離及控制系統(tǒng)重構(gòu)。
控制系統(tǒng)故障檢測(cè)、診斷與隔離是在現(xiàn)代控制理論、可靠性理論、數(shù)理統(tǒng)計(jì)、信號(hào)處理技術(shù)、模式識(shí)別技術(shù),以及人工智能和計(jì)算機(jī)控制技術(shù)等技術(shù)基礎(chǔ)上的一門應(yīng)用型的邊緣學(xué)科,F(xiàn)DD 技術(shù)是容錯(cuò)控制重要的支撐技術(shù)之一。
由于控制系統(tǒng) FDD 問(wèn)題本身的復(fù)雜性和相關(guān)領(lǐng)域技術(shù)水平的限制,雖然人們對(duì)它的研究己達(dá)到了一定的水平,但至今仍沒(méi)有解決這一問(wèn)題特別有效的方法。
目前的控制系統(tǒng)FDD研究主要是沿著基于模型和基于知識(shí)兩種途徑展開。
控制系統(tǒng)重構(gòu)的方法主要有:控制律重新調(diào)度、控制器重構(gòu)設(shè)計(jì)和模型跟蹤重組控制,控制律重新調(diào)度的基本思想是,在離線的情況下計(jì)算出各種故障條件下所需的控制律增益參數(shù),存儲(chǔ)在計(jì)算機(jī)中,系統(tǒng)根據(jù) FDD 單元所給出的結(jié)果,選擇合適增益參數(shù),實(shí)現(xiàn)對(duì)各種故障的容錯(cuò)控制;控制器重構(gòu)設(shè)計(jì)是根據(jù)故障系統(tǒng)的新環(huán)境,重新設(shè)置系統(tǒng)的工作點(diǎn),并給出可改善系統(tǒng)性能的新控制器,現(xiàn)有的控制器重構(gòu)方法主要有基于直接狀態(tài)反饋或輸出反饋的方法,以及基于動(dòng)態(tài)補(bǔ)償器的設(shè)計(jì)方法等;模型跟蹤重組控制的基本原理是采用模型參考自適應(yīng)控制的思想,使得被控過(guò)程的輸出自適應(yīng)地跟蹤參考模型的輸出,因此這種容錯(cuò)控制不需要FDD單元。
在主動(dòng)容錯(cuò)控制方法中,能夠較好地將FDD環(huán)節(jié)與系統(tǒng)重構(gòu)相結(jié)合的是基于人工智能的容錯(cuò)控制方法。在容錯(cuò)控制中所運(yùn)用的人工智能方法主要是人工神經(jīng)元網(wǎng)絡(luò) ANN(Artifictial Neural Network),利用 ANN 對(duì)非線性特性的任意逼近能力和ANN所具有的從樣本中學(xué)習(xí)、歸納和推理的能力,通過(guò)訓(xùn)練,使ANN能準(zhǔn)確地估計(jì)出故障的大小,在此基礎(chǔ)上再通過(guò)故障補(bǔ)償來(lái)實(shí)現(xiàn)主動(dòng)容錯(cuò)控制。
被動(dòng)容錯(cuò)控制在目前的容錯(cuò)控制研究中,因?yàn)椴皇芸刂葡到y(tǒng) DFD 環(huán)節(jié)的限制,被動(dòng)容錯(cuò)控制相對(duì)于主動(dòng)容錯(cuò)控制要更容易實(shí)現(xiàn),已有的可以實(shí)現(xiàn)被動(dòng)容錯(cuò)控制的主要方法有:
完整性控制器設(shè)計(jì)、同時(shí)鎮(zhèn)定和可靠鎮(zhèn)定。
完整性控制(Intgearl Contron)的概念由Niederlinski 在 1971年提出,完整性控制是研究最早的一種容錯(cuò)控制技術(shù),因?yàn)榭刂葡到y(tǒng)中傳感器和執(zhí)行器是最容易發(fā)生故障的部件,所以完整性控制具有很高的應(yīng)用價(jià)值,在控制理論中,稱多變量系統(tǒng)中出現(xiàn)故障時(shí)仍能保持系統(tǒng)穩(wěn)定性的控制器為完整性控制器,完整性控制器設(shè)計(jì)是多變量系統(tǒng)中特有的問(wèn)題;
多模型設(shè)計(jì)方法又稱同時(shí)鎮(zhèn)定問(wèn)題,自從Ackermann,Sakes 和Vidyasagar 等人提出來(lái)以后,己經(jīng)成為容錯(cuò)控制的一個(gè)重要研究方向,同時(shí)穩(wěn)定容錯(cuò)控制的設(shè)計(jì)方法是力求尋找一個(gè)公共的狀態(tài)反饋控制器,使之能夠同時(shí)穩(wěn)定盡可能多的故障情況下的系統(tǒng)模型,同時(shí)兼顧到系統(tǒng)的動(dòng)、靜態(tài)品質(zhì)特性的要求;使用多個(gè)補(bǔ)償器進(jìn)行可靠鎮(zhèn)定的概念是由 Silage 于1980年最早提出,可靠鎮(zhèn)定實(shí)際上是關(guān)于控制器的容錯(cuò)問(wèn)題。
與被動(dòng)容錯(cuò)控制相比較,主動(dòng)容錯(cuò)控制具有更多的優(yōu)點(diǎn)。從理論上講,被動(dòng)容錯(cuò)控制是故障情況下的強(qiáng)魯棒控制,主動(dòng)容錯(cuò)控制是故障情況下的強(qiáng)自適應(yīng)控制。被動(dòng)容錯(cuò)控制即使在系統(tǒng)正常的情況下控制率也要滿足故障條件下的要求,這在系統(tǒng)正常時(shí)顯然是一種過(guò)高的要求,設(shè)計(jì)未免過(guò)于保守,必然要以犧牲性能指標(biāo)為代價(jià)。另外,在預(yù)想故障數(shù)目較多時(shí),被動(dòng)容錯(cuò)控制問(wèn)題可能根本沒(méi)有解,所以被動(dòng)容錯(cuò)控制有較大的局限性。
基于控制系統(tǒng)FDD的主動(dòng)容錯(cuò)控制實(shí)質(zhì)是一種強(qiáng)自適應(yīng)控制,它通過(guò)實(shí)時(shí)地對(duì)系統(tǒng)進(jìn)行故障檢測(cè)與診斷,當(dāng)檢測(cè)出系統(tǒng)故障后,根據(jù)不同的故障采取相應(yīng)的措施,保證系統(tǒng)的穩(wěn)定性和維持一定的性能指標(biāo)。主動(dòng)容錯(cuò)控制所用的主要方法是控制重構(gòu)和故障補(bǔ)償,前者需要根據(jù)故障重新設(shè)計(jì)控制器,后者則是利用故障的信息確定一個(gè)控制補(bǔ)償量,目的都是力圖使故障后的系統(tǒng)盡量接近甚至等價(jià)于原系統(tǒng)。
對(duì)于演變速度較慢的所謂軟故障,多模自適應(yīng)方法比較適合,但多模自適應(yīng)方法中存在較多的算法上的問(wèn)題,限制了這種方法的使用。
2、容錯(cuò)控制研究中需要解決的主要問(wèn)題
盡管控制系統(tǒng) FDD 和 TFC 技術(shù)的研究在理論上己取得了較為豐富的成果,但距離實(shí)際工程應(yīng)用的要求還有相當(dāng)大的差距,理論上也還有許多問(wèn)題有待人們?nèi)パ芯亢吞剿鳌?/div>
本文主要研究了實(shí)時(shí)系統(tǒng)多機(jī)冗余、容錯(cuò)系統(tǒng)的故障檢測(cè)與診斷、控制系統(tǒng)重構(gòu)、容錯(cuò)實(shí)時(shí)運(yùn)行庫(kù)技術(shù)以及容錯(cuò)控制在工程中的應(yīng)用等問(wèn)題,而在目前的研究中,上述領(lǐng)域主要存在的問(wèn)題分述如下:
(1)控制系統(tǒng)故障檢測(cè)與診斷中存在的問(wèn)題:
控制系統(tǒng)故障的模型是從理論上進(jìn)行FDD 研究的前提,但現(xiàn)有故障建模方法簡(jiǎn)單,與實(shí)際系統(tǒng)故障具有的復(fù)雜性和多樣性成為一對(duì)急待解決的矛盾。目前還沒(méi)有一個(gè)在 FDD 和 FTC 中比較統(tǒng)一的故障表示方法。就拿CPU 測(cè)試來(lái)說(shuō),多數(shù)的結(jié)構(gòu)測(cè)試法需要詳細(xì)的系統(tǒng)邏輯電路圖,并在此基礎(chǔ)上建立故障模型。
結(jié)構(gòu)測(cè)試法通過(guò)驗(yàn)證電路中沒(méi)有任何符合故障模型的故障存在,來(lái)說(shuō)明電路中沒(méi)有影響電路功能的實(shí)際物理故障存在。由于微處理器是一個(gè)輸入、輸出引線數(shù)目有限,內(nèi)部結(jié)構(gòu)異常復(fù)雜的大規(guī)模集成電路,很難在邏輯門這一級(jí)確立準(zhǔn)確的故障模型;另一方面受到引出腳數(shù)目的限制,使得故障的可控制性與可觀察性大大降低;此外控制邏輯部分與數(shù)據(jù)處理邏輯部分都在一塊芯片上,不能預(yù)先假定哪一部分總是好的。
(2)系統(tǒng)重構(gòu)方面存在的主要問(wèn)題:
目前的系統(tǒng)重構(gòu)問(wèn)題研究較少?,F(xiàn)有的運(yùn)用廣義逆的方法、基于狀態(tài)反饋或輸出反饋、特征值和結(jié)構(gòu)配置等方法,僅是從數(shù)學(xué)模型角度將系統(tǒng)恢復(fù),而不是從系統(tǒng)性能角度恢復(fù),所以重構(gòu)后的系統(tǒng)魯棒性不能保證,有時(shí)甚至穩(wěn)定性也難以保證。而且,多數(shù)重構(gòu)對(duì)系統(tǒng)模型的要求也很苛刻。就目前的控制系統(tǒng) FDD研究水平來(lái)看,想獲得故障后系統(tǒng)模型的全部信息是相當(dāng)困難的,所以尋求故障后控制完全重構(gòu)是理想化的。由于故障的大小是未知的,所以在設(shè)計(jì)時(shí)進(jìn)行穩(wěn)定性分析是非常困難的,只能對(duì)預(yù)想的故障進(jìn)行穩(wěn)定性分析。
(3)實(shí)時(shí)系統(tǒng)和容錯(cuò)技術(shù)相結(jié)合存在的主要問(wèn)題:如何將軟件容錯(cuò)技術(shù)有機(jī)地融合到實(shí)時(shí)系統(tǒng)中去,具有與發(fā)展軟件容錯(cuò)技術(shù)本身同樣重要的地位。
目前,盡管實(shí)時(shí)系統(tǒng)的軟件容錯(cuò)技術(shù)已經(jīng)取得了非常巨大的進(jìn)步,但在實(shí)時(shí)系統(tǒng)中并未得到充分地應(yīng)用。
(4)用戶在冗余、容錯(cuò)系統(tǒng)設(shè)計(jì)中存在的主要問(wèn)題:應(yīng)用程序設(shè)計(jì)者在考慮如何實(shí)現(xiàn)應(yīng)用軟件的功能要求同時(shí),要兼顧軟件容錯(cuò),這不可避免地,甚至是成倍地加大了應(yīng)用系統(tǒng)開發(fā)的工作量,增加系統(tǒng)的復(fù)雜程度,反而加大應(yīng)用出錯(cuò)的可能性。應(yīng)用層容錯(cuò)將容錯(cuò)機(jī)制的實(shí)現(xiàn)和應(yīng)用程序融為一體,當(dāng)需要在同一操作系統(tǒng)上開發(fā)新的應(yīng)用時(shí),所有工作必須從頭開始,不符合工程實(shí)際中提高軟件重用性,開發(fā)低成本、高可靠系統(tǒng)的大趨勢(shì)。
(5)容錯(cuò)控制理論運(yùn)用于工程實(shí)際時(shí)需要解決的問(wèn)題:容錯(cuò)控制在理論研究上比較困難,在實(shí)際工程中的應(yīng)用更少。由于不同的工程領(lǐng)域所遇到的問(wèn)題有很大的差異,不可能以一個(gè)統(tǒng)一的框架來(lái)解決所有的問(wèn)題。理論研究所用的模型和假設(shè)同工程實(shí)際的差別比較大,這也是容錯(cuò)控制理論在工程實(shí)際中運(yùn)用所遇到的主要困難。各個(gè)領(lǐng)域的工程技術(shù)人員,應(yīng)結(jié)合自己的工程實(shí)際,選擇相應(yīng)的控制方案。因此,統(tǒng)一系統(tǒng)架構(gòu),構(gòu)建支持多種主流冗余、容錯(cuò)模式的運(yùn)行庫(kù),對(duì)工程設(shè)計(jì)人員來(lái)說(shuō)是很重要的。
來(lái)源:可靠性技術(shù)交流
推薦閱讀: