第一篇:基于支持向量機(jī)建模法預(yù)測(cè)原油系統(tǒng)PVT參數(shù)
大 連 理 工 大 學(xué)
研究生考查課作業(yè)
Forecasting PVT properties of crude oil systems based on support vector machines modeling scheme 基于支持向量機(jī)建模方案預(yù)測(cè)原油系統(tǒng)
PVT參數(shù)
課程名稱:
電信學(xué)部專業(yè)英語(yǔ)
導(dǎo)師: 趙珺
研究生姓名:
李德祥
學(xué)號(hào): 20909173
作業(yè)成績(jī):
任課教師(簽名)
交作業(yè)日時(shí)間:2010 年12月17日
基于支持向量機(jī)建模方案預(yù)測(cè)原油系統(tǒng)PVT參數(shù)
摘要:PVT參數(shù)在油儲(chǔ)工程計(jì)算中發(fā)揮著重要的作用。目前有許多種方法用來(lái)預(yù)測(cè)各種PVT參數(shù),例如經(jīng)驗(yàn)公式法,計(jì)算機(jī)智能法。神經(jīng)網(wǎng)絡(luò)的成就為數(shù)據(jù)挖掘建模技術(shù)打開了一扇們,同時(shí)它在石油工業(yè)中起到了重要的作用。然而不幸的是,由于倉(cāng)儲(chǔ)流體的一些特性,現(xiàn)有神經(jīng)網(wǎng)絡(luò)方法在其上的應(yīng)用存在許多缺點(diǎn)和限制。本文提出了一種新的智能模型——支持向量機(jī)用來(lái)預(yù)測(cè)原油系統(tǒng)的PVT參數(shù),該方法解決了現(xiàn)有神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的大部分缺點(diǎn)。文中簡(jiǎn)要介紹了預(yù)測(cè)步驟和建模算法,同時(shí)從神經(jīng)網(wǎng)絡(luò),非線性回歸以及經(jīng)驗(yàn)公式法中分別選擇了一種方法與支持向量機(jī)回歸建模法進(jìn)行了比較。結(jié)果表明支持向量機(jī)方法更加準(zhǔn)確,可靠,同時(shí)優(yōu)于大多數(shù)現(xiàn)有的公式法。這說(shuō)明支持向量機(jī)建模法具有光明的前景,我們建議將其用于解決其他石油和煤氣工業(yè)問(wèn)題,諸如滲透率和孔隙率預(yù)測(cè),確定持液量流動(dòng)區(qū)和其他油儲(chǔ)特性。
關(guān)鍵字:支持向量回歸機(jī)(SVR);PVT參數(shù)預(yù)測(cè);神經(jīng)網(wǎng)絡(luò);1 引言
儲(chǔ)層流動(dòng)參數(shù)在石油工程計(jì)算中是非常重要的,例如物質(zhì)平衡計(jì)算,試井分析,儲(chǔ)量預(yù)測(cè),向井流動(dòng)態(tài)計(jì)算以及油藏?cái)?shù)值模擬。眾所周知,準(zhǔn)確的PVT數(shù)據(jù)對(duì)物質(zhì)平衡計(jì)算是非常重要的。這些PVT參數(shù)包括起泡點(diǎn)壓力(Pb),石油形成層參數(shù)(Bob),這個(gè)被定義儲(chǔ)存石油的容積。Bob的準(zhǔn)確預(yù)測(cè)在儲(chǔ)量和產(chǎn)量計(jì)算中至關(guān)重要,同時(shí)在儲(chǔ)量動(dòng)態(tài)計(jì)算,生產(chǎn)操作和設(shè)計(jì)以及構(gòu)成評(píng)估的計(jì)算中,PVT參數(shù)也是非常重要的。這個(gè)流程的經(jīng)濟(jì)效益也取決與這些參數(shù)的準(zhǔn)確預(yù)測(cè)。
現(xiàn)存的PVT仿真器在預(yù)測(cè)儲(chǔ)藏流體的物理參數(shù)時(shí),其預(yù)測(cè)精度隨使用模型的類型,流體特性以及當(dāng)時(shí)環(huán)境的變化而變化。因此他們?cè)陬A(yù)測(cè)準(zhǔn)確性方面都存在極大的缺陷。理想情況下,PVT參數(shù)通過(guò)對(duì)取自井底或者表面的樣本進(jìn)行試驗(yàn)研究而獲得,但這樣做獲取試驗(yàn)數(shù)據(jù)代價(jià)昂貴。因此,現(xiàn)在多采用狀態(tài)等式,統(tǒng)計(jì)回歸,圖解法以及經(jīng)驗(yàn)公式法來(lái)預(yù)測(cè)PVT參數(shù)。用于PVT計(jì)算的相關(guān)方法一直是研究的重點(diǎn),并發(fā)表了許多論文。過(guò)去十年間,有人提出了幾種確定Pb和Bob的圖解法和數(shù)學(xué)方法。這些研究都基于這樣一個(gè)假設(shè),Pb和Bob都是油氣比,油藏溫度,煤氣比重以及石油比重的強(qiáng)函數(shù)。盡管如此,這些狀態(tài)等式包含了大量的數(shù)據(jù)計(jì)算,其中需要知道儲(chǔ)藏流體的詳細(xì)成分,而得到它們即費(fèi)力又費(fèi)時(shí)。另外,這些方法在預(yù)測(cè)中是 不可靠的,它取決與原始應(yīng)用數(shù)據(jù)的變化程度以及相似流體成分和API油比重的地理區(qū)域。此外PVT參數(shù)以基于容易測(cè)量的現(xiàn)場(chǎng)數(shù)據(jù)為基礎(chǔ),諸如儲(chǔ)存壓力,儲(chǔ)存溫度和石油比重。
近年來(lái),人工神經(jīng)網(wǎng)絡(luò)(ANNs)被用于解決許多煤氣和石油工業(yè)方面的問(wèn)題,其中包括滲透率和孔隙率預(yù)測(cè),巖相類型鑒定,地震模式識(shí)別,PVT參數(shù)預(yù)測(cè),油管及油井中壓降估計(jì)以及井產(chǎn)量預(yù)測(cè)。在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最流行的神經(jīng)網(wǎng)絡(luò)方法是前向神經(jīng)網(wǎng)絡(luò)(FFN)和多層感知器(MLP)。它們?cè)谑秃兔簹夤I(yè)中應(yīng)有廣泛。盡管如此,這些神經(jīng)網(wǎng)絡(luò)建模方法存在許多缺點(diǎn),諸如識(shí)別可能因果關(guān)系的能力受到限制,在后向傳播算法的構(gòu)造中比較耗時(shí),這些缺點(diǎn)將導(dǎo)致過(guò)擬合和評(píng)價(jià)函數(shù)收斂于局部極小點(diǎn)。另外,前向神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)也需要提前估計(jì),諸如前向傳播神經(jīng)網(wǎng)絡(luò)的隱層數(shù)量和大小,多層神經(jīng)元之間的傳遞函數(shù)類型。同時(shí),訓(xùn)練算法參數(shù)通過(guò)估計(jì)初始隨機(jī)權(quán)重,學(xué)習(xí)率和動(dòng)量而獲得。
本研究的主要目的是了解支持向量機(jī)回歸算法在模型化原油系統(tǒng)PVT參數(shù)方面的能力,同時(shí)解決上述神經(jīng)網(wǎng)絡(luò)存在的一些問(wèn)題。大量的用戶介入不僅減緩了模型開發(fā),也違背了讓數(shù)據(jù)說(shuō)話的原則。在工作中,我們精確的研究了基于核函數(shù)的支持向量機(jī)回歸算法在模型化Pb和Bob參數(shù)的能力,試驗(yàn)數(shù)據(jù)來(lái)源與全世界已出版的PVT數(shù)據(jù)庫(kù)。我們也從神經(jīng)網(wǎng)絡(luò),非線性回歸以及各種不同的經(jīng)驗(yàn)公式中分別選取了一種方法與支持向量機(jī)回歸法進(jìn)行了比較研究。
高原油采收率的預(yù)測(cè)是采收率分析的基礎(chǔ),這也保證了分析結(jié)果的可靠性。在統(tǒng)計(jì)學(xué)習(xí)理論中,建立一個(gè)高采收率預(yù)測(cè)模型屬于函數(shù)逼近問(wèn)題的范疇。根據(jù)Vapnik結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,提高學(xué)習(xí)機(jī)的泛化能力即是對(duì)于有效訓(xùn)練樣本的小誤差能夠保證相對(duì)獨(dú)立的測(cè)試樣本的小誤差。近幾年,最新的統(tǒng)計(jì)理論的研究結(jié)果首次運(yùn)用到高采收率的分析。我們討論了改進(jìn)的后向傳播人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。我們將神經(jīng)網(wǎng)絡(luò)同三個(gè)不同的經(jīng)驗(yàn)公式法以及前向傳播神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比研究,結(jié)果表明支持向量機(jī)無(wú)論在可靠性和效率上都優(yōu)于大多數(shù)目前流行的建模方法。
為了說(shuō)明支持向量機(jī)回歸法作為一種新的計(jì)算機(jī)智能算法的有效性,我們使用三種不同的PVT參數(shù)建立了先進(jìn)的支持向量機(jī)回歸校準(zhǔn)模型。在包括782個(gè)觀測(cè)值的數(shù)據(jù)庫(kù)中數(shù)據(jù)來(lái)自馬來(lái)群島,中東,墨西哥灣和哥倫比亞。由于寬域性和不確定分布,這些數(shù)據(jù)具有很大的挑戰(zhàn)性。因此,我們使用了四個(gè)不同輸入?yún)?shù)的數(shù)據(jù)庫(kù)來(lái)建立預(yù)測(cè)起泡點(diǎn)壓力和石油形成層參數(shù)的支持向量機(jī)回歸模型。這四個(gè)參數(shù)分別是:油氣比率,油藏溫度,石油比重以及煤氣相對(duì)比重。結(jié)果表明支持向量機(jī)回歸學(xué)習(xí)算法比其他石油工程論文中所提方法更快,更穩(wěn)定。另外,這種新型支持向量回歸機(jī)建模法在絕對(duì)平均誤差,標(biāo)準(zhǔn)差和相關(guān)系數(shù)上都優(yōu)于標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)和大多數(shù)現(xiàn)存的系數(shù)模型。
本論文的其余部分組織如下:第二部分是文獻(xiàn)綜述,簡(jiǎn)要介紹了在確定PVT關(guān)系中一些最常用的經(jīng)驗(yàn)公式和神經(jīng)網(wǎng)絡(luò)建模法。應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)PVT參數(shù)建模的主要缺點(diǎn)也在這部分提及。同時(shí)也提出了支持向量回歸機(jī)和其訓(xùn)練算法的最常用結(jié)構(gòu)。第四部分介紹了數(shù)據(jù)獲取和統(tǒng)計(jì)質(zhì)量測(cè)度。試驗(yàn)結(jié)果在第五部分進(jìn)行了討論。第六部分通過(guò)給出試驗(yàn)結(jié)果說(shuō)明了方法的性能。文獻(xiàn)綜述
PVT參數(shù),滲透性和孔隙率,巖相類型,地震模式識(shí)別在石油和煤氣工業(yè)中是非常重要的參數(shù)。過(guò)去的六十年中,工程師們認(rèn)識(shí)到發(fā)展和使用試驗(yàn)公式預(yù)測(cè)PVT參數(shù)的重要性,因此在這一領(lǐng)域的研究促進(jìn)了新方法的發(fā)展。在實(shí)驗(yàn)室預(yù)測(cè)這些參數(shù)代價(jià)高昂,因此很難確定,同時(shí)預(yù)測(cè)的準(zhǔn)確性又是至關(guān)重要的,而我們并不能提前預(yù)知。本部分簡(jiǎn)要總結(jié)了一下預(yù)測(cè)PVT參數(shù)的一些通用經(jīng)驗(yàn)公式和幾種不同的計(jì)算機(jī)智能算法。2.1 最常用的經(jīng)驗(yàn)?zāi)P秃驮u(píng)價(jià)研究
過(guò)去的六十年里,工程師們認(rèn)識(shí)到發(fā)展和使用經(jīng)驗(yàn)公式對(duì)于預(yù)測(cè)PVT參數(shù)的重要性。在這一領(lǐng)域的大量研究促進(jìn)了新的公式的發(fā)展。諸如Standing,Katz,Vasquez& Beggs,Glaso&Al-Marhoun的相關(guān)研究.Glaso針對(duì)形成層參數(shù)使用45組石油樣本發(fā)展其經(jīng)驗(yàn)公式,這些樣本來(lái)自于北海的烴化合物。Al-Marboun提出了一種經(jīng)驗(yàn)公式用于預(yù)測(cè)中東石油的起泡點(diǎn)壓力和石油形成層參數(shù),他使用來(lái)自中東69個(gè)油井的160組數(shù)據(jù)集來(lái)構(gòu)造他的公式。Abdul-Majeed and Salman提出了一種基于420組數(shù)據(jù)集的油量層形成公式,并命名為Abdul-Majeed and Salman 經(jīng)驗(yàn)公式。他們的模型與采用新參數(shù)的Al-Marhoun油量層參數(shù)公式類似。Al-Marthoun提出了第二種針對(duì)油量層參數(shù)的經(jīng)驗(yàn)公式,該公式基于11728個(gè)起跑點(diǎn)壓力上下的形成層參數(shù)試驗(yàn)數(shù)據(jù)點(diǎn)。數(shù)據(jù)集的樣本來(lái)自全世界700多個(gè)油井,這些油井大部分位于中東和北美。讀者也可以參考其他經(jīng)驗(yàn)公式,諸如Al-Shammasi and EI-Sebakhy等等。本研究中,我們僅僅關(guān)注于三個(gè)最常用的經(jīng)驗(yàn)公式,分別為Al-Marhoun,Glaso 和Standing.Labedi提出了針對(duì)非洲原油的油量層參數(shù)公式。他使用了來(lái)自利比亞的97組數(shù)據(jù)集,尼日利亞的28組數(shù)據(jù)集以及安哥拉的4組數(shù)據(jù)集來(lái)形成他的公式。DOKLa and Osman提出了用于預(yù)測(cè)阿聯(lián)酋原油起泡點(diǎn)壓力和油量層參素的系數(shù)集,他們使用51組數(shù)據(jù)集來(lái)計(jì)算新的系數(shù)。Al-Yousef and Al-Marhoun指出Dokla and Osaman 起泡點(diǎn)壓力公式違背物理規(guī)則。Al-Marhoun 提出了另一種針 2
對(duì)石油形成層參數(shù)的公式,該公式使用11728個(gè)起泡點(diǎn)壓力上下的形成層參素。該數(shù)據(jù)集的樣本來(lái)自于全世界700多個(gè)油井,這些油井大部分來(lái)自與中東和北美。
Macary and El-Batanoney提出了針對(duì)起泡點(diǎn)壓力和形成層參數(shù)的公式。他們使用了來(lái)自蘇伊士灣30個(gè)油井的90組數(shù)據(jù)集。該新公式又與來(lái)自埃及的數(shù)據(jù)進(jìn)行了對(duì)比測(cè)試,并表現(xiàn)出超過(guò)其他已有公式的性能。Omar and Todd提出了一種基于標(biāo)準(zhǔn)系數(shù)模型的石油形成層參數(shù)公式。該公式使用了來(lái)自馬來(lái)群島油井包含93個(gè)觀察點(diǎn)的數(shù)據(jù)集。Kartoamodjo and Schmidt 使用全球資料庫(kù)發(fā)明了一種新的預(yù)測(cè)所有PVT參數(shù)的公式,該公式使用740個(gè)不同的原油樣本,這些樣本從全世界采集,并包括5392組數(shù)據(jù)集。Almehaideb提出了一種針對(duì)阿聯(lián)酋原油的系數(shù)集,其中使用了62組來(lái)自阿聯(lián)酋油井的數(shù)據(jù)集來(lái)測(cè)量起泡點(diǎn)壓力和形成層參數(shù)。起泡點(diǎn)壓力公式,像Omar and Todd使用形成層參數(shù)作為輸入,并排除了石油比重,煤氣比重,氣油混合比以及油井溫度。Suttton and Farshand提出了一種針對(duì)墨西哥灣原油的公式,其中使用了天然氣飽和原油的285組數(shù)據(jù)集以及代表31個(gè)不同原油和天然氣系統(tǒng)的134組欠飽和石油數(shù)據(jù)集。結(jié)果表明Glaso公式預(yù)測(cè)形成層參數(shù)對(duì)于大多數(shù)研究數(shù)據(jù)表現(xiàn)良好。Petrosky and Farshad提出了一種基于墨西哥灣的新公式,并說(shuō)明了Al-Marhoun公式對(duì)預(yù)測(cè)油量層系數(shù)是最好的。McCain提出了一種新的基于大規(guī)模數(shù)據(jù)的油井參數(shù)評(píng)估公式,他們建議在將來(lái)的應(yīng)用中采用Standing公式來(lái)預(yù)測(cè)起泡點(diǎn)壓力上下的形成層參數(shù)。
Ghetto基于195組全球數(shù)據(jù)集得出了一種針對(duì)PVT參數(shù)的復(fù)雜研究公式,其中使用的數(shù)據(jù)集來(lái)自地中海盆地,美洲,中東和北海油井。他們建議運(yùn)用Vasquez and Beggas公式預(yù)測(cè)油量層參數(shù)。另一方面,Elsharkawy使用44組樣本評(píng)估了用于科威特原油的PVT公式,結(jié)果表明,對(duì)于起泡點(diǎn)壓力,Standing公式給出了最好的結(jié)果,而Al-Marhoun石油形成層參數(shù)公式的表現(xiàn)也是令人滿意的。Mahmood and Al-Marhoun提出針對(duì)巴基斯坦原油的PVT估計(jì)公式,其中使用了來(lái)自22個(gè)不同原始樣本中的166組數(shù)據(jù)集。Al-Marhoun指出油量層參數(shù)預(yù)測(cè)結(jié)果良好,而起泡點(diǎn)壓力誤差卻是已有公式所得結(jié)果中最高的幾個(gè)之一。另外,Hanafy基于Macary and EI-Batanoney公式評(píng)價(jià)預(yù)測(cè)埃及原油形成層參數(shù),結(jié)果表明其平均絕對(duì)誤差為4.9%,而Dokla and Osman公式卻是3.9%。因此,研究結(jié)果表明本地公式要優(yōu)于全球公式。
Al-Fattan and Al-Marhoun所著的書中,他們基于來(lái)自已有674組數(shù)據(jù)集對(duì)現(xiàn)有的油量層參數(shù)進(jìn)行了評(píng)估,結(jié)果表面Al-Marhoun公式對(duì)于全球數(shù)據(jù)集有最小的誤差。另外,他們也進(jìn)行了趨勢(shì)測(cè)試以評(píng)估模型的物理行為。最后,Al-Shammasi以來(lái)自世界各地的烴混合物為代表,從準(zhǔn)確性和適應(yīng)性兩方面對(duì)已發(fā)表的針對(duì)起泡點(diǎn)壓力和油量層參數(shù)的公式和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了評(píng)估,并提出了一種新的起泡點(diǎn)壓力公式,該公式基于1661個(gè)已發(fā)表的全球數(shù)據(jù)集和48個(gè)未發(fā)表的數(shù)據(jù)集。同時(shí)他也提出了神經(jīng)網(wǎng)絡(luò)模型,并且將其與數(shù)值公式進(jìn)行了比較,結(jié)果表明從統(tǒng)計(jì)學(xué)和趨勢(shì)性能分析來(lái)看,一些公式違背了烴流參數(shù)的物理特性。2.2 基于人工神經(jīng)網(wǎng)絡(luò)的PVT參數(shù)預(yù)測(cè)
人工神經(jīng)網(wǎng)絡(luò)是并行分配信息處理模型,它能識(shí)別具有高度復(fù)雜性的現(xiàn)有數(shù)據(jù)。最近幾年,人工神經(jīng)網(wǎng)絡(luò)在石油工業(yè)中得到了廣泛的應(yīng)用。許多學(xué)者探討了石油工程中人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用,諸如Ali,Elshakawy,Gharbi and Elsharkawy,Kumoluyi and Daltaban,Mohaghegh and Ameri,Mohaghegn,Mohaghegn,和Varotsis等人。在文獻(xiàn)中最常用的神經(jīng)網(wǎng)絡(luò)是采用倒傳遞算法的前向傳播神經(jīng)網(wǎng)絡(luò),參見Ali,Duda以及Osman的論文。這種神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)和分類問(wèn)題上有著良好的計(jì)算機(jī)智能建模能力。采用神經(jīng)網(wǎng)絡(luò)模型化PVT參數(shù)的研究還不多,最近,有人采用前向傳播神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)PVT參數(shù),參見Gharbi and Elsharkawy以及Osman等人的論文。
Al-Shammasi提出了神經(jīng)網(wǎng)絡(luò)模型,并將其與數(shù)值公式進(jìn)行了性能比較,結(jié)果表明從統(tǒng)計(jì)學(xué)和趨勢(shì)性能來(lái)看一些公式違背了烴流參數(shù)的物理性質(zhì)。另外,他還指出已發(fā)表的神經(jīng)網(wǎng)絡(luò)模型丟失了主要模型參數(shù)而需要重建。他使用神經(jīng)網(wǎng)絡(luò)(4-5-3-1)結(jié)構(gòu)來(lái)預(yù)測(cè)起泡點(diǎn)壓力和石油形成層參數(shù),并以來(lái)自世界各地的烴混合物為例,從準(zhǔn)確性和適應(yīng)性兩方面對(duì)已發(fā)表的用于預(yù)測(cè)如上兩個(gè)參數(shù)的公式和神經(jīng)網(wǎng)絡(luò)進(jìn)行了評(píng)價(jià)。
Gharbi 和Elsharkawy以及Osman等在前向神經(jīng)網(wǎng)絡(luò)和四種經(jīng)驗(yàn)公式之間進(jìn)行了對(duì)比研究,這四種公式分別是Standing,Al-Mahroun,Glaso以及Vasquez and Beggs經(jīng)驗(yàn)公式,更多的結(jié)論和對(duì)比研究結(jié)果可參見他們的論文。1996,Gharbi and Elsharkawy提出了預(yù)測(cè)中東原油起泡點(diǎn)壓力和形成層參數(shù)的神經(jīng)網(wǎng)絡(luò)模型。該模型基于具有對(duì)數(shù)雙彎曲激發(fā)函數(shù)的神經(jīng)系統(tǒng)來(lái)預(yù)測(cè)中東油井的PVT數(shù)據(jù)。同時(shí),Gharbi和Elsharkawy訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò)分別預(yù)測(cè)起泡點(diǎn)壓力和形成層參數(shù)。輸入數(shù)據(jù)是油氣比率,油儲(chǔ)溫度,石油比重以及煤氣比重。他們使用具有兩個(gè)隱層的神經(jīng)網(wǎng)絡(luò),第一個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)起泡點(diǎn)壓力,第二個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)形成層參數(shù)。二者都使用中東地區(qū)包含520個(gè)觀察點(diǎn)的數(shù)據(jù)集,其中498個(gè)觀察點(diǎn)用于訓(xùn)練,其余22個(gè)觀察點(diǎn)用于檢驗(yàn)。
Gharbi和Elsharkawy在更廣大區(qū)域采用了同樣的標(biāo)準(zhǔn),這些區(qū)域包括:南北美,北海,東南亞和中東地區(qū)。他們提出了一種只采用1個(gè)隱層的神經(jīng)網(wǎng)絡(luò),其中使用了來(lái)自350個(gè)不同原油系統(tǒng)的5432個(gè)觀察點(diǎn)的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)被分成具有5200個(gè)觀察點(diǎn)的訓(xùn)練集和234個(gè)觀察點(diǎn)的測(cè)試集。對(duì)比研究結(jié)果表明,前向神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)PVT參數(shù)在減小平均絕對(duì)誤差和提高相關(guān)系數(shù)方面優(yōu)于傳統(tǒng)經(jīng)驗(yàn)公式。讀者可以參看Al-Shammasi和EI-Sebkhy的論文獲取其他類型的神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)PVT參數(shù)方面的應(yīng)用。例如,徑向基函數(shù)和誘導(dǎo)神經(jīng)網(wǎng)絡(luò)。2.3 神經(jīng)網(wǎng)絡(luò)建模法最普遍的缺點(diǎn)
神經(jīng)網(wǎng)絡(luò)相關(guān)經(jīng)驗(yàn)已經(jīng)暴露了許多技術(shù)上的限制。其中之一是設(shè)計(jì)空間的復(fù)雜性。在許多設(shè)計(jì)參數(shù)的選擇上由于沒(méi)有分析指導(dǎo),開發(fā)者常常采用一種人為試探的嘗試錯(cuò)誤方法,該方法將重點(diǎn)放在可能搜索空間的小區(qū)域里。那些需要猜測(cè)的結(jié)構(gòu)參數(shù)包括隱層的數(shù)目和大小以及多層神經(jīng)元間傳遞函數(shù)的類型。需要確定的學(xué)習(xí)算法參數(shù)包括初始權(quán)重,學(xué)習(xí)率以及動(dòng)量。盡管得到的可接受的結(jié)果帶有偏差,但很明顯忽視了可能存在的高級(jí)模型。大量的用戶干預(yù)不僅減慢了模型構(gòu)建也違背了讓數(shù)據(jù)說(shuō)話的原則。為了自動(dòng)設(shè)計(jì)過(guò)程,Petrosky 和Farshad提出了遺傳算法形式的外部?jī)?yōu)化標(biāo)準(zhǔn)。對(duì)于新數(shù)據(jù)在實(shí)際應(yīng)用中的過(guò)擬合和弱網(wǎng)絡(luò)泛化能力也是一個(gè)問(wèn)題。當(dāng)訓(xùn)練進(jìn)行時(shí),訓(xùn)練數(shù)據(jù)的擬合提高了,但是由于訓(xùn)練中新數(shù)據(jù)不能提前預(yù)知網(wǎng)絡(luò)性能可能因?yàn)檫^(guò)學(xué)習(xí)而變壞。訓(xùn)練數(shù)據(jù)的一個(gè)單獨(dú)部分常常保留下來(lái)監(jiān)視性能,以保證完成收斂之前停止訓(xùn)練。盡管如此,這減少了實(shí)際訓(xùn)練中有效的數(shù)據(jù)量,當(dāng)好的訓(xùn)練數(shù)據(jù)缺乏時(shí)這也是一大劣勢(shì)。Almehaideb提出了一種網(wǎng)絡(luò)修剪算法用以提高泛化能力。最常用的采用梯度下降法的后向傳遞訓(xùn)練算法在最小化誤差時(shí)存在局部極小點(diǎn)的問(wèn)題,這限制了優(yōu)化模型的推廣。另一個(gè)問(wèn)題是神經(jīng)網(wǎng)絡(luò)模型的黑箱不透明性。相關(guān)解釋能力的缺失在許多決策支持應(yīng)用中是一個(gè)障礙,諸如醫(yī)學(xué)診斷,通常用戶需要知道模型給出的結(jié)論。附加分析要求通過(guò)規(guī)則提取從神經(jīng)網(wǎng)絡(luò)模型中獲得解釋設(shè)備。模型參數(shù)掩蓋在大規(guī)模矩陣中,因此獲得模型現(xiàn)象或者將其與現(xiàn)存經(jīng)驗(yàn)或理論模型進(jìn)行對(duì)比變得非常困難。因?yàn)槟P透鞣N輸入的相對(duì)重要性信息還沒(méi)有獲得,這使得通過(guò)排除一些重要輸入來(lái)簡(jiǎn)化模型的方法變得不可行。諸如主成份分析技術(shù)也需要額外的處理。
在本研究中,我們提出了支持向量機(jī)回歸法來(lái)克服神經(jīng)網(wǎng)絡(luò)的缺點(diǎn)同時(shí)采用此方法來(lái)預(yù)測(cè)PVT參數(shù)。支持向量機(jī)建模法是一種基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的新型計(jì)算機(jī)智能算法。基于該原則,支持向量機(jī)通過(guò)在經(jīng)驗(yàn)誤差和Vapnik-Chevonenkis置信區(qū)間之間取得合適的平衡來(lái)得到最有效的網(wǎng)絡(luò)結(jié)構(gòu),因此這種方法不可能產(chǎn)生局部極小。支持向量機(jī)回歸建模法
支持向量機(jī)回歸法是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域最成功和有效的算法之一。在分類和回歸中它作為魯棒性工具得到了廣泛的應(yīng)用。在許多應(yīng)用中,該方法具有很強(qiáng)的魯棒性,例如在特征識(shí)別,文 4
本分類和人臉圖像識(shí)別等領(lǐng)域。支持向量機(jī)回歸算法通過(guò)最優(yōu)化超平面的特征參數(shù)以確保其高度的泛化能力。其中超平面在高維特征空間中最大化訓(xùn)練樣本間的距離。3.1 背景知識(shí)和綜述
近年來(lái),人們對(duì)支持向量機(jī)做了很多研究。從如下這些人的文章中可以獲得已完成的支持向量機(jī)建模法的概述,他們是Vapnik,Burges,Scholkopt,Smola,Kobayashi以及Komaki。該方法是一種新的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)法。它遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,通過(guò)最小化泛化誤差的上界,而不是最小化訓(xùn)練誤差。該歸納法基于泛化誤差的界,而泛化誤差通過(guò)加和訓(xùn)練誤差和依賴VC維的置信區(qū)間得到。基于此原則,支持向量機(jī)通過(guò)平衡經(jīng)驗(yàn)誤差和VC維置信區(qū)間取得最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。通過(guò)此平衡支持量機(jī)可以取得優(yōu)于其他神經(jīng)網(wǎng)絡(luò)模型的泛化性能。
起初,支持向量機(jī)用于解決模式識(shí)別問(wèn)題。盡管如此,隨著Vapnik 不敏感損失函數(shù)的引入,支持向量機(jī)可以擴(kuò)展用于解決非線性回歸預(yù)測(cè)問(wèn)題。例如剛剛為人所知的支持向量回歸法,它表現(xiàn)出了良好的性能。該方法的性能取決于預(yù)定義的參數(shù)(也叫超參數(shù))。因此,為建立一個(gè)良好的支持向量回歸預(yù)測(cè)模型,我們要細(xì)心設(shè)置其參數(shù)。最近,支持向量回歸法已經(jīng)作為一種可供選擇的強(qiáng)有力技術(shù)用于預(yù)測(cè)復(fù)雜非線性關(guān)系問(wèn)題。因其許多特有性質(zhì)和良好的泛化能力,支持向量回歸法無(wú)論是在學(xué)術(shù)界還是工業(yè)應(yīng)用領(lǐng)域都取得了極大的成功。3.2 支持向量回歸機(jī)的結(jié)構(gòu)
最近,通過(guò)引入可變的損失函數(shù),支持向量回歸機(jī)(SVR)作為一種新的強(qiáng)有力技術(shù)用于解決回歸問(wèn)題。這部分,我們簡(jiǎn)要介紹一下SVR.更多的細(xì)節(jié)參見Vapnik和EI-Sebakhy的論文。通常情況下,SVR的構(gòu)造遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,它試圖最小化泛化誤差的上界而不是最小化訓(xùn)練樣本的預(yù)測(cè)誤差。該特征能在訓(xùn)練階段最大程度的泛化輸入輸出關(guān)系學(xué)習(xí)以得到對(duì)于新數(shù)據(jù)良好的預(yù)測(cè)性能。支持向量回歸機(jī)通過(guò)非線性映射將輸入數(shù)據(jù)x映射到高維特征空間F.,并在如圖1所示的特征空間中產(chǎn)生和解決一個(gè)線性回歸問(wèn)題。
圖1 映射輸入空間x到高維特征空間
回歸估計(jì)通過(guò)給定的數(shù)據(jù)集G?{(xi,yi):XiR}Rni?1來(lái)預(yù)測(cè)一個(gè)函數(shù),這里xi代表輸入向量,?yi代表輸出值,n代表數(shù)據(jù)集的總大小。建模的目的是建立一個(gè)決策函數(shù)y?f(x),在給定一組新的輸入輸出樣本?xi,yi?的情況下準(zhǔn)確預(yù)測(cè)輸出?yi?。該線性逼近函數(shù)由下面的公式表示:
f(x)?(w?(x)?b),?:R?F;w?FTP(1)這里w,b是系數(shù),?(x)代表高維特征空間,通過(guò)輸入空間x的非線性映射得到。因此,高維特征空間中的線性關(guān)系被映射到了低維特征空間中的非線性關(guān)系。這里不用考慮高維特征空間中w和?(x)的內(nèi)積計(jì)算。相應(yīng)的,包含非線性回歸的原始優(yōu)化問(wèn)題被轉(zhuǎn)換到特征空間F而非輸入空間x中尋找最平緩模型的問(wèn)題。圖1中的未知參數(shù)w和b通過(guò)訓(xùn)練集G預(yù)測(cè)得到。
通過(guò)不敏感損失函數(shù)支持向量回歸機(jī)在高維特征空間中模擬線性回歸。同時(shí),為了避免過(guò)擬合,2并提高泛化能力,采用最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和復(fù)雜度w2之和的正則化函數(shù)。系數(shù)w和b通過(guò)最小化結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)預(yù)測(cè)得到。
RSVR(C)?Remp?12w2?Cnn?i?1?L?(yi,yi)?212w2(2)這里RSVR和Remp分別代表回歸風(fēng)險(xiǎn)和經(jīng)驗(yàn)風(fēng)險(xiǎn)。w2代表歐幾里德范數(shù),C代表度量經(jīng)驗(yàn)風(fēng)險(xiǎn)的損失函數(shù)。在公式2給出的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)中,回歸風(fēng)險(xiǎn)RSVR是在給定測(cè)試樣本輸入向量情況下由約束函數(shù)f得到的可能誤差。
????(|y,y|??),if|y?y|????L?(y,y)???(3)
Otherwise???0,??n在公式2中,第一項(xiàng)C/n?L?*(yi,yi)代表經(jīng)驗(yàn)誤差,該誤差通過(guò)公式3中?不敏感損失函
i?1?數(shù)預(yù)測(cè)得到。引入損失函數(shù)可以使用少量的數(shù)據(jù)點(diǎn)來(lái)獲得公式1中決策函數(shù)的足夠樣本。第二項(xiàng)2w2是正則化系數(shù)。當(dāng)存在誤差時(shí),通過(guò)折中經(jīng)驗(yàn)風(fēng)險(xiǎn)和正則化系數(shù),正則化常量C用于計(jì)算懲罰值。增大C值等于提高了相應(yīng)泛化性能的經(jīng)驗(yàn)風(fēng)險(xiǎn)的重要性。當(dāng)擬合誤差大于?時(shí)接受懲罰。?損失函數(shù)用來(lái)穩(wěn)定預(yù)測(cè)。換句話說(shuō),?不敏感損失函數(shù)能減小噪聲。因此,?能被看作如圖2所示訓(xùn)練數(shù)據(jù)近似精度的等效值。在經(jīng)驗(yàn)分析中,C和?是由用戶選擇的參數(shù)。
圖2 一種線性支持向量回歸機(jī)的軟邊緣損失集
為了估計(jì)w和b,我們引入正的松弛變量?i和?i,從圖2可知,超常的正負(fù)誤差大小由?i和?i分別代表。假設(shè)松弛變量在???,??外非零,支持向量回歸機(jī)對(duì)數(shù)據(jù)擬合f(x)如下:(i)訓(xùn)練誤??差通過(guò)最小化?i和?i得到。(ii)最小化 w2/2提高f(x)的平滑性,或者懲罰過(guò)于復(fù)雜的擬合函數(shù)。因此,支持向量回歸機(jī)由最小化如下函數(shù)構(gòu)造而成: ?最小化:RSVR(w,C)?12nw2?C?L?(?i??i)(4)
*i?1??yi?w?(xi)?bi???i??*目標(biāo)值:???0*?w?(x)?b?y????iiii????
這里?i和?i分別代表度量上下邊沿誤差的松弛變量。以上公式表明在同一結(jié)構(gòu)函數(shù)f(x)下增大?將減小相應(yīng)的?i和?i,從而減小來(lái)自相應(yīng)數(shù)據(jù)點(diǎn)的誤差。最后通過(guò)引入拉格朗日多項(xiàng)式和擴(kuò)展最優(yōu)性約束,公式1所給決策函數(shù)有如下的形式:
n?f(x,?i,?i)?*?(?i?1i??i)K(x?xi)?b*(5)
*i這里公式5中參數(shù)?i和?i被稱為拉格朗日乘子,他們滿足公式?i?*?0,?i?0和?*i?0,在i?1,2....,n。公式5中的K(xi,xj)稱作核函數(shù),而核函數(shù)的值等于特征空間?(xi)和?(xj)中 7
向量xi和xj的內(nèi)積,其中K(xi,xj)=?(xi)??(xj)。核函數(shù)用來(lái)表征任意維特征空間而不用精確計(jì)算?(x)。假如任給一個(gè)函數(shù)滿足Mercer條件,他就可用作核函數(shù)。核函數(shù)的典型例子是多項(xiàng)式核(K(x,y)?[x?y?1]d)和高斯核(K(x,y)?exp[?(x?y)2/2?2])。這些公式中,d代表多項(xiàng)式核的次數(shù),?代表高斯核寬度。這些參數(shù)必須精確選擇,因?yàn)樗麄兇_定了高維特征空間的結(jié)構(gòu)并且控制最終函數(shù)的復(fù)雜性。24 數(shù)據(jù)獲取和統(tǒng)計(jì)質(zhì)量度量
4.1 要求數(shù)據(jù)
研究結(jié)果基于來(lái)自三個(gè)不同的已發(fā)表研究論文的三個(gè)數(shù)據(jù)庫(kù)中獲得。第一個(gè)數(shù)據(jù)庫(kù)引自Al-Marhoun的文章。該數(shù)據(jù)庫(kù)包括來(lái)自中東69口油井的160組數(shù)據(jù),通過(guò)它提出了一種用于預(yù)測(cè)中東石油起跑點(diǎn)壓力和油量層參數(shù)的公式。第二個(gè)數(shù)據(jù)庫(kù)來(lái)自Al-Marhoun&Osman(2002),Osman&Abel-Aal(2002)以及Osman&Al-Marhoun(2005)的文章。該數(shù)據(jù)庫(kù)使用采集于沙特各地的283個(gè)數(shù)據(jù)點(diǎn)來(lái)預(yù)測(cè)沙特原油的起泡點(diǎn)壓力以及該壓力點(diǎn)附近的油層量參數(shù)。模型基于142組訓(xùn)練集的神經(jīng)網(wǎng)絡(luò)來(lái)建立前饋神經(jīng)網(wǎng)絡(luò)校正模型用以預(yù)測(cè)起泡點(diǎn)壓力和油量層參數(shù),其中71組數(shù)據(jù)集用于交叉驗(yàn)證訓(xùn)練過(guò)程中建立的關(guān)系,余下的71組數(shù)據(jù)集用于測(cè)試模型以評(píng)估精度。結(jié)果表明發(fā)展的Bob模型比現(xiàn)有的經(jīng)驗(yàn)公式有更好的預(yù)測(cè)效果和更高的精度。第三個(gè)數(shù)據(jù)庫(kù)來(lái)自Goda(2003)和Osman(2001)的著作,這里作者采用具有對(duì)數(shù)雙彎曲傳遞函數(shù)的前向神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)起泡點(diǎn)壓力附近的石油形成層參數(shù)。該數(shù)據(jù)庫(kù)包括從803個(gè)實(shí)際數(shù)據(jù)點(diǎn)中刪除了21個(gè)觀察點(diǎn)之后的782個(gè)觀察點(diǎn)。該數(shù)據(jù)集采集于馬來(lái)群島,中東,墨西哥灣和加利福尼亞。作者采用倒傳遞學(xué)習(xí)算法設(shè)計(jì)了一種單隱層的前向神經(jīng)網(wǎng)絡(luò),其中使用4個(gè)輸入神經(jīng)元來(lái)隱藏輸入的油氣比重,煤氣比重,相對(duì)煤氣濃度以及油儲(chǔ)溫度,五個(gè)神經(jīng)元的單隱層以及輸出層構(gòu)造參數(shù)的單一神經(jīng)元。
使用以上三個(gè)不同的數(shù)據(jù)庫(kù)來(lái)評(píng)估支持向量回歸機(jī),前向神經(jīng)網(wǎng)絡(luò)和三個(gè)經(jīng)驗(yàn)公式建模法的性能。采用分層標(biāo)準(zhǔn)劃分整個(gè)數(shù)據(jù)庫(kù)。因此,我們使用70%的數(shù)據(jù)建立支持向量回歸機(jī)模型,30%的數(shù)據(jù)用于測(cè)試和驗(yàn)證。我們重復(fù)內(nèi)部和外部驗(yàn)證過(guò)程各1000次。因此數(shù)據(jù)被分為2到3組用于訓(xùn)練和交叉驗(yàn)證。
本研究中,382組數(shù)據(jù)集,267組用于建立校正模型,余下的115組用于交叉驗(yàn)證訓(xùn)練和測(cè)試過(guò)程中建立的關(guān)系,并以此來(lái)評(píng)價(jià)模型的精度和穩(wěn)定性。對(duì)于測(cè)試數(shù)據(jù),支持向量回歸機(jī)建模法,神經(jīng)網(wǎng)絡(luò)法以及最著名的經(jīng)驗(yàn)公式法的預(yù)測(cè)性能使用以上的數(shù)據(jù)集進(jìn)行度量。起泡點(diǎn)壓力和石油形成層參數(shù)的預(yù)測(cè)性能分別如表1-6所示。
表1 測(cè)試結(jié)果(Osman(2001)和EI-Sebakhy(2007)數(shù)據(jù)):預(yù)測(cè)Bo的統(tǒng)計(jì)質(zhì)量量度
表2 測(cè)試結(jié)果(Osman(2001)和EI-Sebakhy(2007)數(shù)據(jù)):預(yù)測(cè)Pb的統(tǒng)計(jì)質(zhì)量量度
表3測(cè)試結(jié)果(Al-Marhoun&Osman(2002)和Abdel-Aal(2002)數(shù)據(jù)):預(yù)測(cè)Bo的統(tǒng)計(jì)質(zhì)量量度
表4測(cè)試結(jié)果(Al-Marhoun&Osman(2002)和Abdel-Aal(2002)數(shù)據(jù)):預(yù)測(cè)Pb的統(tǒng)計(jì)質(zhì)量量度
表5測(cè)試結(jié)果(Osman(2001)和Goda(2003)數(shù)據(jù)):預(yù)測(cè)Bo的統(tǒng)計(jì)質(zhì)量量度
表6測(cè)試結(jié)果(Osman(2001)和Goda(2003)數(shù)據(jù)):預(yù)測(cè)Pb的統(tǒng)計(jì)質(zhì)量量度
在應(yīng)用中,用戶應(yīng)該知道輸入數(shù)據(jù)的范圍以確保其在正常的范圍內(nèi)。這步叫做質(zhì)量控制,它是最終取得準(zhǔn)確和可信結(jié)果的重要一環(huán)。以下是一些主要變量的輸入/輸出范圍。包括油氣比,煤氣比重,相對(duì)煤氣密度,油儲(chǔ)溫度。在輸入和輸出層使用起泡點(diǎn)壓力和石油形成層參數(shù)進(jìn)行PVT分析。
? 油氣比在26和1602之間,scf/stb ? 油量層參數(shù)在1.032和1.997之間變化 ? 起泡點(diǎn)壓力起于130止于3573 psia ? 油井溫度從74F到240F ? API比重在19.4和44.6之間變化。? 煤氣相對(duì)濃度改變從0.744到1.367 4.2 評(píng)價(jià)和質(zhì)量度量
在學(xué)習(xí)完成后,我們進(jìn)行了擬合模型能力和質(zhì)量的評(píng)價(jià)和估計(jì)。為此,我們計(jì)算了大量的質(zhì)量量度。諸如實(shí)際和預(yù)測(cè)輸出之間的相關(guān)系數(shù)(r),根方誤差(Erms),平均相對(duì)百分誤差(Er),平均絕對(duì)百分誤差(Ea),最小絕對(duì)百分誤差(Emin),最大絕對(duì)百分誤差(Ermax),標(biāo)準(zhǔn)差(SD)和執(zhí)行時(shí)間。最好的模型有最高的相關(guān)性和最小的根方誤差。
支持向量機(jī)建模法的性能與神經(jīng)網(wǎng)絡(luò)和最常用的經(jīng)驗(yàn)公式進(jìn)行了比較。其中使用三種不同的數(shù)據(jù)庫(kù)。執(zhí)行過(guò)程采用交叉驗(yàn)證(內(nèi)部和外部交叉)并重復(fù)了1000次。我們得到了支持向量回歸機(jī)建模法的良好結(jié)果,為了簡(jiǎn)便起見,這里只記錄了一些必須的點(diǎn)。這些點(diǎn)能給讀者關(guān)于支持向量機(jī)建模法精度和穩(wěn)定性方面一個(gè)完整的圖形。4.3統(tǒng)計(jì)質(zhì)量度量
為了比較新模型與其他經(jīng)驗(yàn)公式在精度和性能方面的差異,我們采用統(tǒng)計(jì)誤差分析法。選用的誤差參數(shù)如下:平均相對(duì)百分誤差(Er),平均絕對(duì)百分誤差(Ea),最小絕對(duì)百分誤差(Emin),最大絕對(duì)百分誤差(Ermax),均方根誤差(Erms),標(biāo)準(zhǔn)差(SD),相關(guān)系數(shù)(R2)。為了說(shuō)明支持向量機(jī)回歸法的有效性,我們采用了基于三個(gè)不同數(shù)據(jù)庫(kù)的校正模型。(i)160個(gè)觀察點(diǎn)的數(shù)據(jù)庫(kù).(ii)283個(gè)觀察點(diǎn)的數(shù)據(jù)庫(kù)用于預(yù)測(cè)Pb和Bob(iii)Goda(2003)和Osman(2001)發(fā)表的包含782個(gè)觀察點(diǎn)的全世界范圍內(nèi)的數(shù)據(jù)庫(kù)。
結(jié)果表明支持向量機(jī)回歸法具有穩(wěn)定性和有效性。另外,它的性能在均方根誤差,絕對(duì)平均百分誤差,標(biāo)準(zhǔn)差和相關(guān)系數(shù)方面也超過(guò)了最流行的經(jīng)驗(yàn)公式中的一種以及標(biāo)準(zhǔn)前向神經(jīng)網(wǎng)絡(luò)法。實(shí)驗(yàn)研究
我們?cè)谒袛?shù)據(jù)集上進(jìn)行了質(zhì)量控制檢測(cè)并且刪除了多余的和不用的觀察點(diǎn)。為了評(píng)估每一種建模方法的性能,我們采用分層標(biāo)準(zhǔn)劃分了整個(gè)數(shù)據(jù)庫(kù)。因此,我們使用70%的數(shù)據(jù)建立支持向量回歸機(jī)模型,30%的數(shù)據(jù)用于測(cè)試和驗(yàn)證。我們重復(fù)內(nèi)部和外部驗(yàn)證過(guò)程各1000次。因此數(shù)據(jù)被分為2到3組用于訓(xùn)練和交叉驗(yàn)證。而在782組數(shù)據(jù)點(diǎn)中,382組用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,剩下的200組用來(lái)交叉驗(yàn)證訓(xùn)練過(guò)程中建立的關(guān)系,最后200組用于測(cè)試模型以評(píng)估其準(zhǔn)確性和趨勢(shì)穩(wěn)定性。對(duì)于測(cè)試數(shù)據(jù),我們用支持向量機(jī)回歸建模法,前向神經(jīng)網(wǎng)絡(luò)系統(tǒng)和最著名的經(jīng)驗(yàn)公式分別預(yù)測(cè)起泡點(diǎn)壓力和石油形成層參數(shù),并研究了他們不同質(zhì)量度量的統(tǒng)計(jì)總和。
通常情況下,在訓(xùn)練了支持向量機(jī)回歸建模系統(tǒng)后,我們使用交叉驗(yàn)證來(lái)測(cè)試和評(píng)價(jià)校正模型。
同時(shí)我們將支持向量機(jī)回歸模型的性能和精度同標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)和三種常用的經(jīng)驗(yàn)公式進(jìn)行了對(duì)比研究。這三種常用的公式分別是:Standing,Al-Mahroun和Glaso經(jīng)驗(yàn)公式。5.1 參數(shù)初始化
本研究中,我們采用與Al-Marhoun&Osman(2002),Osman(2001)以及Osman&Abdel-Aal(2002)同樣的步驟。其中采用單或雙隱層的前向神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)基于具有線性和S型激發(fā)函數(shù)的倒傳遞學(xué)習(xí)算法。初始權(quán)重隨機(jī)獲得,學(xué)習(xí)能力基于1000元或0.001目標(biāo)誤差和0.01學(xué)習(xí)率獲得。每個(gè)隱層包括的神經(jīng)元都與其相鄰層的神經(jīng)元連接。這些連接都有相關(guān)的權(quán)值,并可以在訓(xùn)練過(guò)程中調(diào)整。當(dāng)網(wǎng)絡(luò)可以預(yù)測(cè)給定的輸出時(shí)訓(xùn)練完成。對(duì)于這兩個(gè)模型,第一層包括四個(gè)神經(jīng)元,分別代表油儲(chǔ)溫度,油氣比,煤氣比重和API石油比重的輸入值。第二層包含用于Pb模型的七個(gè)神經(jīng)元和用于Bob模型的8個(gè)神經(jīng)元。第三層包括一個(gè)神經(jīng)元,其代表Pb或Bob的輸出值。我們使用的用于Pb和Bob模型的簡(jiǎn)略圖正如Al-Marhoun&Osman(2002),Osman&Abdel-Aal(2002)論文中所述。它基于1000次的重復(fù)計(jì)算使得我們可以檢測(cè)網(wǎng)絡(luò)的泛化能力,阻止對(duì)訓(xùn)練數(shù)據(jù)的過(guò)擬合并且對(duì)所有運(yùn)行取平均。
執(zhí)行過(guò)程開始于對(duì)現(xiàn)有數(shù)據(jù)集的支持向量機(jī)建模,每次一個(gè)觀察點(diǎn),到時(shí)學(xué)習(xí)過(guò)程從現(xiàn)有輸入數(shù)據(jù)集中獲得。我們注意到交叉驗(yàn)證可讓我們監(jiān)視支持向量回歸機(jī)建模的性能,同時(shí)阻止核網(wǎng)絡(luò)過(guò)擬合訓(xùn)練數(shù)據(jù)。在執(zhí)行過(guò)程中,我們采用三種不同的核函數(shù),分別名為多項(xiàng)式,S型核以及高斯核。在支持向量回歸機(jī)的設(shè)計(jì)中,首先初始化那些控制模型整體性能的參數(shù),諸如kenel=’poly’,kernel opt=5;epsilon=0.01;lambda=0.0000001;verbose=0;以及常量C為簡(jiǎn)便起見取為1或10。交叉驗(yàn)證方法基于均方根誤差作為訓(xùn)練算法中的檢查機(jī)制來(lái)阻止過(guò)擬合和復(fù)雜性。Bob和Pb模型的結(jié)果權(quán)重如下表格和圖表中所示。同時(shí),如下所示,每一個(gè)輸入?yún)?shù)的相對(duì)重要性在訓(xùn)練過(guò)程中確定,并由Bob和Pb模型給出。
5.2 討論和對(duì)比研究
我們可以研究除已選擇的檢驗(yàn)公式之外其他常用的經(jīng)驗(yàn)公式,更多關(guān)于這些公式數(shù)學(xué)表達(dá)式的細(xì)節(jié)可以參考EI-Sebakhv和Osman(2007)的文章。測(cè)試中的比對(duì)結(jié)果,在表1-6中分別進(jìn)行了外部交叉驗(yàn)證總結(jié)。從結(jié)果中我們注意到支持向量機(jī)建模法優(yōu)于采用倒傳遞算法的神經(jīng)網(wǎng)絡(luò)以及最流行的經(jīng)驗(yàn)公式。提出的模型以其穩(wěn)定的性能在預(yù)測(cè)Pb和Bob值時(shí)表現(xiàn)出了很高的精度,在采用三個(gè)不同數(shù)據(jù)集的情況下該模型在其他公式中得到了最低的絕對(duì)相對(duì)百分誤差,最低的最小誤差,最低的最大誤差,最低的均方根誤差以及最高的相關(guān)系數(shù)。
我們對(duì)所有計(jì)算機(jī)智能預(yù)測(cè)算法和最著名的經(jīng)驗(yàn)公式預(yù)測(cè)所得的絕對(duì)相對(duì)百分誤差EA和相關(guān)系數(shù)繪制了離散點(diǎn)圖。每個(gè)建模方法由一種符號(hào)表示。好的預(yù)測(cè)方法應(yīng)該出現(xiàn)在圖形的左上部分。圖3所示為所用建模方法EA以及R或r的離散點(diǎn),這些方法使用Osman(2001)的數(shù)據(jù)庫(kù)預(yù)測(cè)Bob。11
圖3基于Osman數(shù)據(jù)庫(kù)的所有建模法和經(jīng)驗(yàn)公式法預(yù)測(cè)Bob的平均絕對(duì)相對(duì)誤差和相關(guān)系數(shù) 我們注意到支持向量回歸機(jī)建模法落在圖形的左上部分,EA=1.368%和r=0.9884,而神經(jīng)網(wǎng)絡(luò)次之,EA=1.7886%和r=0.9878,其余的經(jīng)驗(yàn)公式則有更高的誤差且更低的相關(guān)系數(shù)。例如,AL-Marhoun(1992)的EA=2.2053%,r=0.9806,Standing(1947)有EA=2.7238%和r=0.9742以及Glaso公式的EA=3.3743%,r=0.9715。圖4所示為同樣的圖形,只不過(guò)采用同樣的數(shù)據(jù)集和建模方法來(lái)預(yù)測(cè)bP。我們注意到支持向量回歸機(jī)建模法落在圖形的左上部分,EA=1.368%和R=0.9884,而神經(jīng)網(wǎng)絡(luò)次之,EA=1.7886%和r=0.9878,其余的經(jīng)驗(yàn)公式則有更高的誤差且更低2的相關(guān)系數(shù)。例如,AL-Marhoun(1992)的EA=2.2053%,r=0.9806,Standing(1947)有EA=2.7238%和r=0.9742以及Glaso公式的EA=3.3743%,r=0.9715。
圖4基于Osman數(shù)據(jù)庫(kù)的所有建模法和經(jīng)驗(yàn)公式法預(yù)測(cè)Pb的平均絕對(duì)相對(duì)誤差和相關(guān)系數(shù) 我們也對(duì)其他數(shù)據(jù)集重復(fù)了同樣的執(zhí)行過(guò)程,但為了簡(jiǎn)便起見,本文并沒(méi)有包括這些內(nèi)容。這些數(shù)據(jù)集是Al-Marhoun(1988,1992)和Al-Marhoun&Osman(2002)以及Osman&Abdel-Aal(2002)。
圖5-10所示為使用三個(gè)不同的數(shù)據(jù)集的試驗(yàn)數(shù)據(jù)對(duì)bpp和Bob所得預(yù)測(cè)結(jié)果的六張離散圖形。這些交叉點(diǎn)說(shuō)明了基于支持向量回歸機(jī)的高性能試驗(yàn)值和預(yù)測(cè)值之間的吻合程度。讀者可以對(duì)已發(fā)表的神經(jīng)網(wǎng)絡(luò)建模法和最著名的經(jīng)驗(yàn)公式進(jìn)行比較。最后,我們的結(jié)論是支持向量回歸集建模法相比其他著名的建模法和經(jīng)驗(yàn)公式有更好的性能和更高的穩(wěn)定性。
在預(yù)測(cè)bpp和Bob時(shí)支持向量機(jī)優(yōu)于標(biāo)準(zhǔn)前向神經(jīng)網(wǎng)絡(luò)和最常用的經(jīng)驗(yàn)公式,其中使用4個(gè)輸入數(shù)據(jù):油氣比,油儲(chǔ)溫度,煤氣比重和煤氣相對(duì)密度。
圖5 基于Osman數(shù)據(jù)庫(kù)的支持向量回歸機(jī)預(yù)測(cè)Pb和Bob的平均交會(huì)圖
圖6 基于Osman數(shù)據(jù)庫(kù)的支持向量回歸機(jī)預(yù)測(cè)bP或bPP的平均交會(huì)圖
圖 7 基于Al-Marhoun,Osman和Osman&Abdel-Abal數(shù)據(jù)集支持向量回歸機(jī)預(yù)測(cè)Bo的交會(huì)圖
圖 8 基于Al-Marhoun,Osman和Osman&Abdel-Abal數(shù)據(jù)集支持向量回歸機(jī)預(yù)測(cè)bP的交會(huì)圖
圖 9 基于已有數(shù)據(jù)集(Al-Marhoun)支持向量回歸機(jī)預(yù)測(cè)Bo的交會(huì)圖
圖 10基于已有數(shù)據(jù)集(Al-Marhoun)支持向量回歸機(jī)預(yù)測(cè)bP的交會(huì)圖
6結(jié)論和建議
在本研究中,我們使用三種不同的數(shù)據(jù)集來(lái)考察支持向量回歸機(jī)作為一種新型模式在預(yù)測(cè)原油系統(tǒng)PVT參數(shù)過(guò)程中的能力。基于得到的結(jié)果和比對(duì)研究,我們得出如下結(jié)論:
我們使用支持向量回歸機(jī)及4個(gè)輸入變量來(lái)預(yù)測(cè)起泡點(diǎn)壓力和石油形成層參數(shù)。這4個(gè)變量分別是:油氣比,油儲(chǔ)溫度,石油比重和煤氣相對(duì)密度。在石油工程領(lǐng)域,這兩個(gè)參數(shù)被認(rèn)為是原油系統(tǒng)PVT參數(shù)中最重要的。
成熟的支持向量回歸機(jī)建模法優(yōu)于標(biāo)準(zhǔn)前向神經(jīng)網(wǎng)絡(luò)和最常用的經(jīng)驗(yàn)公式。因此,該方法相比其他方法有著更好,更有效和更可靠的性能。另外,該方法在預(yù)測(cè)Bob值時(shí)以其穩(wěn)定的性能表現(xiàn)出了很高的準(zhǔn)確性,同時(shí)得到最低的絕對(duì)相對(duì)百分誤差,最低的最小誤差,最低的最大誤差,最低的根均方誤差和最大的相關(guān)系數(shù)。因此,支持向量回歸機(jī)建模法在油氣工業(yè)中應(yīng)用靈活,可靠并有著很好的發(fā)展前景。特別是在滲透率,孔隙率,歷史匹配,預(yù)測(cè)巖石機(jī)械參數(shù),流型,液體停止多相流和巖相分類中。
參數(shù)命名
Bob 起泡點(diǎn)壓力附近的OFVF, RB/STB Rs 油氣比,SCF/STB T 油儲(chǔ)溫度,華氏溫度
r0 石油相對(duì)密度(水為1.0)
rg 煤氣相對(duì)密度(空氣為1.0)
Er平均相對(duì)百分誤差 Ei 相對(duì)百分誤差
Ea平均絕對(duì)百分相對(duì)誤差 Emax 最大絕對(duì)百分相對(duì)誤差 Emin 最小絕對(duì)百分相對(duì)誤差
RMS 均方根誤差