世俱杯规则-虎牙直播-比利亚vs西班牙人-德国杯|www.cnyhmy.com

基于CatBoost-SHAP,模型的滑坡易發(fā)性建模及可解釋性

時間:2024-10-28 18:00:03 來源:網(wǎng)友投稿

曾韜睿,王林峰,張 俞,程 平,吳 帆

(1.重慶交通大學(xué)山區(qū)公路水運交通地質(zhì)減災(zāi)重慶市高校市級重點實驗室,重慶 400074;
2.重慶交通大學(xué)河海學(xué)院,重慶 400074;
3.浙江省地礦科技有限公司,浙江 杭州 310007;
4.溫州工程勘察院有限公司,浙江 溫州 325006;
5.山地災(zāi)害與地表過程重點實驗室/中國科學(xué)院山地災(zāi)害與環(huán)境研究所,四川 成都 610299)

隨著全球氣候的變化,由人類活動導(dǎo)致的極端天氣事件愈顯頻發(fā)。尤其是百年一遇的臺風(fēng)漸成常態(tài),頻觸山體滑坡,對全球特別是中國東南沿海地區(qū)造成重大影響[1-2]。受地理、氣候和地質(zhì)環(huán)境的影響,中國東南沿海地區(qū)已經(jīng)成為臺風(fēng)的高風(fēng)險區(qū)域。近些年,如“拉娜妮姆”“蘇迪洛”“鲇魚”“利奇馬”等臺風(fēng)席卷該地區(qū),觸發(fā)了大量滑坡災(zāi)害,造成了人員傷亡和巨大的經(jīng)濟損失[3]。浙江省約90%的突發(fā)性地質(zhì)災(zāi)害由降雨引發(fā)[4]。因此,開展滑坡易發(fā)性制圖研究對于加強東南沿海災(zāi)害風(fēng)險管理具有重大實際意義和緊迫性[5-9]。

滑坡易發(fā)性評估考慮歷史滑坡災(zāi)害與地質(zhì)、地形、地貌、土壤性質(zhì)及人類活動等多個影響因素的關(guān)系,以估算特定區(qū)域發(fā)生滑坡的概率[10-11]。機器學(xué)習(xí)模型為這種評估提供了一個工具,它能從大量數(shù)據(jù)中學(xué)習(xí)并揭示影響滑坡發(fā)生的復(fù)雜非線性關(guān)系[12-13]。常用的機器學(xué)習(xí)模型包括決策樹、支持向量機、人工神經(jīng)網(wǎng)絡(luò)等[13-17]。近年來,人工智能技術(shù)取得了顯著的發(fā)展,先進的集成模型,為傳統(tǒng)方法帶來了革命性的改進。例如劉海知等[18]采用了隨機森林(bagging 集成)和梯度提升樹(boosting 集成)構(gòu)建了的山區(qū)中小流域滑坡易發(fā)區(qū)早期識別方法。曾韜睿等[19]采用Stacking 算法集成了隨機森林和極端梯度提升樹算法預(yù)測了三峽庫區(qū)滑坡發(fā)生的空間位置。盡管這些模型在預(yù)測滑坡易發(fā)性方面表現(xiàn)出色,模型建模過程中的不確定性仍然是一個問題。黃發(fā)明等[14]探究了影響因子的不同分級數(shù)量對模型性能的影響,得到隨著分級數(shù)量增加,隨機森林預(yù)測精度越高。分級處理可以簡化數(shù)據(jù)復(fù)雜性,提高模型的穩(wěn)定性和解釋能力,并使數(shù)據(jù)的可視化更為直觀。然而,過度的或盲目的分級處理可能導(dǎo)致模型損失原始數(shù)據(jù)的細節(jié)信息。同時,分級邊界的選擇可能受到主觀因素的影響,從而對模型的預(yù)測性能產(chǎn)生不良效果。因此,如何在先進的集成模型中恰當(dāng)?shù)貞?yīng)用分級策略,已成為當(dāng)前研究的關(guān)鍵焦點。

盡管集成學(xué)習(xí)模型在結(jié)果的優(yōu)越性和準確性上表現(xiàn)出色,其卻常被視為“黑盒子”,缺乏可解釋性[20]。為解決這一問題,Lundberg 等[21]在2017 年提出了沙普利加性解釋法(shapley additive explanation,SHAP)模型,為模型的結(jié)構(gòu)解讀和結(jié)果解釋帶來了新的視角。部分學(xué)者已著手于滑坡易發(fā)性的可解釋性研究,如陳丹璐等[22]基于 LightGBM-SHAP 建立滑坡易發(fā)性評價模型。Dahal 等[23]使 用SHAP 模擬響應(yīng)Gorkha 地震(2015 年4 月25 日)發(fā)生的山體滑坡,為模型的設(shè)計和解讀提供了有價值的見解。盡管如此,SHAP 方法在滑坡易感性研究中的應(yīng)用仍處于起步階段,深入探討模型中存在的不確定性和增強其解釋性顯得至關(guān)重要[10,14,24-25]。

目前,迫切需要研究先進模型在滑坡易發(fā)性建模及其預(yù)測結(jié)果的可解釋性方面的應(yīng)用。因此,本文利用了谷歌及Sentinel-2A 影像,獲取了超級臺風(fēng)“鲇魚”導(dǎo)致的浙江省東部沿海山區(qū)的滑坡事件清單。CatBoost 模型被用來構(gòu)建該地區(qū)的滑坡易發(fā)性評估,并深入探討了多種連續(xù)性因子的分級策略。另外,SHAP 模型被用于定量分析這些分級策略對于滑坡發(fā)生在全局和局部的影響和貢獻。期望這一研究能為滑坡潛在易發(fā)區(qū)的預(yù)測及機器學(xué)習(xí)模型的可解釋性提供有價值的參考。

1.1 研究區(qū)域

研究區(qū)位于浙江省東部海岸,見圖1(a)。該地區(qū)處于溫州—臨海凹陷地帶,主要地形為低山和中山,這些地貌主要是由于構(gòu)造侵蝕作用形成的,見圖1(b)。區(qū)域內(nèi)豐富的火山巖、火山沉積巖和侵入巖構(gòu)成了其獨特的地質(zhì)結(jié)構(gòu)。整個研究區(qū)大約82.5%的面積是山地,陡峭的地形上廣泛分布著大量松散殘留土。過去十年里,該區(qū)域進行了眾多的人工工程活動,如建筑、農(nóng)田開發(fā)、山地工程和采礦,這些活動不可避免地降低了斜坡的穩(wěn)定性。該區(qū)域?qū)儆趤啛釒ШQ蠹撅L(fēng)氣候,年均降雨量為1 884.7 mm,其中大約60% 的降雨量集中在5—10 月。

圖1 研究區(qū)概況圖Fig.1 Overview of the study area

1.2 滑坡清單

2016 年,該地區(qū)遭受了第17 號超級臺風(fēng)“鲇魚”的侵襲,該臺風(fēng)于9 月27 日在臺灣登陸后,于9 月29 日消散。在臺風(fēng)影響下,9 月27 日20:00 至9 月28 日20:00間,文成、平陽和泰順的降雨量分別達到了388 mm、342 mm 和324 mm,創(chuàng)下了歷史單日降雨量記錄。根據(jù)中國氣象局和中國地質(zhì)環(huán)境監(jiān)測所的記錄,臺風(fēng)導(dǎo)致的降雨觸發(fā)了多起滑坡事件,造成32 人遇難,3 人失蹤,并對許多建筑和基礎(chǔ)設(shè)施,如輸電線塔和道路,造成了嚴重損害。在強降雨事件之后,多時相高分辨率光學(xué)衛(wèi)星遙感技術(shù)已成為獲取滑坡清單的關(guān)鍵工具。本研究利用谷歌地球平臺上的高分辨率衛(wèi)星圖像進行了滑坡的詳細視覺解釋,以確保數(shù)據(jù)的準確性和完整性。所有使用的遙感圖像都基于谷歌地球平臺,覆蓋了整個研究區(qū)域。本文主要關(guān)注的圖像日期是2016 年2 月7 日(降雨事件前)和2016 年12 月21 日(降雨事件后),分別展示在圖1(c)和圖1(d)中。考慮到在降雨事件前后的圖像之間存在較長時間間隔,引入了Sentinel-2A衛(wèi)星的影像(獲取日期為2016-08-22 和2017-04-29)進行交叉驗證,增強了研究結(jié)果的可靠性。Sentinel-2A 衛(wèi)星提供了10 m 的高空間分辨率和高復(fù)查周期,為災(zāi)后分析和救援工作提供了寶貴支持。所有獲取的圖像均經(jīng)過輻射校正、大氣校正和坐標系統(tǒng)轉(zhuǎn)換處理,確保數(shù)據(jù)質(zhì)量。圖1(e)和圖1(f)展示了事件發(fā)生前后的Sentinel-2A 衛(wèi)星圖像。滑坡的識別是通過目視判讀完成的,并在ArcGIS10.6 平臺上繪制成多邊形形式。由于研究區(qū)域內(nèi)植被覆蓋率高,衛(wèi)星圖像成為了描繪山體滑坡的優(yōu)選工具。通過這種方法,成功在609 km2的區(qū)域內(nèi)繪制了552 起滑坡事件。通過對遙感圖像的詳細分析,發(fā)現(xiàn)滑坡主要以平面滑動為主,同時也觀察到了少量的崩塌和泥石流事件。這些滑坡覆蓋總面積達1.53 km2,其中最大的滑坡面積約為63 862 m2,最小的滑坡面積為150 m2,平均滑坡面積約為2 688 m2,標準差為5 011 m2。

1.3 影響因子

影響因子主要包括與滑坡易發(fā)性密切相關(guān)的各類地理、地質(zhì)和氣候要素。這類因子的獲取,一般是借助于遙感影像、地形分析以及其他地理信息系統(tǒng)(GIS)工具實現(xiàn)的。參考降雨滑坡文獻調(diào)研[4,11,26]及數(shù)據(jù)可用性,本文選取的影響因子包括數(shù)字高程模型(digital elevation model,DEM)、坡度、平面曲率、剖面曲率、地形濕潤指數(shù)(topographic wetness index,TWI)、地形位置指數(shù)(topographic position index,TPI)、距離道路的距離和距離河流的距離和土地利用(圖2)。所使用的DEM 數(shù)據(jù)來源于ALOS PALSAR DEM,原始分辨率為12.5 m,隨后通過雙線性插值算法被重采樣至30 m 分辨率。在ArcGIS 10.6 軟件平臺上,本文利用這一DEM數(shù)據(jù)計算了各地區(qū)的坡度、坡向、平面曲率以及剖面曲率。而TWI 則是一種能夠反映地區(qū)地形對徑流流向和積累影響的物理量指標,其具體的計算方法如下所示:

圖2 影響因子Fig.2 Influencing factors

式中:SCA——單位面積的流域流量,通過ArcGIS 平臺上的水文分析進行計算;

α——坡度/(°)。

TPI 是一個描述地形位置或地形曲率的指標,計算公式如下:

式中:T0——待評價單元的高程;

Tn——網(wǎng)格柵格的高程;

n——評價中計算的指定鄰域周圍單元的總數(shù)。

巖性數(shù)據(jù)是從中國地質(zhì)調(diào)查局發(fā)布的1∶20 萬地質(zhì)圖上收集的。土壤類型數(shù)據(jù)來源于由中科院南京土壤研究所矢量化的柵格數(shù)據(jù)。道路和水系數(shù)據(jù)是從Open Street Map(https://www.openstreetmap.org/)中下載,并通過ArcGIS 平臺中的歐式距離計算得到整個研究區(qū)的數(shù)據(jù)。土地利用數(shù)據(jù)由中國科學(xué)院資源與環(huán)境數(shù)據(jù)中心下載(http://www.resdc.cn)。為了實現(xiàn)數(shù)據(jù)一致性,所有影響因子均被重新采樣為具有30 m 空間分辨率的像元數(shù)據(jù),以滿足分析的精確性和一致性要求。

本文構(gòu)建了不同分級策略的滑坡易發(fā)性建模及可解釋性研究,具體流程如圖3 所示。首先,利用谷歌歷史影像和Sentinel-2A 影像,本文獲取了2016 年超級臺風(fēng)“鲇魚”事件所誘發(fā)的滑坡清單。其次,選取了12 個影響因子,并對其中的連續(xù)型因子進行了3 種不同的策略:不分級、等間距法、自然斷點法,分別將其劃分為4,6,8,12,16,20 等級。接下來,利用CatBoost 模型,對不同分級策略下的空間易發(fā)性結(jié)果進行了對比分析。通過受試者曲線(receiver operation characteristic curves,ROC)和SHAP 模型,不僅分析了模型的不確定性,還探討了各因子的可解釋性,最終確定了最優(yōu)的滑坡易發(fā)性模型。

圖3 不同分級策略的滑坡易發(fā)性建模及可解釋性流程圖Fig.3 Flowchart of landslide susceptibility modeling and interpretability under different grading strategies

2.1 CatBoost 模型

Boosting 是一種旨在通過集成多個弱模型以構(gòu)建一個強有力模型的學(xué)習(xí)策略。該方法逐步訓(xùn)練各個模型,對每次訓(xùn)練中錯誤分類的樣本加大權(quán)重,以此促使后續(xù)模型更加關(guān)注前一模型未能正確分類的樣本。由Yandex 于2018 年開發(fā)的CatBoost 是一種基于Boosting策略的機器學(xué)習(xí)算法[27]。與其他 Boosting 算法相似,CatBoost 致力于最小化給定的損失函數(shù)L(y,f(x)),其中y為真實標簽,f(x) 為模型的預(yù)測值。CatBoost 在更新每一步時,會計算損失函數(shù)相對于預(yù)測的一階和二階導(dǎo)數(shù),即梯度g和Hessian 矩陣h。對于樣本i,這2 個量分別由以下公式求取:

由計算出的梯度和Hessian 值,可以得到葉子節(jié)點的最優(yōu)權(quán)重ω:

式中:λ——正則化參數(shù)。

與其他Boosting 算法不同,CatBoost 使用一種特殊的編碼方法(基于目標的統(tǒng)計數(shù)據(jù))直接處理分類特征。對于目標變量Y,分類變量X的每一個級別k的目標編碼值計算如下:

式中:ci——觀測值i的分別特征的級別;

count(ci=k)——級別k的出現(xiàn)次數(shù)。

為避免數(shù)據(jù)泄漏,對于每個觀測值,CatBoost 僅使用之前的觀測值來計算編碼,從而確保編碼時不使用當(dāng)前觀測的信息。這是通過累積計數(shù)和累積目標總和來實現(xiàn)的,并且通常與時間排序的數(shù)據(jù)結(jié)合使用。具體公式如下:

式中:j

這種策略使 CatBoost 在處理高基數(shù)分類變量時更加健壯,并提供了額外的泛化能力。因此,本文采用CatBoost 模型預(yù)測研究區(qū)淺層滑坡的易發(fā)性值。

2.2 SHAP 模型

隨著機器學(xué)習(xí)模型變得越來越復(fù)雜,理解模型的內(nèi)部運作與決策流程成了一項巨大挑戰(zhàn)。學(xué)術(shù)界普遍認為,僅憑模型展現(xiàn)出的高預(yù)測準確性還不足以確保其可信度。提高“黑箱”模型的可解釋性,能夠清晰理解模型的預(yù)測依據(jù),成為提升機器學(xué)習(xí)算法在各應(yīng)用領(lǐng)域的泛化能力與可信度的關(guān)鍵。2017 年,Lundberg 等[21]提出了SHAP 模型,這一模型借鑒了博弈論中Shapley 值的核心思想,旨在解釋各類機器學(xué)習(xí)模型的預(yù)測行為。對于給定的模型f和輸入樣本x,特征i的SHAP 值:

式中:N——特征集合;

S——不包含特征i的任何子集;

|S|——集合S的大小;

|N|——所有特征的總數(shù);

fx(S∪{i})、fx(S)——包含和不包含特征i的模型預(yù)測結(jié)果。

SHAP 值提供了一種量化的手段,以測定每個特征在機器學(xué)習(xí)模型預(yù)測中的貢獻程度。通過上述公式的計算,確保了每個特征的貢獻都被公平地考量。基于這些貢獻度,能夠進行特征級的解釋,即分析每個特征是如何影響模型預(yù)測結(jié)果的,從而進一步增強了模型的可解釋性。

2.3 因子分級策略及精度評價

在進行滑坡易發(fā)性建模的機器學(xué)習(xí)研究中,采用分級處理連續(xù)型因子被視為一種常規(guī)策略。此策略有著不容忽視的優(yōu)點:能夠降低數(shù)據(jù)的復(fù)雜性,加強模型的穩(wěn)健性與可解釋性,為我們呈現(xiàn)更為直觀的數(shù)據(jù)可視化,同時對異常值展現(xiàn)出良好的適應(yīng)性,從而在一定程度上提高了模型的泛化能力和實際操作決策的直觀性。盡管如此,分級過程中可能出現(xiàn)細節(jié)信息的遺失,且確定分級邊界常常帶有主觀成分,這可能導(dǎo)致模型性能出現(xiàn)不穩(wěn)定性。因此,科研人員有必要探討不同模型中連續(xù)型因子的多種分級策略,以追求最優(yōu)的預(yù)測效果。在本次研究中,我們考察了無分級、等間距法以及自然斷點法,同時也對其進行了4,6,8,12,16,20 等不同級別的劃分。

滑坡易發(fā)性預(yù)測是一種二元分類,將輸入數(shù)據(jù)分為滑坡和非滑坡兩類。滑坡柵格(30 m×30 m)賦值為“1”,非滑坡像素賦值為“0”。研究區(qū)有滑坡柵格5 066 個。在ArcGIS10.6 軟件中,從非滑坡區(qū)域隨機生成了5 066個非滑坡像素。樣本數(shù)據(jù)集由滑坡數(shù)據(jù)和非滑坡數(shù)據(jù)組成,所有數(shù)據(jù)都提取了相應(yīng)的環(huán)境因子,并且隨機分為70% 訓(xùn)練數(shù)據(jù)和30% 驗證數(shù)據(jù)。ROC 曲線在機器學(xué)習(xí)和統(tǒng)計學(xué)領(lǐng)域得到了廣泛應(yīng)用,主要用于評估分類模型的性能[28]。AUC(area under the curve)則代表了ROC曲線下的面積,其值越接近1,意味著分類器的性能越出色。AUC值在滑坡易發(fā)性評估中具有廣泛應(yīng)用[29],因為它能提供一個與分類閾值無關(guān)的綜合性能評價標準,特別是在處理不平衡數(shù)據(jù)時,AUC展現(xiàn)出了顯著的魯棒性。

3.1 滑坡易發(fā)性模型評價

3.1.1 影響因子共線性及重要性評價

在進行滑坡易發(fā)性評價時,首要的一步是檢驗所選影響因子之間是否存在共線性[30]。(variance inflation factor,VIF)是一種常用的統(tǒng)計量,用以評估預(yù)測模型中可能出現(xiàn)的多重共線性。通常情況下,當(dāng)VIF 值超過5 時,即可判斷因子間存在較高程度的共線性。如圖4 所示,所有選定影響因子的VIF 值均未超過5,說明模型中未出現(xiàn)明顯的多重共線性問題。其中,地形位置指數(shù)(TPI)的VIF 值相對較高,為2.74,但仍在可接受的范圍內(nèi),無需進行額外處理或調(diào)整。特征的重要性是通過累積CatBoost 模型中每個特征在分裂點的改善度來計算的。詳細來說,每當(dāng)模型樹的一個節(jié)點使用某特征進行分裂時,系統(tǒng)都會計算此次分裂對模型性能(一般以損失函數(shù)為準)的改善程度。這些改善度值會被累積,從而得出每個特征的總體重要性。設(shè)計工況中各影響因子的平均重要性如圖4 所示,其中河流距離被證實為最關(guān)鍵的影響因子,其占比高達20.17%。其次是DEM、巖性和道路距離,這些因子也顯示出了相對較高的影響力,分別占比11%~12%。同時,坡向和土壤類型也是不可或缺的因子,它們各自占據(jù)了9%~10%的影響力范圍。

圖4 因子共線性及平均重要性分析Fig.4 Analysis of factor multicollinearity and average importance of influencing factors

圖5 展示了不同工況下影響因子的重要性。當(dāng)因子按更多區(qū)間進行分級(例如16,20 級)時,DEM、河流距離和道路距離的重要性則會相對升高。這可能歸因于這些因子在多個區(qū)間的變化更為有效地捕捉到了目標變量的復(fù)雜性。等間距法分級更傾向于提高離散型因子(如坡向、土壤類型和巖性)的重要性,同時降低了連續(xù)型因子的重要性。相較而言,自然斷點法分級所展現(xiàn)出的因子重要性分布更接近于不進行分級的情況,呈現(xiàn)出更全面的因子影響分布。這一發(fā)現(xiàn)表明,自然斷點法能更準確地揭示因子的自然分布以及它們對目標變量的影響,從而更有助于捕捉模型的多維性和復(fù)雜性。

圖5 因子在不同數(shù)據(jù)集中的重要性,EI-Equal Interval 等間距,NB-Natural Breaks 自然斷點Fig.5 Importance of influencing factors in different datasets,EI-Equal Interval,NB-Natural Breaks

3.1.2 不同分級條件下精度評價

圖6 展示了在不同數(shù)據(jù)集下,采用CatBoost 模型進行十折交叉驗證所計算出的AUC值。從圖7(a)中可以明顯看出,不對連續(xù)型因子進行分級時,能夠?qū)崿F(xiàn)最高的AUC值(0.866)。而將連續(xù)因子劃分為4 或6 個等級時,CatBoost 模型的性能會有所下降。值得注意的是,隨著分級數(shù)目的增加,AUC的平均值呈現(xiàn)上升趨勢。以等間距法劃分數(shù)據(jù)集為例,AUC平均值從4 級的0.824 逐漸上升至20 級的0.862,見圖7(b)(c);
而自然斷點法的AUC平均值則從4 級的0.836 提升到20 級的0.861,見圖7(d)。盡管自然斷點法在較低級別時可能表現(xiàn)出更高的AUC值,但隨著級別的增加,兩種方法的性能趨于相近,且等間距法在高級別下展現(xiàn)出較為穩(wěn)定的性能。此外,我們的分級測試工況結(jié)果的變化規(guī)律與黃發(fā)明[14]和Xing 等[31]的研究結(jié)果類似,都顯示出在20 分級時預(yù)測精度達到最高。在實際應(yīng)用中為實現(xiàn)最佳的效率和精度之間的平衡,可以采用12 級或16 級分級。CatBoost 模型作為一種高度自適應(yīng)的決策樹集成模型,具有對連續(xù)型因子進行有效處理的能力。因此,不對連續(xù)型因子進行分級處理能夠獲得最優(yōu)的預(yù)測精度。此外,避免分級處理還能最大化地保留原始數(shù)據(jù)中的信息,從而降低過擬合和欠擬合的風(fēng)險。簡單的分級策略可能導(dǎo)致信息損失,進而影響模型的預(yù)測能力。然而,隨著分級數(shù)目的增加,模型逐漸能夠更精確地逼近原始的連續(xù)數(shù)據(jù),從而提高預(yù)測精度。未來可以嘗試進一步探索滑坡和影響因子的聯(lián)接方法,例如頻率比、信息量和熵指數(shù)等[32]。

圖6 不同分級條件下十折交叉驗證的AUC 值Fig.6 AUC values for ten-fold cross-validation under various grading conditions

圖7 不同數(shù)據(jù)集ROC 曲線Fig.7 ROC curves for different datasets

3.1.3 SHAP 影響因子解譯

為深入了解不同情況下的預(yù)測效果,本文對特定的代表性數(shù)據(jù)集進行了詳細分析,包括不分級情況、4 級等間距、20 級等間距和20 級自然斷點。經(jīng)過十折交叉驗證后,各數(shù)據(jù)集通過CatBoost 模型進行擬合,測試集的SHAP 值被計算出,從而得到每個特征的平均SHAP值。正如圖8 所展示的,道路距離和河流距離展現(xiàn)為最重要的影響因子,且其數(shù)據(jù)分布具有一致性。在不分級和20 級自然斷點法中,DEM 的重要性得到了增強,且無論是高還是低的高程,都對滑坡的發(fā)生表現(xiàn)出抑制作用。然而,與此相反,在4 級和20 級等間距分級的情況下,低高程似乎會促使滑坡的發(fā)生,這顯然與實際情況相悖。此外,4 級等間距分級方式下,對坡向的應(yīng)用表現(xiàn)更佳,弱化了道路距離和河流距離的作用,顯然是不符合實際的。最終,對于道路距離這一特征,不分級的數(shù)據(jù)集展現(xiàn)出了更優(yōu)的預(yù)測能力—即滑坡發(fā)生的可能性會隨著與道路距離的減小而增加。總之,能夠更好地非線性擬合滑坡影像因子的模型,將有可能獲得更加精準的預(yù)測結(jié)果。

圖8 影響因子蜂群圖Fig.8 Bees swarm plot of influencing factors

圖9 深入分析了道路距離、河流距離、DEM 和坡向及這幾個變量在不分級工況下對模型預(yù)測的特征值貢獻。圖9(a)顯示了道路距離對滑坡發(fā)生概率的影響:道路的存在及其相關(guān)的活動,比如土地開發(fā)、排水結(jié)構(gòu)改變、地下水流動的調(diào)整以及邊坡切割和侵蝕作用,都可能提升滑坡的潛在風(fēng)險。此外,隨著道路的距離縮減,該因子對模型預(yù)測的正向貢獻顯著增強。河流距離的SHAP 值隨距離的增加而下降,反映了河流距離與滑坡風(fēng)險間的負相關(guān)性,見圖9(b)。在DEM 方面,200~600 m 的高程范圍內(nèi)的數(shù)據(jù)表現(xiàn)出了積極的貢獻,見圖9(c)。而在坡向方面,見圖9(d),從東向西南的方位角度出現(xiàn)的正面影響揭示了與實際氣候事件的相關(guān)性,如臺風(fēng)“鲇魚”帶來的暴雨主要從南方襲來,這與觀測到的模型響應(yīng)一致。

圖9 重要影響因子散點圖Fig.9 Scatter plots of key influencing factors

3.2 滑坡易發(fā)性制圖

最終采用不分區(qū)工況計算得到的滑坡易發(fā)性圖,并將易發(fā)性值分為4 個等級[19]:極低易發(fā)性(0≤P(S)<5%),低易發(fā)性(5%≤P(S)<35%),中易發(fā)性(35%≤P(S)<75%)以及高易發(fā)性(75%≤P(S)≤1)。如圖10 所示,該易發(fā)性圖與歷史滑坡記錄高度吻合,成功預(yù)測了研究區(qū)內(nèi)的潛在高風(fēng)險區(qū)域。運用CatBoost 進行滑坡易發(fā)性建模時,建議采取不對連續(xù)因子進行分級的策略,并借助SHAP 模型來關(guān)注那些對滑坡發(fā)生有顯著影響的因子及其取值范圍。特別是河流距離和道路距離,作為顯著影響因素,他們在模型中的貢獻值反映了這些地理特征與滑坡發(fā)生概率的直接關(guān)系。研究區(qū)東南部由于受到沿海經(jīng)濟帶的影響,以及該地區(qū)常遭受來自東南方向的臺風(fēng)侵襲,被識別為滑坡高發(fā)區(qū)。該地區(qū)的地形特征——以高山和陡坡為主——聯(lián)同表層基巖的性質(zhì),如全風(fēng)化至強風(fēng)化的砂礫巖、閃長巖和火山碎屑巖,易在強降雨的驅(qū)動下發(fā)生破壞,這些均為滑坡提供了觸發(fā)條件。此外,由于地區(qū)的經(jīng)濟活動和基礎(chǔ)設(shè)施建設(shè)頻繁,沿道路建設(shè)和河流調(diào)整活動可能進一步增加了該地區(qū)的滑坡風(fēng)險。為減輕未來由臺風(fēng)和暴雨引發(fā)的淺層滑坡風(fēng)險,強烈建議相關(guān)部門和管理機構(gòu)對這些高風(fēng)險區(qū)域進行及時的現(xiàn)場檢查,并根據(jù)需要實施風(fēng)險減輕措施。這些措施包括但不限于增強基礎(chǔ)設(shè)施的防災(zāi)能力、實施坡面穩(wěn)定工程、加強對高風(fēng)險區(qū)域的監(jiān)測和預(yù)警,從而有效保護人類生命財產(chǎn)安全,減少滑坡帶來的風(fēng)險[33-36]。

圖10 研究區(qū)滑坡易發(fā)性圖Fig.10 Landslides susceptibility map of the study area

本研究的案例分析主要集中在浙江省東部沿海山區(qū),所以模型和結(jié)論的適用性可能主要局限于地理和氣候條件相似的區(qū)域。模型基于特定地區(qū)數(shù)據(jù)訓(xùn)練而成,在應(yīng)用于其他地區(qū)時需進行調(diào)整,確保其適應(yīng)性和準確性。為提升模型性能和可靠性,提出以下改進方向:增強遙感數(shù)據(jù)質(zhì)量和完善滑坡事件記錄可提升模型預(yù)測準確度;
應(yīng)用更具解釋性的模型或方法以深入了解滑坡易發(fā)性背后的驅(qū)動機制;
在新地區(qū)應(yīng)用模型時,進行地區(qū)特定分析和調(diào)整,確保模型的精確性和適用性;
嘗試融合不同模型和方法,以增強滑坡易發(fā)性評估的準確性和魯棒性。

為了預(yù)測淺層滑坡發(fā)生的空間概率,本研究選取了浙江省東部沿海的山區(qū)作為研究對象。結(jié)合谷歌地圖與Sentinel-2A 衛(wèi)星影像,成功地交叉驗證了2016 年超級臺風(fēng)“鲇魚”引發(fā)的552 起淺層滑坡事件。利用基于Boosting 算法的CatBoost 模型,進行了滑坡易發(fā)性的評估。為了進一步探討連續(xù)型因子分級對預(yù)測精度的影響,采用了SHAP 模型進行因子重要性的詳細分析。主要研究成果如下:

(1)遙感數(shù)據(jù)顯示,滑坡主要類型為平面滑動,同時伴有少量崩塌和泥石流,覆蓋總面積為1.53 km2,平均滑坡面積2 688 m2,最大滑坡面積63 862 m2。

(2)研究區(qū)受DEM、坡度、坡向、平面曲率、剖面曲率、TWI、TPI、巖性、土壤類型、距離道路的距離、距離河流的距離和土地利用12 項因子的影響。VIF 測試了因子之間不存在共線性。通過CatBoost 模型分析,距離河流的距離是最為關(guān)鍵的影響因子。其次,與地質(zhì)條件和人類活動相關(guān)的因子也顯示出較高的影響力。

(3)使用CatBoost 模型時,不對連續(xù)型因子進行分級得到的AUC值為0.866,是預(yù)測效果最好的。簡單分級(如4 或6 級)降低了模型性能。但隨著分級數(shù)的增加到20 級,AUC值有所提高。自然斷點法與等間距法在高分級時性能相近。CatBoost 對連續(xù)型因子處理效果佳,不分級能保留更多信息,減少過擬合風(fēng)險,而簡單分級可能導(dǎo)致信息損失。

(4)SHAP 模型分析的典型數(shù)據(jù)集結(jié)果顯示接近道路和河流的區(qū)域滑坡風(fēng)險增加。高程在20~600 m 區(qū)間的數(shù)據(jù)指示了較高的風(fēng)險,而特定坡向的分析則與區(qū)域性氣候事件相符,暴露了特定方位對滑坡易發(fā)性的潛在影響。

猜你喜歡 易發(fā)滑坡分級 機用鎳鈦銼在乳磨牙根管治療中的應(yīng)用中國藥學(xué)藥品知識倉庫(2022年9期)2022-05-23貴州省地質(zhì)災(zāi)害易發(fā)分區(qū)圖大眾科學(xué)(2022年5期)2022-05-18夏季羊易發(fā)疾病及防治方法今日農(nóng)業(yè)(2021年10期)2021-11-27滑坡推力隱式解與顯式解對比分析——以河北某膨脹土滑坡為例河北地質(zhì)(2021年1期)2021-07-21冬季雞腸炎易發(fā) 科學(xué)防治有方法今日農(nóng)業(yè)(2021年1期)2021-03-19分級診療路難行?中國醫(yī)療保險(2017年6期)2017-07-18淺談公路滑坡治理北方交通(2016年12期)2017-01-15分級診療的“分”與“整”中國衛(wèi)生(2016年5期)2016-11-12基于Fluent的滑坡入水過程數(shù)值模擬水利科技與經(jīng)濟(2016年6期)2016-04-22“監(jiān)管滑坡”比“渣土山”滑坡更可怕山東青年(2016年3期)2016-02-28

推薦訪問:解釋性 建模 滑坡

最新推薦
猜你喜歡