世俱杯规则-虎牙直播-比利亚vs西班牙人-德国杯|www.cnyhmy.com

平衡主線和匝道交通運行的強化學習型匝道控制研究

時間:2023-08-26 17:30:03 來源:網友投稿

章立輝,余宏鑫,熊滿初,胡文琴,王亦兵

(1. 浙江大學 建筑工程學院 智能交通研究所,浙江 杭州 310058;2. 浙江大學 建筑設計研究院有限公司,浙江 杭州 310014;3. 浙江大學 平衡建筑研究中心,浙江 杭州 310014)

為解決高速公路擁堵問題,J.A.WATTLE-WORTH[1]提出了高速公路匝道控制算法;G.GOMES等[2]研究表明匝道控制可有效緩解高速公路擁堵提高通行效率;D.P.MASHER等[3]提出基于需求-容量差的開環控制算法,以下游流量最大化為目標,通過計算匝道上下游的需求容量差來調節匝道入流;M.PAPAGEORGIOU等[4]提出了經典的閉環控制模型ALINEA,通過反饋控制將主線下游車道占有率控制在期望值附近;WANG Yibing等[5]將比例積分微分控制中的積分項引入ALINEA模型中,提出的PI-ALINEA模型能夠更好地應對由于下游瓶頸導致的擁堵;賀敬凱等[6]建立了基于BP神經網絡的入口匝道控制器,仿真實驗發現神經網絡可有效地應用于入口匝道控制;趙明等[7]提出基于迭代學習的入口匝道控制方法,通過數學分析和仿真實驗,證明其在匝道受限條件下仍能保持較好的控制效果;CHEN Jiming等[8]根據收集的8.9億條匝道車輛紀錄構建了動態擁堵閾值,設計了自適應匝道控制方法;CI Yusheng等[9]引進基于小波神經網絡的交通流量預測模型來預測短時交通需求,提高了匝道控制效果;C.JACOB等[10]將強化學習(reinforcement learning, RL)引入匝道控制;王興舉等[11]提出了不完全信息條件下的強化學習型高速公路匝道控制方法,實驗比較了不同合流交通量下的控制效果,發現在交通量較大的情況下控制效果非常明顯;M.DAVARYNEJAD等[12]提出了基于標準Q學習的、考慮匝道排隊長度限制的強化學習匝道控制模型,并證明該模型在長時間合流擁堵的交通場景下有較好的控制效果;K.RAZAEE等[13]采用kNN-TD算法,通過實際交通需求場景的驗證,發現kNN-TD算法可顯著提高匝道控制模型的學習效率,能夠解決更加復雜的大規模匝道控制問題;LU Chao等[14]提出了滿足匝道排隊長度限制的強化學習型匝道控制一般框架,探討了固定交通需求下不同匝道排隊長度限制對匝道控制效果的影響;冉潤東[15]利用深度強化學習動態調整ALINEA模型中的控制參數,形成了同時考慮了合流區域通行效率和匝道排隊長度的DDPG-ALINEA模型,并在實際交通需求場景下進行了驗證;戴昇宏等[16]以視頻圖像為輸入,提出了基于圖像卷積神經網絡的匝道控制深度強化學習模型,在長時間合流擁堵的場景下開展實驗,發現該模型提升了瓶頸疏散效率;ZHOU Yue等[17]針對匝道下游遠距離處存在交通流瓶頸問題,提出了基于Q-learning的匝道控制方法,實驗發現該方法可以減小合流區車流密度的波動;韓靖[18]提出了基于SARSA算法的單匝道控制模型,并將其擴展至多匝道的協調控制,同時引入匝道負荷系數以優化匝道排隊長度。

綜上,一方面,強化學習型匝道控制模型訓練過程中交通需求輸入固定,訓練場景單一,這樣訓練得到的模型的魯棒性可能存在不足;另一方面,匝道控制方法對匝道排隊長度考慮不充分,在對匝道排隊長度進行限制時,或將匝道排隊長度設置為懲罰項,或對匝道最大排隊長度進行限制,設置較簡單,不能隨交通流的變化而動態調整。

筆者提出了一種平衡主線和匝道交通運行的強化學習匝道控制(deep reinforcement learning-based adaptive ramp metering, DRLARM)模型。首先,考慮交通流的動態變化以訓練更為魯棒的自適應匝道控制模型,且在獎勵函數中考慮匝道排隊長度以平衡主線和匝道的交通運行;然后,采用多種評價指標,包括車輛平均行程時間A、車道占有率o、匝道排隊長度W以及匝道損失時間比P等,對比分析了無控制及DRLARM、ALINEA和PI-ALINEA模型控制的控制效果,驗證了DRLARM模型的有效性。

圖1為匝道控制系統構成。圖中,Du為上游交通需求;Dr為匝道交通需求;qd為下游流量。在主線設置了檢測器1、檢測器2、檢測器3,以檢測交通流參數,包括車道占有率o和車速v;在匝道設置了排隊檢測器,以檢測匝道排隊車輛數w。控制單元接收到檢測器的數據后,根據采用的匝道控制模型,計算出下一控制時段匝道信號燈的具體配時方案。

圖1 匝道控制系統構成Fig. 1 Configurations of ramp metering system

強化學習作為解決序列決策問題的重要方法,賦予智能體自監督學習能力,能夠自主與環境進行交互,通過獲得的獎勵不斷修正策略[19]。深度學習通常由多層非線性運算單元組合而成,從大量訓練數據中學習抽象的特征表示,以發現數據的分布式特征[20]。而深度強化學習通過整合深度學習和強化學習的力量,為順序決策提供了一個通用和靈活的框架,可用于解決交通控制和規劃問題[21]。筆者基于深度強化學習中的競爭結構深度雙Q網絡(Dueling-DDQN)提出了DRLARM模型。

2.1 基于競爭結構的深度雙Q網絡

Dueling-DDQN是強化學習Q-learning算法和深度學習結合后的改進算法。當需要處理的問題較為復雜、狀態動作空間維度較大時,Q-learning算法往往會嚴重受限。因此,引入了DQN算法[22]來克服這一缺點。DQN算法利用一個深度學習網絡,得到Q值的近似值,為強化學習應用復雜工程環境提供可能[23]。但是,DQN算法也有不足,例如:過估計,即如果對Q值的高估不均勻,便會導致采取錯誤的最優策略[24]。為解決這一問題,H.van HASSELT等[25]提出了深度雙Q網絡(DDQN)算法,其結構如圖2。

圖2 DDQN算法框架Fig. 2 Framework of DDQN algorithm

交通控制問題可能存在許多具有相似價值的決策動作,此時難以比較Q值大小,從而影響算法穩定性。WANG Ziyu等[26]提出以競爭網絡結構Dueling-(DQN)為主要網絡結構,將輸出Q值的Q值函數分解為狀態價值函數和動作優勢函數,即

Q(st,at)=Vs(st)+Va(st,at)

(1)

式中:Q(st,at)為當前狀態動作下的Q值函數;Vs(st)為當前狀態下狀態價值函數;Va(st,at)為當前狀態動作下的動作優勢函數。

在相同狀態下,估計智能體采取不同動作時產生Q值,狀態價值函數Vs(st)不受動作影響,而動作優勢函數Va(st,at)在不同動作下會發生改變,這有助于提高模型的穩定性。基于競爭結構的深度雙Q網絡便是將DDQN和Dueling-DQN兩種算法結合,同時具有兩者的優勢。

對于匝道控制問題,在模型訓練過程中,訓練環境可能長時間處于相似的交通狀態,導致采集的樣本分布不均衡,使Q值過估計;同時,匝道控制的效果受到交通環境和控制措施的共同影響。因此,筆者將基于競爭結構的深度雙Q網絡運用于解決匝道控制問題。

2.2 深度強化學習智能體設計

2.2.1 狀態選擇

狀態變量用于反映環境的變化。選擇車道占有率o、車速v、匝道排隊車輛數w作為基本狀態變量,即[o1,v1,o2,v2,o3,v3,w],其中,下標1、2、3表示數據來自圖1中檢測器1、檢測器2、檢測器3。如果智能體僅根據流密速參數采用相同的動作或者控制參數,則可能產生截然相反的控制效果,即擁堵加劇時,車道占有率將不斷增大,此時應該延長匝道信號的紅燈時間以利于主線交通;擁堵逐漸消散時,應縮短匝道信號的紅燈時間讓更多的匝道排隊車輛通行。因此,引入車道占有率變化,即[o1-o1′,o3-o3′]來表示變化趨勢,其中o1′、o3′分別為上一控制周期檢測器1、檢測器3測得的車道占有率。如圖3中i點,當擁堵越發嚴重時,曲線往ic方向發展;當擁堵逐漸消散時,曲線往iuc方向發展。可見,流密速參數相同,交通狀態改變趨勢卻可能不同。最終,確定狀態空間為[o1,v1,o2,v2,o3,v3,w,o1-o1′,o3-o3′]。

圖3 交通狀態示意Fig. 3 Schematic diagram of traffic state

2.2.2 動作選擇

通過改變匝道信號配時來調節匝道交通流的入匝率。控制信號燈時長一般有3種形式:“一車一綠燈”“多車一綠燈”及“全信號周期”[27]。為了減少大車隊換道對主線交通的負面影響,筆者采用“一車一綠燈”的信號燈控制形式,即固定綠燈時長為2 s(一輛車通過所需時長),改變紅燈時長來調節進入主線的車輛數。紅燈時長從集合{0,1,2,3,5,8,18}(單位:s)中選擇,由于綠燈時長2 s固定,由此可知,允許最大入匝流量分別為{1 800,1 350,1 000,800,600,400,200}(單位:veh/h)。

2.2.3 獎勵函數設置

在自適應匝道控制模型中,考慮動態調整排隊長度限制以控制匝道車輛的損失時間。首先,引入匝道損失時間比P來評價匝道排隊限制措施的優劣:

(2)

式中:tr為匝道車輛損失時間,s;tt為所有車輛總損失時間,s。

實現匝道排隊限制自適應調整的目的是,在交通流條件變化時兼顧主線和匝道的損失時間,使匝道損失時間比值保持相對穩定。

當道路擁堵時,總行程時間最小化的目標可轉換為使主線的車道占有率接近期望占有率[28],即min(ob-oc)2,其中,oc為期望車道占有率,ob為主線瓶頸位置的車道占有率,即檢測器2測得的車道占有率o2(ob=o2)。所以,設第k個周期與總體通行效率相關的獎勵Re(k)為

Re(k)=-(ob,k-oc)2

(3)

式中:ob,k為第k個周期主線瓶頸位置的車道占有率,%。

第k個控制周期內所有車輛總損失時間tt,k可由式(4)得到[29]:

tt,k=T[T(Du,k+Dr,k-qd,k)+Nk-1]

(4)

式中:T為控制周期時長,T=20 s;Du, k、Dr, k分別為第k個周期內上游、匝道的交通需求,veh/h;qd,k為第k個周期內下游流出流量,veh/h;Nk-1為第k-1個周期系統內的總車輛數,veh。

因此,第k個周期內所有車輛總損失時間可寫為

tt,k=T[T(Du, k+Dr, k) +Nk-1] -T2qd,k

(5)

根據流量守恒定律,下游流出流量即檢測器2所測主線通過流量,由Greenshields模型可得:

(6)

式中:α為比例系數;vf為自由流車速,km/h;ob, k為第k個周期主線瓶頸位置的車道占有率,%。

聯立式(5)、式(6)可得:

(7)

式(7)中,除ob, k之外其他參數在第k個周期均為定值,因此tt, k可以看作關于ob, k的一元二次函數。

第k個周期內匝道車輛損失時間tr,k可以通過第k個周期內匝道排隊車輛數wk獲得,即

tr,k=Twk

(8)

聯立式(7)、式(8),第k個周期內匝道車輛損失時間比Pk為

(9)

由式(9)可見,Pk與wk、1/ob,k2正相關。考慮到交通流暢通時,1/ob, k2值可能會非常大,因此,在強化學習獎勵函數中增加第k個周期的排隊懲罰項Rc(k):

(10)

式中:β為懲罰權重系數。

在主線擁堵時,懲罰項傾向于增加匝道排隊長度限制,優先保障主線運行;在主線不擁堵時,保持匝道排隊長度限制不變(oc固定),從而不會導致匝道排隊懲罰過大。在交通擁堵變化情況下,智能體會及時調整匝道排隊長度。

結合式(3)、式(10),最終第k個周期獎勵函數R(k)如式(11):

R(k)=Re(k)+Rc(k)=-(ob,k-oc)2-

(11)

3.1 DRLARM模型訓練過程

3.1.1 仿真設計和參數設置

采用微觀仿真來訓練匝道控制模型,以期更真實地反應交通流運行。微觀仿真平臺選用SUMO。選取杭州繞城高速三墩互通段搭建仿真路網,主線為2車道,合流區長度約200 m,道路線形如圖4。

圖4 仿真路網道路線形Fig. 4 Simulated road network road alignment

SUMO中車輛的跟馳模型為Krauss模型,使用默認參數;換道模型為LC2013模型,由于原參數較為保守,為表達合流區車輛的換道沖突,修改了部分換道參數,修改后得到道路通行能力約為4 900 veh/h,期望車道占有率為15%。關鍵的深度強化學習算法參數和車輛駕駛行為參數設置見表1。

表1 強化學習算法參數和車輛駕駛行為參數

3.1.2 兩階段訓練

筆者將DRLARM模型的訓練過程分為2個階段:

第1階段為單一場景訓練階段,在某一固定交通流場景下訓練出一套基本的強化學習控制模型。場景又分為下游有瓶頸時段和下游無瓶頸時段,主要通過改變下游最高限速vd來實現,當vd=100 km/h時,表示下游無瓶頸;當vd=30 km/h時,表示下游有瓶頸。第1階段訓練,設置訓練輪數E= 300輪(每一訓練輪數即為一次完整仿真,包含300個仿真動作步長)。圖5為第1階段訓練輸入交通需求D及模型總獎勵R值曲線。可見,單一場景訓練收斂較快,大約在E= 50輪,經歷約1.5萬步后基本實現收斂,此后總獎勵一直處于震蕩狀態。

圖5 第1階段輸入交通需求及總獎勵曲線Fig. 5 Traffic demand and total reward curve input during the first period

第2階段為多場景訓練階段,設計多種不同的交通流場景,不同訓練輪數E加載不同的交通流場景開展循環訓練。第2階段訓練時,保持下游無瓶頸和下游有瓶頸2種情況,筆者構造了短時輕擁堵、長時輕擁堵、短時重擁堵及長時重擁堵共4種訓練場景。4種訓練場景高峰擁堵時長t′peak、下游無瓶頸時高峰總需求Dpeak1、下游有瓶頸時高峰總需求Dpeak2見表2。第2階段訓練設置訓練輪數E=1 000輪。

表2 第2階段4種訓練場景交通需求參數

不同交通需求對匝道控制下車輛平均行程時間影響不同,依次循環輸入4種訓練場景,第2階段各訓練場景下的車輛平均行程時間A的變化情況如圖6。由圖6可見:

圖6 第2階段4種訓練場景的車輛平均行程時間曲線Fig. 6 Average travel time curves under 4 kinds of training scenarios during the second period

1)隨著訓練輪數E的增加,4種訓練場景車輛平均行程時間的平均值曲線震蕩逐漸減小,有明顯收斂趨勢,但收斂速度較慢,在E≈ 800輪時,即24萬步后基本收斂。

2)車輛平均行程時間收斂速度,以訓練場景2、訓練場景4下降較為明顯,訓練場景3下降有限,而訓練場景1前后幾乎沒有變化,原因可能是,第2階段訓練的訓練場景1與第1階段訓練的單一訓練場景相差不大,模型在該場景下已達到最佳性能。

3.2 不同匝道控制模型比較

為了驗證筆者提出的DRLARM模型的有效性,選擇了4種控制模型進行對比。

第1、2種模型為經典匝道控制模型——ALINEA模型、PI-ALINEA模型,通過閉環控制,利用反饋得到的占有率誤差來動態調整匝道的流量。模型匝道流出量見式(12)、式(13):

ALINEA模型:

qr,k=qr,k-1+Kr(oc-ob,k)

(12)

PI-ALINEA模型:

qr,k=qr,k-1+Kr(oc-ob,k)-Kc(ob,k-1-ob,k)

(13)

式中:qr, k為第k個周期匝道流出量,veh/h;Kr和Kc為控制參數,根據經驗設置Kr= 4 km·lane/h,Kc= 20 km·lane/h。

第3種模型——RL1模型,其框架與筆者提出的DRLARM模型相同,只是改變了獎勵函數,為R=-(ob-oc)2-βw,即匝道排隊限制不會隨著交通狀態的改變而改變。

第4種模型——RL2模型,其與DRLARM模型的不同在于RL2模型采用單一固定的交通流場景進行深度強化學習訓練,用以驗證DRLARM模型的魯棒性。

表3為筆者提出的DRLARM模型,以及第3、4種模型的功能設置的區別匯總。

表3 3個強化學習模型區別

表4 不同測試場景下的交通需求輸入

3.3 效率指標分析

3.3.1 車輛平均行程時間A

5種控制模型及無控方案NC在不同測試場景下獲得的車輛平均行程時間A仿真結果如圖7。由圖7可見:

圖7 不同測試場景下車輛平均行程時間變化Fig. 7 Variations of average travel time under different test scenarios

1)總體來說,測試場景19~場景36的平均行程時間A要明顯高于測試場景1~場景18的,即下游存在瓶頸造成的交通延誤比交通需求超過道路通行能力(下游無瓶頸)產生的交通延誤更嚴重。

2)在所有測試場景下,幾種模型控制及無控制下車輛平均行程時間A由小到大排序為:ADRLARM

3)無論何種模型控制,當總需求D不變時,上游交通需求Du占比越大,車輛平均行程時間A越小。究其原因,上游交通需求越大則匝道需求越少,匝道控制模型更傾向于減少賦予匝道的通行時間,這樣就減少了對主線車輛通行的影響。由于主線交通量明顯大于匝道交通量,受益車輛顯著大于受損車輛,因此,整體運行效率得到提高。

表5 各模型下平均行程時間的平均值

3.3.2 主線車道占有率o

圖8分別為下游無瓶頸(選擇測試場景14)和下游有瓶頸場景(選擇測試場景32)下無控、ALINEA模型和DRLARM模型實施后,車道占有率o的時空變化。圖8中縱坐標y=0點為合流點位置,y為“+”代表合流點下游,為“-”代表合流點上游。圖中自上而下分別為無控、ALINEA模型控制和DRLARM模型控制。

圖8 下游有/無瓶頸下車道占有率時空變化Fig. 8 Temporal and spatial variations of lane occupancy ratio with and without bottlenecks downstream

由圖8可見:

1)無控制措施時,無論下游有無瓶頸,主線均出現了嚴重擁堵,擁堵發生在合流區,持續時間約t≈5 000 s。比較而言,當下游存在瓶頸時,主線擁擠更嚴重。

2)ALINEA、DRLARM模型均極大地緩解了主線擁堵,控制實施后車道占有率明顯降低。

3)無論下游是否存在交通瓶頸,ALINEA模型總是將車道占有率保持在臨界占有率附近,而DRLARM模型由于額外考慮匝道排隊的限制,車道占有率可能長期保持略高于期望占有率。

4)下游無瓶頸場景,ALINEA模型控制時,主線出現連續短時排隊的情況;下游有瓶頸場景,ALINEA模型控制時,下游交通瓶頸處擁堵緩解效果不如DRLARM模型。

綜上,與ALINEA模型相比,DRLARM模型既提高了總體通行效率,又減少了主線交通流的波動。

3.4 匝道指標分析

3.4.1 匝道排隊長度W

圖9為不同模型控制及無控制下,36種測試場景中的匝道排隊長度W(仿真時間內匝道排隊車輛數w的平均值)。

圖9 不同測試場景下匝道排隊長度Fig. 9 Average ramp queuing lengths under different test scenarios

由圖9可見:

1)測試場景19~測試場景36的匝道排隊長度W小于測試場景1~測試場景18的,原因是前者的交通需求相對較小。

2)所有測試場景下,各種控制模型的匝道排隊長度W由大到小的排序為:WALINEA>WPI-ALINEA>WDRLARM>WRL2>WRL1>WNC,說明DRLARM模型相比于ALINEA和PI-ALINEA模型,能有效降低匝道排隊長度。

3)若降低路段車輛平均行程時間A,則路段平均行程時間的匝道控制策略伴隨著匝道排隊長度W的上升而下降,表明匝道排隊長度W和路段平均行程時間A之間呈負相關。

表6 各模型控制下匝道排隊長度平均值

圖10為下游無瓶頸場景〔圖8(a)〕下,ALINEA、DRLARM模型仿真得到的匝道排隊車輛數w的變化曲線。

圖10 下游無瓶頸下匝道排隊車輛數曲線Fig. 10 Curve of the number of vehicles queuing on the ramp without bottleneck downstream

由圖10可見:DRLARM模型的匝道排隊車輛數峰值wpeak比ALINEA模型的低。在擁堵形成階段,由于考慮了交通狀態的變化趨勢,DRLARM模型較早開始抑制入匝流量,從而減少了對主線的負面影響,所以,DRLARM模型控制下匝道排隊車輛數早期增長較快;在擁堵消散階段,DRLARM模型控制下匝道排隊車輛數較早下降,從而,匝道車輛可以較快疏散。

3.4.2 匝道損失時間比P

圖11為下游無瓶頸場景,不同需求分布下(隨機選擇測試場景1~測試場景18),DRLARM、ALINEA和RL1模型分別經過50次仿真得到的匝道損失時間比P。

圖11 不同交通需求下匝道損失時間比Fig. 11 Ramp loss time radio under different traffic scenarios

由圖11可見:

1)3種模型的匝道損失時間比P的排序為:PALINEA>PDRLARM>PRL1,這與各模型控制下匝道車輛平均排隊長度的變化相吻合。

2)在不同交通需求分布下,ALINEA、RL1、DRLARM模型控制的匝道損失時間比P變化幅度分別為0.129、0.128、0.048,DRLARM模型的最小,表明DRLARM模型控制下匝道損失時間比相對很穩定,魯棒性較強。

綜上,筆者提出的DRLARM模型能夠隨著交通狀態的變化動態平衡匝道損失時間和主線損失時間,不會過多犧牲匝道車輛或主線車輛,確保路權公平性,也使得匝道損失波動較小。

針對現有高速公路匝道控制方法存在的魯棒性不足和匝道排隊失衡問題,結合Dueling-DDQN深度強化學習算法,開發了一種魯棒自適應匝道控制模型DRLARM;通過對主線和匝道交通流的分析,構造了同時考慮主線交通和匝道排隊的獎勵函數,其兼顧通行效率和路權公平性;采用兩階段訓練方法,得到了魯棒自適應控制模型;首次提出用匝道損失時間比來衡量控制方法的路權公平性;選取平均行程時間、車道占有率、匝道平均排隊長度和匝道損失時間比作為評價指標,將DRLARM模型與無控、ALINEA模型、PI-ALINEA模型進行仿真比較。研究得到以下主要結論:

1)DRLARM、ALINEA和PI-ALINEA模型中,DRLARM模型的車輛平均行程時間最低,表明DRLARM模型提升通行效率的效果最好。

2)DRLARM模型可有效平衡匝道車流和主線車流的損失時間,提高路權公平性。

3)采用混合多場景開展模型訓練可有效提高DRLARM模型的魯棒性。

猜你喜歡占有率主線匝道山東首套ETC匝道準自由流預交易系統正式運行中國交通信息化(2022年7期)2022-10-27高速公路出入口匝道控制系統研究中國交通信息化(2020年4期)2021-01-14數據參考現代家電(2019年21期)2019-12-28人物報道的多維思考、主線聚焦與故事呈現活力(2019年17期)2019-11-26更加突出主線 落實四個到位 推動主題教育取得實實在在成效當代陜西(2019年15期)2019-09-02淺談匝道ETC自由流應用中國交通信息化(2018年11期)2018-03-01數字主線中國計算機報(2017年44期)2017-12-11微軟領跑PC操作系統市場 Win10占有率突破25%電子技術與軟件工程(2017年4期)2017-03-27滁州市中小學田徑場地現狀調查與分析少年體育訓練(2015年7期)2015-12-059月服裝銷售疲軟中國服飾(2014年11期)2015-04-17

推薦訪問:匝道 主線 學習型

最新推薦
猜你喜歡