世俱杯规则-虎牙直播-比利亚vs西班牙人-德国杯|www.cnyhmy.com

融合時空特征的視覺自動駕駛強化學習算法

時間:2023-07-09 16:15:02 來源:網友投稿

楊 蕾,雷為民,張 偉

1(東北大學 計算機科學與工程學院,沈陽 110819)2(阿里巴巴集團 達摩院自動駕駛實驗室,杭州 310000)

自動駕駛任務尤其是在復雜的城市環(huán)境中是一個充滿挑戰(zhàn)性的問題.其挑戰(zhàn)主要來自2個方面:原始的傳感器數(shù)據(jù)維度高,提取有效合理的特征完成對環(huán)境信息的表示是關鍵;
另一個方面自動駕駛訓練數(shù)據(jù)往往是車輛正常行駛的視頻而極少包含非正常行駛的視頻,樣本分布不均衡,使得算法帶有偏差,泛化性差.

在自動駕駛環(huán)境特征提取方面,使用圖像作為輸入的自動駕算法[1-5]駛取得了突破性的進展.這些研究都是把圖片作為輸入,經過深度神經網絡抽取特征.但是,圖像只是對環(huán)境的一個空間表示I,丟失了時間維度,而時間維度對于運動的理解至關重要.因此融合時空特征的視覺自動駕駛強化學習算法(簡稱STRLAD)嘗試在圖片的基礎上增加時間維度的考慮,把神經網絡在視頻領域的方法引入到自動駕駛領域,完成對環(huán)境時空特征的抽取.前期的生物感知運動研究[6]結果表明人類的視網膜對于環(huán)境的空間和時間敏感度不同,在一個極小時間Δt里圖像相對靜止,環(huán)境(感知)的變化相對于運動的變化明顯慢很多.受到SlowFastNetwork[7]的啟發(fā),STRLAD算法的雙流網絡由2個深度網絡分支組成:針對圖像理解的感知網絡和針對運動感知的運動網絡.與SlowFastNetwork[7]相比,雙流網絡架構不同:感知網絡保持高分辨率而運動網絡對分辨率和特征維度都進行壓縮.同時,視頻的感知特征和運動特征不是孤立的,受圖像注意力機制[8,9]啟發(fā),雙流網絡的各個特征層(除第1層)進行相互注意力學習,更準確感知復雜場景中的物體和運動.

在自動駕駛算法方面,常用的算法分為仿生學習(Imitation Learning)算法和深度強化學習(Deep Reinforce Learning)算法.仿生學習從某種角度上可以看做是一種監(jiān)督學習,其目標是通過深度神經網絡去擬合專家的行為.然而,采集的自動駕駛數(shù)據(jù)往往包含大量的正樣本和極少的負樣本,造成樣本的不均衡.仿生學習的算法容易受到數(shù)據(jù)分布偏差的影響,當碰到沒有見過的場景時,算法往往會采取錯誤的操作,而錯誤的操作又會進一步導致沒有遇到的場景.近幾年,在自動駕駛中常用的另一類算法是深度強化學習算法.深度強化學習算法是在不斷試錯過程中學習的一類算法.在深度強化學習框架中,代理(Agent)通過與環(huán)境的交互,獲取對應獎勵(Reward),其最終目標是學習策略π使得最終的累積獎勵最高.由于獎勵只是間接影響算法的決策,所以深度強化學習算法不會受到數(shù)據(jù)樣本比例不平衡的影響.因此,STRLAD算法采用強化學習算法,設計合理的獎勵函數(shù),最終產出行為策略.

STRLAD算法的整體框架如圖1所示和算法1所示,以視頻作為輸入,通過雙流網絡提取特征并融合,然后輸入到強化學習算法Soft Actor-Critic(SAC)進行學習.STRLAD算法的貢獻如下:1)提出雙流網絡,完成對環(huán)境的時空特征提取;
2)使用雙流網絡的特征,進行強化學習算法嘗試;
3)通過實驗證明其有效性,在CARLA[2]測試中,STRLAD算法能夠在復雜擁堵的城市環(huán)境中完成自動駕駛任務,成功率達到89%.

圖1 STRLAD算法整體流程圖Fig.1 Overall flowchart

2.1 時空特征

在圖像領域,CNN一直占據(jù)著主導地位,從早期的AlextNet[10]、VGG[11]、ResNet[12]到ConvNeXt[13]已成為圖像特征提取的基礎網絡.然而,視頻本身包含圖像和時間兩個維度的信息.近幾年,隨著深度基礎網絡的發(fā)展,視頻時空特征挖掘方面有了很大的發(fā)展.在2D網絡結構中包含:Deep-Video[14]、TwoStreamNet[15]和TSN[16]及其擴展;
在3D網絡結構中包含:C3D[17]、I3D[18]及其擴展;
在視頻注意力算法(Transformer)領域包含:TimesTransformer[19]和ViT[20]等.STRLAD的雙流網絡受到TwoStreamNet和SlowFastNetwork的啟發(fā),與兩者相比網絡結構和輸入均不同,雙流網絡輸入包含RGB圖片和連續(xù)灰度圖,主干網絡(Backbone)采用改進的ResNet34網絡結構.

在視頻的時間維度特征研究中,光流表示圖像幀之間像素的變化.經典的Lucas光流算法[21]被集成到OpenCV庫中得到廣泛的應用.然而,光流的大幅度變化(比如建筑物的光照變化)與車輛的控制并沒有太大的關系.因此STRLAD算法的雙流網絡注重學習與自動駕駛有關的特征,與直接使用光流特征不同.

注意力機制[22]能夠強化與任務相關的特征權重,前期在NLP領域取得成功,近幾年注意力機制在圖像和視頻領域也取得了很大的發(fā)展,從早期的SqueezeNet[23],Non-Local[24]到Transformer網絡.STRLAD算法的雙流網絡網絡通過注意力機制融合運動和感知兩個特征,為自動駕駛提供更好的特征表示.

2.2 強化學習和深度強化學習

強化學習的發(fā)展最早可以追溯到1953年,應用數(shù)學家 Richard Bellman提出動態(tài)規(guī)劃數(shù)學理論和方法,其中的貝爾曼條件(Bellman condition)是強化學習的核心基石之一.1988年,TD算法[25]誕生,1989年Watkins提出Q學習[26],1994年Rummery提出Saras算法[27].后續(xù)強化學習慢慢發(fā)展起來,但是由于一直無法解決感知(Perception)問題,導致其無法很好求解復雜環(huán)境下的決策問題,使得強化學習這一具備決策能力的算法,并沒有被引起廣泛的關注.但在2012前后,隨著深度學習技術的出現(xiàn)(以Krizhevsky 等人為代表的AlexNet),促使計算機視覺,自然語言處理,語音識別等領域出現(xiàn)爆炸式的技術進步,深度學習也由此成為人工智能領域最熱門的關注點之一.強化學習也得益于深度學習的快速發(fā)展,迎來新的突破,通過結合深度學習方法,很好地解決了一直困擾強化學習的感知問題.通過將強化學習的決策能力結合深度學習的感知能力,從而實現(xiàn)從感知到決策的端對端學習(End-to-End Learning).現(xiàn)在強化學習主要指的也就是深度強化學習(Deep Reinforcement Learning,簡稱DRL).

強化學習算法根據(jù)環(huán)境模型是否已知分為Model-Free算法和Model-Base算法.Model-Free具有通用性,具體又可以分為基于策略梯度優(yōu)化(Policy)的算法,A2C/A3C[28]、PPO[29]和TPRO[30];
基于價值估計的算法(Q-Learning)的算法DQN[31]、C51[32]、QR-DQN[33]和HER[34]等.基于Policy的算法是對策略進行直接學習,算法相對穩(wěn)定.基于Q-Learning的算法評估狀態(tài)價值(滿足Bellman等式)間接用于優(yōu)化動作的選取,所以穩(wěn)定性相對較差,但是Q-Learning算法可以對數(shù)據(jù)進行重用,數(shù)據(jù)利用率高.基于Policy算法和Q-Learning算法并不是互斥的,可以通過Q-Learning算法評估動作的好壞,再通過梯度優(yōu)化策略使得策略價值最大,常見的算法:DDPG[35]、TD3[36]和SAC[37]等.SAC引入熵的概念,平衡策略探索和利用已學策略,因此,STRLAD算法模型中選擇SAC算法作為強化學習的主體框架.

Model-Base的算法是已知環(huán)境模型的算法,算法從某種角度上是一個動態(tài)規(guī)劃問題或者逐步優(yōu)化的問題,常見算法包括:蒙脫卡洛樹算法(MCTS)等,不是本文討論的重點.

2.3 仿生學習

仿生學習(Imitation learning,簡稱IL)是一種仿生學方法,該方法把傳感器的原始輸入直接映射到最終的動作,是一種端對端的學習方式.早期自動駕駛網絡[38]和避障網絡[39]使用攝像頭作為輸入,使用神經網絡相關動作進行預測.CIL[40]使用高層轉向指令消除自動駕駛車輛在路口的歧義性,開啟了導航的一個新的階段.多任務預測導航算法[4]通過增加預測圖像深度和圖像分隔任務,使得模型有更好的泛化能力.CILRS[41]增加對速度的預測,同時探索自動駕駛的一些限制.LBC[42]是一種知識蒸餾的方法,提出"老師"和"學生"雙網絡結構,通過"老師"網絡優(yōu)化"學生"網絡,取得很好的效果.嘗試多模態(tài)的融合[43]研究,證明早期的融合有助于特性的學習.與STRLAD雙流網絡類似的多模算法[44]融合圖像和雷達兩種模態(tài),模態(tài)之間使用注意力機制,而雙流網絡關注視頻時空特征的挖掘,模態(tài)和網絡主干都與之不同.

2.4 自動駕駛中的深度強化學習

CIRL[5]使用錄制的視頻和車輛操作記錄進行仿生學習,首先通過仿生學習訓練特征提取網絡,然后使用訓練好的網絡提取特征,再使用DDPG算法進行強化學習,是最早在CARLA環(huán)境下使用強化學習的算法.MDRL[45]把圖像的輸入映射為鳥瞰圖(Bird′s Eye View),通過神經網絡對鳥瞰圖進行編碼,然后分別嘗試DDQN、TD3和SAC算法,其中SAC算法效果最好.IAs[46]使用ResNet18進行特征提取,然后使用Rainbow-IQN框架進行強化學習.GRIAD[47]提供一個通用的端對端的視覺自動駕駛框架,分為感知編碼模塊和強化學習模塊,其中感知模塊進行圖像分隔和分類模型的訓練,然后凍結感知模塊權重作為編碼層,編碼的特征與專家特征進行混合后使用Rainbow-IQN進行訓練.這些研究都是通過特征網絡進行圖像空間信息特征的提取和壓縮,然后進行深度強化學習.STRLAD算法整體框架與之類似,雙流網絡重點挖掘時空結合的特征,然后凍結雙流網絡參數(shù)進行特征提取,最后使用SAC算法進行強化學習.

3.1 問題設定

(1)

(2)

STRSAD算法整體框架分為2個步驟,首先訓練雙流網絡用于特征提取,其次通過SAC強化學習進行策略學習,具體如算法1所示.

算法1.STRLAD模型算法

輸入:訓練數(shù)據(jù)集D

輸出:策略網絡π*(s,a)∈A

//訓練雙流網絡提取特征,見3.2節(jié)

Datad←

FunctionFitForward(Datad)→F(o,θd)

Minimize Equation(3)

ReturnFθd

End

//強化學習算法訓練,見3.3節(jié)

Repeat

D←Store(s,a,r,s′,d)//d表示任務是否結束

Forbatch∈Ddo

Compute Q Equation(10)

Update Policy Equation(12)

End for

Until Convergence

3.2 雙流網絡

雙流網絡是一個端對端的深度網絡,如圖2所示兩個網絡分支:感知網絡和運動網絡通道數(shù)量之比與感知細胞與運動細胞之比(8∶1 的通道數(shù)量)相同,并使用注意力進行特征融合,完成對周圍環(huán)境的特征表示,是算法的核心和創(chuàng)新點.

圖2 雙流網絡結構圖Fig.2 Dual stream network structure

(3)

其中F是以θd為參數(shù)的卷積神經網絡,Wi表示航點,L表示損失函數(shù).

任務的每一幕(Episode)都有一個目的地Dg={Ci,…,Cm},Ci表示車輛在路口的具體轉向方向,消除路口的歧義性,在CIL[40]以及后續(xù)研究中也證明其重要性,網絡輸入表示為:Oi={I,C,V}i,I表示圖像輸入,V表示車輛速度,C表示路口轉向指令.

雙流網絡從車輛的前置攝像頭獲取視頻輸入.感知網絡以T的采樣率獲取RGB圖片作為輸入,標記為Irgb←T.運動網絡以αT采樣率獲取灰度圖作為輸入,標記為Igrey,兩者比例為Irgb=αIgrey,經過實驗驗證α=8,T=3結果最優(yōu)—即感知網絡每秒采集3張彩色圖片,運動網絡每秒采集3×8張灰度圖.車輛的速度采用基于車輛儀表盤顯示的速度并做歸一化,0表示靜止,1表示最大速度.雙流網絡最終輸出預測的航點.

雙流網采用RestNet34作為主干網絡并做重要改進,具體結構如表1所示.

表1 雙流網絡詳細結構圖Table 1 Detailed structure of the dual stream network

感知網絡從階段3開始殘差模塊中的步長均為1,保持分辨率不變,輸出特征向量Po.運動網絡考慮物體運動的整體性,通道數(shù)縮小8倍,分辨率降為原圖片的1/32,輸出特性向量Mo.

注意力機制[22]完成網絡特征融合.假設兩個特征:F1∈Rn×d,F2∈Rm×d,其中n,m,d代表不同的維度F1與F2做注意力學習的前提是兩者向量維度d相同.Q是F1對應的向量,K,V是F2的對應的特性向量,兩者注意力如等式(4)所示:

(4)

最后,雙流網絡整合兩個分支網絡特征,疊加車輛自身的速度輸出512維度的特征向量.考慮到路口轉向指令,形成互斥的左轉、向前和向右3個分支.

雙流網絡采用L1損失函數(shù)回歸速度和航點.V和V*表示真實的航點和預測的航點,損失函數(shù)表示等式(5)為:

(5)

3.3 強化學習算法

STRLAD算法采用SAC算法作為強化學習的主體.SAC算法是增加熵的離線隨機策略強化學習算法.SAC算法最主要的特性就是使用正則化熵,使得訓練的策略能夠平衡累計獎勵和熵,防止模型局部最優(yōu).熵表示的是變量的隨機性,熵增大使得模型增加對新動作的探索能力,反之則減少.

SAC算法的目標是找到累計價值最大的策略等式(6)如下:

(6)

π*表示學習的最優(yōu)策略,τ表示在策略π的一幕(episode)中所有步驟,γ表示獎勵折扣系數(shù),R表示獎勵函數(shù),α是熵系數(shù)也成為溫度值,H表示在狀態(tài)s下策略π選擇的動作的熵.

SAC算法的價值函數(shù)Q如等式(7)所示:

Qπ(s,a)≈r(s,a,s′)+γ(Qπ(s′,a′)-αlogπ(a′|s′))

(7)

其中s′表示下一個狀態(tài),a′表示下一個動作.價值網絡的訓練使用的損失函數(shù)如等式(8)所示:

L(φi,D)=E(s,a,r,s",d)~D[(Qφi(s′,a′)-y(r,s′,d))2]

(8)

其中:

(9)

有了價值函數(shù)Q,策略的學習就是最大化價值與熵之和,等式(10)如下:

Vπ(s)=Ea~π[Qπ(s,a)-αlogπ(a|s)]

(10)

其中的動作a使用高斯策略如等式(11)所示:

aθ(s,ξ)=tan(μθ(s)+σθ(s)·ξ),ξ~N(0,I)

(11)

最終的策略計算如等式(12)為:

(12)

STRLAD算法的SAC算法模型包含1個策略網絡和2個價值網絡,其輸入都是在雙流網絡的主干網絡上增加512到64的稠密層.價值網絡Q的輸出是一個標量,策略網絡輸出動作的均值和方差.

獎勵函數(shù)的計算使用CARLA環(huán)境的航點信息.通過CARLA的API能夠獲得當前環(huán)境中所有車道的連續(xù)路徑點位置和方向,這些信息提供車輛和周圍環(huán)境的準確描述.獎勵函數(shù)包含:車輛的速度rv、車輛的位置rp和車頭的角度ra,如等式(13)所示:

R(s,a)=rv+rp+ra

(13)

車輛的速度rv是車輛當前速度與期望速度的差值,取值范圍為[0-1],當車輛在紅燈或者即將與其他車輛發(fā)生碰撞,車輛的期望速度會調整為0,對應的懲罰值也會改變,訓練時采用的速度為30km/h.車輛的位置rp的計算依賴車輛當前的位置與車道中心位置的差值,取值范圍為[-2,2],2表示與期望的航點位置無偏差,-2表示車輛與車道中心航點的偏差超過2m.車頭的角度ra是車頭朝向與車輛正確角度(車道中心位置的航點)的偏差值的計算,取值范圍為[-1,0],0表示無偏差,-1代表最大偏差,如果沒有車頭角度的獎勵,車輛不能正常行走,經常沖出車道.在訓練階段,使用Adam優(yōu)化器,學習速率為3×10-4.

本章介紹實驗的建立,結果的對比和相關消融實驗.

4.1 實驗設置

STRLAD算法的訓練和驗證在CARLA0.9.12中的8個城市中完成,其中城市[1-4,6-8]中的地圖中包含的場景相對單一有助于算法的訓練,城市5是一個包含十字路口、橋梁和多個車道相對復雜的方格城鎮(zhèn)地圖,適合算法性能測試.每個城市產生隨機的100個行人和70個車輛.每個任務由開始和結束坐標(GPS)組成,車輛在規(guī)定時間內無碰撞的到達目的地表示任務成功,否則表示失敗,如果違反紅綠燈規(guī)則但是并沒有造成碰撞也表示成功.車輛在行駛過程中,參照CILRS[41]增加轉向噪音,增強數(shù)據(jù)的泛化行.采集的數(shù)據(jù)包含車輛正面的攝像頭RGB視頻數(shù)據(jù)(20HZ),傳感器數(shù)據(jù)包括:速度、導航指令、航點、車輛位置、車頭角度、油門、剎車和加速度等.考慮到實驗的目標是檢測車輛在復雜多物體的環(huán)境中自動駕駛的性能,去除了天氣條件的影響,只使用Clear Noon天氣.模型的評估在城市5中進行,總共設置10個子任務,每個任務包含任務的起始點和轉向指令,行駛長度1000-2000m并在預定位置隨機產生100個行人和70輛車.評估的指標包含任務完成率RC、碰撞率Col和超時率(Time Out,簡稱TO).

算法的對比只選擇以圖像作為輸入,除LBC[42]以外都采用強化學習算法.LBC是一種仿生學習算法是目前NoCrash數(shù)據(jù)集的最好算法,最新版本中增加圖像熱力圖改進其性能,在STRLAD訓練數(shù)據(jù)集上進行了復現(xiàn).MDRL[45]把圖像轉化為鳥瞰視圖,通過深度神經網絡進行圖像編碼,然后進行強化學習.IAs[46]使用手動設置的指標和圖像分割進行特征提取,然后通過Rainbow-IQN-Apex進行訓練,是一種離散離線強化學習算法.GRIAD[47]是目前官網能夠獲取到源碼的最好方法(排名第三,前兩個無法獲取源碼),是一種混合仿生學習和強化學習的方法.為比較GRIAD也使用1個攝像頭作為輸入,其他保持不變.STRLAD_cilrsw使用CILRS-W替換雙流網絡進行特征提取,其它保持不變.CILRS-W是對CILRS[41]的改進,使用其主干網絡進行航點的預測,可以看做是只使用雙流網絡的感知網絡分支.STRLAD_griad是借鑒GRIAD訓練模型,在訓練的過程中增加仿生學習的訓練方式.

為相對公平比較,所有模型都使用與雙流網絡訓練相同的數(shù)據(jù)集和訓練時長,對比的強化學習算法都訓練到收斂為止.各個算法與STRSAD的對比方法分為訓練部分對比和最終測試對比兩部分.LBC算法的訓練是一個監(jiān)督學習的過程,與強化學習的訓練不具備可比性,因此LBC算法只進行最終測試對比,見表2所示.MDRL、IAs、STRLAD_cilrsw、GRIAD和STRLAD_griad在訓練階段都使用STRLAD的采集的數(shù)據(jù)集集進行訓練,其對比結果如圖3所示,最終測試對比都在城市5中進行,其結果如表2所示.

4.2 結果對比與分析

STRLAD算法與各個算法的訓練對比結果如圖3所示.圖3(a)STRLAD算法最終取得與GRIAD算法相當?shù)男Чm然收斂速度慢,其原因GRIAD充分利用仿生學習和強化學習的優(yōu)點,提高數(shù)據(jù)利用率.借鑒GRIAD訓練方法STRLAD_griad如圖3(e)所示達到同樣的收斂速度和準確率.圖3(b)MDRL算法效果相對于STRLAD效果差,其原因是鳥瞰視圖會造成小物體的模糊,無法準確表征周圍的環(huán)境信息.圖3(c)IAs算法效果比STRLAD差,其原因是手動設計的自動駕駛特征不能充分表示擁堵環(huán)境中的多個物體.圖3(d)STRLAD_cilrsw算法效果比STRLAD差,其原因是雙流網絡提供時空特征表示比單純的空間特征更豐富.

圖3 算法訓練對比結果圖Fig.3 Comparison results of algorithm training

STRLAD算法與各個算法在測試集進行測試,結果如表2所示.

表2 算法模型測試結果對比Table 2 Algorithm model test results comparison

通過對比,1)STRLAD算法完成率高,與GRIAD相比 STRLAD_griad完成率達到最高為91%.LBC無法對動態(tài)物體的有效檢測,在測試任務上泛化性低,準確率低.MDRL使用鳥瞰圖像編碼進行特征表示,在大量的動態(tài)物體時表現(xiàn)不佳.IAs通過手動設計的指標和圖像分隔進行特征提取,模型性能有較大改善,但是在人車密集的長距離任務中對于面對突然出現(xiàn)的行人和車輛表現(xiàn)較差.GRIAD使用專家數(shù)據(jù)作為最高獎勵同時進行在線學習,完成率達到90%,是一個強大的模型.STRLAD_cilrsw算法由于采用CILRS-W進行特征提取,損失時間維度造成完成率下降;
2)雙流網絡提取的特征好.通過STRLAD_cilrsw與STRLAD對比,雙流網絡使得完成率獲得2%的提升;
3)STRLAD算法碰撞率最低,達到7%,其原因是使用的強化學習是對車輛動作的連續(xù)空間預測,操作更加平滑精準;
4)STRLAD算法的超時情況相對較高,與獎勵函數(shù)的設置有關,需要進一步改進.

4.3 消融實驗

STRLAD算法的雙流網絡是本文的創(chuàng)新點,因此針對雙流網絡設計消融實驗,強化學習算法保持不變.

注意力機制是否有效?如表3所示,STRLAD_cilrsw只使用感知網絡代替雙流網絡.STRLAD(w/o A)算法去掉注意力機制,2個分支網絡特征簡單相加.通過實驗,STRDAD算法與STRLAD(w/o A)和STRLAD(CILRS-W)相比分別獲得1%和2%的提升,證明雙流網絡的有效性.

表3 注意力消融實驗算法模型結果Table 3 Results of attentional ablation experiments

為進一步證明注意力機制的有效性,圖4可視化了注意力權重,雙流網絡對移動行人、汽車和信號燈都有較高權重,為復雜環(huán)境的移動物體檢測提供幫助.

圖4 可視化注意力機制Fig.4 Visual attention

雙流網絡采樣率之比α取值是否合理?雙流網絡的感知網絡和運動網絡的采樣率之比決定注意力機制的有效性,消融實驗結果如表4所示:α取值太小運動網絡無法完成運動特征學習,算法模型退化為STRLAD_cilrsw;
α值太大則無法完成與感知網絡的對齊,也會造成整體算法性能下降.

表4 雙流網絡輸入采用率之比α實驗結果Table 4 Experimental results of the ratio of input adoption rate α for dual-stream networks

4.4 實時性

在自動駕駛中實時性非常關鍵.在RTX3090 GPU的機器上STRSAD算法的平均耗時是通過平均完成一幕(episode)的所有視頻幀的平均值獲取,單幀耗時為35.3毫秒.相對于算法IAs(23.7毫秒)和GRIAD(21毫秒)較慢,其原因是雙流網絡使用更大的主干網絡和注意力機制計算有關,需要進一步優(yōu)化.

4.5 限制性

STRLAD算法的局限性是雙流網絡的耗時較多,需要進一步優(yōu)化.算法模型的最終效果好,但收斂速度較慢,需要提高數(shù)據(jù)利用率和縮短訓練時長.

自動駕駛任務中環(huán)境的特征表示是算法成功的關鍵,受視覺中空間和時間特征的不對稱性啟發(fā),STRLAD算法的雙流網絡:感知網絡和運動網絡嘗試學習視頻的時空特征.感知網絡使用改進的ResNet34為主干,保持圖像高分辨率不變,完成對環(huán)境精細化理解;
運動網絡為提高實時性,把ResNet34主干的通道縮減為原通道1/8,完成運動特征的學習.STRLAD算法為克服數(shù)據(jù)樣本帶來的偏差,采用強化學習SAC算法進行嘗試.通過實驗證明STRLAD算法模型的有效性,尤其是復雜環(huán)境下對移動物體的檢測,其完成率達到89%.

在自動駕駛領域,多傳感器的多模態(tài)的融合(比如Lidar與視覺的融合)是研究熱點.未來,STRLAD算法會嘗試多模態(tài)融合的特征提取,結合最新強化學習算法進行相關研究.

猜你喜歡雙流自動車輛四川省成都市雙流區(qū)東升迎春小學中小學校長(2022年7期)2022-08-19雙流板坯側面鼓肚與邊角掛鋼原因與對策冶金設備(2020年2期)2020-12-28自動捕盜機學生天地(2020年5期)2020-08-25雙流機場一次低能見度天氣過程分析高原山地氣象研究(2020年3期)2020-07-16四川省成都雙流中學實驗學校中小學校長(2019年10期)2019-11-07車輛小太陽畫報(2018年3期)2018-05-14讓小鴨子自動轉身小天使·一年級語數(shù)英綜合(2017年3期)2017-04-25自動搖擺的“蹺蹺板”莫愁(2017年9期)2017-04-07冬天路滑 遠離車輛閱讀與作文(小學低年級版)(2016年12期)2016-12-22關于自動駕駛汽車博覽(2016年9期)2016-10-18

推薦訪問:算法 融合 駕駛

最新推薦
猜你喜歡