柯泓明 王夢鴿 昝超 彭冰
摘要:文章針對高質量公開跌倒數據集較少,導致模型泛化能力較弱、檢測準確率低、現有網絡全連接層參數量過大收斂速度慢的問題,設計了適用于跌倒檢測的遷移學習方法,使用GAP(Global Average-Pooling,GAP)層替換全連接層方法,并在隱藏層加入BN(Batch Normalization,BN)操作,優化網絡參數,設置了多組對比實驗發現改進的網絡模型在不同的數據集上訓練時間相比于之前有所提升,均取得了不錯的效果,使得神經網絡既能夠在大規模圖像數據集上學習通用的特征又能夠在公開跌倒數據集上學習跌倒特征,增強了網絡的泛化能力。
關鍵詞:圖像處理;
計算機視覺;
跌倒檢測算法;
神經網絡
doi:10.3969/J.ISSN.1672-7274.2024.04.027
中圖分類號:TP 394.1? ? ? ? ? 文獻標志碼:A? ? ? ? ? ?文章編碼:1672-7274(2024)04-00-03
A Fall Detection Algorithm Based on Improved Convolutional Neural Network
KE Hongming, WANG Mengge, ZAN Chao, PENG Bing
(Hanjiang Normal University, Shiyan 442000, China)
Abstract:
This article addresses the problems of weak model generalization ability, low detection accuracy, and slow convergence speed due to the limited number of high-quality public fall datasets. A transfer learning method suitable for fall detection is designed, which replaces the fully connected layer method with a Global Average Pooling (GAP) layer and adds a Batch Normalization (BN) operation in the hidden layer to optimize network parameters, Multiple comparative experiments were conducted, and it was found that the improved network model had improved training time on different datasets compared to before, achieving good results. This enabled the neural network to learn both universal features on large-scale image datasets and fall features on publicly available drop datasets, enhancing the network"s generalization ability.
Keywords:
image processing; computer vision; fall detection algorithm; neural network
當今世界,人口老齡化愈演愈烈,獨居老人易跌倒造成極高的致殘率和死亡率。因此,對跌倒檢測的研究受到全世界范圍內的重視,相關學者先后研發并提出一些性價比高的算法和可行的解決方案,主要分為基于傳感器和基于視覺影響的方法,但設備易受光線、復雜場景干擾等問題導致檢測誤報率高、準確性不足、體驗性缺乏人性化。
為提高跌倒檢測能力并解決上述問題,本文提出了基于改進的卷積神經網絡跌倒檢測算法。針對公共跌倒數據集較少,導致模型泛化能力較弱、準確率低問題,使用基于模型的遷移學習方法,先在大規模數據集上學習通用的特征,然后在公開的跌倒數據集上學習跌倒特征,從而增強網絡的泛化能力,提高準確率,針對網絡全連接層參數量過大,收斂速度慢的問題,設計了使用GAP層替換全連接層方法,并在隱藏層加入BN操作,優化網絡參數,從而提高識別效果。
1? ?基于遷移學習改進的VGG-16跌倒識別
本文主要針對VGG-16網絡中存在的問題進行改進實驗,在改進的CNN上進行遷移學習的實驗,本文將VGG-16網絡模型在ImageNet等大規模數據集上進行預訓練,將訓練好后的參數加載到網絡中使其具有一定基礎識別能力,再次在UCF101數據集上進行預訓練并進行微調網絡。使得網絡具有能夠識別表征人體運動的特征。
1.1 VGG-16網絡結構
Simonyan和Zisserman[1]兩人在2014年第一次創造性提出VGG模型,它是當前使用最廣、應用最多、最成熟的網絡模型之一。圖1是VGG-16的網絡結構圖,它由13個卷積層、3個全連接層以及5個池化層相互堆疊而成,卷積層采用的是3×3大小的卷積核提取特征,最后面接入全連接層作為分類,relu函數作為卷積層的激活函數,在全連接層后加入drupout可以防止過擬合。選擇很多個比較小的卷積核可以使得網絡結構中的參數變得更少,進而提升網絡的性能,強化提取復雜圖像特征的功能。
1.2 改進的VGG-16網絡
1.2.1 全局池化層替換全連接層
原始的VGG-16網絡的全連接層參數量過大,占到整個網絡的80%以上,導致訓練時間長,網絡收斂慢,需要算力強的硬件環境,部署到移動視頻設備存在一定限制。本文使用GAP[2]替換VGG-16網絡中的全連接層,得到特征圖的平均值,在經過全連接層后,將結果輸送到softmax分類器中進行分類。圖2表示了GAP代替全連接層對特征圖進行降維的過程,原始圖經過CNN卷積層后,其特征圖矩陣向下采樣到全局平均池化層中,GAP對特征矩陣求平均值,從而實現對特征圖進行降維。
1.3 VGG-16模型遷移框架設計
1.3.1 遷移模型
該網絡模型遷移框架設計圖如圖3所示,具體步驟是:在ImageNet數據集上預訓練模型,使得模型具有可以區分角落、紋理、基本幾何元素等特征,該數據集擁有1 400多萬個圖像和1 000個類。然后基于在ImageNet上訓練的CNN,我們修改輸入層使其可以接收光流圖像,即224×224×20,在UCF101數據集上繼續訓練網絡,使得網絡可以識別人體動作的特征,UCF101數據集是一個人體動作視頻庫,包含各種人體動作,這些特征可以用于后面識別跌倒。然后固定前面隱藏層的參數和權重,將預訓練好的模型和權重參數遷移到跌倒的公開數據集中,在網絡結構中加入BN操作并且使用GAP代替全連接層,在優化后的VGG-16網絡在新的數據集上微調訓練模型,最后選擇softmax邏輯回歸函數作為輸出層。
1.3.2 實驗參數設置
本文討論的是二分類問題,因此可使用二元交叉熵函數作為模型的損失函數,公式如下:
因為要表達某個類的重要性,所以在其中添加類的權重。式中,表示沒有跌倒的權重;
表示跌倒的權重。
為了更好地評估模型對于跌倒的識別性能,我們采用五折交叉驗證的方法,從數據集中隨機選擇4份作為訓練集,1份作為測試集,取測試173.30116結果的平均值,從而避免訓練過程中偶然性因素對評價指標的影響,得到更加客觀的結果。圖4圖5分別表示網絡在兩個跌倒公開數據集上訓練的準確率和損失函數曲線。我們根據不同的訓練樣本數量發現一些超參數的設置在不同數據集中有很好的表現,分別設置三個數據集的學習率為0.001、0.001、0.01和batch size為64、1 024、1 024以及跌倒權重為1、1、2。在分別經過3 000、3 000、6 000次迭代后網絡在訓練集上準確率和模型的損失函數均逐漸得到很好的收斂。
2? ?數據和實驗結果分析
2.1 實驗測試環境與數據集
實驗所使用的硬件平臺:CPU為Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz、GPU為NVIDIA GeForce RTX 2080 Ti、內存為16 GB、操作系統使用Linux。本文使用URFD、UCF101兩個公開數據集以及一個測試數據集,分別包含72個短視頻、8個不同的IP相機、24個場景,由視頻和圖片數據組成,涵蓋大部分場景。
2.2 評價指標
跌倒檢測作為一個二分類問題,在該問題上模型具有識別特定序列的視頻幀是否表示跌倒的功能,而評估此類模型的性能最常見的指標就是靈敏度(sensitivity),或者稱為召回率(recall),又或者稱為真陽性率;
另外一個評價指標是特異性(specificity)或者稱為真陰性率。以上指標不會受到不平衡類別分布的影響,所以它們很適合評價跌倒檢測數據集。
2.3 實驗結果與分析
為了證明修改后的網絡相較于之前網絡在訓練時間上有所提升,我們分別在每個數據集上進行5次訓練,最后取它們的均值,根據圖6可以發現修改后的模型相較于修改前模型在訓練時間上有明顯提升。
在兩個公開數據集上分別就召回率、特異性以及精準度完成了對比實驗,結果顯示在表1和表2中。實驗結果顯示在兩個數據集上召回率和特異性均有較好的表現,這表明該模型具有很好泛化能力,即模型對于老人跌倒與否具有很好的判斷性能。
3? ?結束語
本文主要介紹了VGG-16網絡結構,并結合遷移學習對VGG-16網絡結構進行改進,在實驗中進行了參數的設置,并對實驗硬件設備環境、數據集、評判指標分別進行了介紹,比較了改進前后的網絡在數據集上訓練時間的減少程度、三個數據集上的召回率、特異性以及準確率,最后跟其他文獻中的方法在相同數據集上進行了對照實驗。實驗結果表明,改進后的網絡在訓練的時間上有了顯著提升,而且在不同數據集上的表現證明此模型的泛化能力較好。■
參考文獻
[1] Kattenborn T, Leitloff J, Schiefer F, et al. Review on Convolutional Neural Networks (CNN) in vegetation remote sensing[J]. ISPRS journal of photogrammetry and remote sensing, 2021, (173):
24-49.
[2] Kusuma G P, Jonathan J, Lim A P. Emotion recognition on fer-2013 face images using fine-tuned vgg-16[J]. Advances in Science, Technology and Engineering Systems Journal, 2020, 5(6):
315-322.