自動駕駛技術的核心之一是感知模塊,它依賴于多種傳感器如毫米波雷達和攝像頭來識別和分類周圍環境中的物體,包括行人、車輛和障礙物。這些傳感器收集的數據被傳遞給神經網絡進行處理,借鑒生物神經系統的結構,通過多層處理和學習,實現對環境的精準理解。特別地,BEV視角在多傳感器融合中發揮關鍵作用,幫助神經網絡處理多個視角的圖像,提升目標檢測和環境理解的準確性。端到端的解決方案正被探索,旨在簡化自動駕駛系統中的感知、預測、規劃和控制步驟,以提高系統效率和響應速度。
一、深度學習基礎原理神經網絡的生物學啟發與數學原理
從數學角度看,人工神經網絡的核心運算為權重與輸入數據的乘積再加上偏差。以圖像識別為例,輸入圖像的像素值與權重相乘并加上偏差,不斷調整權重和偏差以優化輸出結果。若輸出結果與標注不一致,便通過反向反饋機制修正權重和偏差,直至得到滿意結果。這一過程需要進行大量的乘法和加法運算,因此,專門為處理此類運算設計的NPU或GPU在深度學習中發揮著重要作用。
卷積神經網絡的運算過程
卷積神經網絡是深度學習中常用的模型,由卷積和神經網絡兩部分組成。卷積操作通過一個特定的視框在圖像上滑動掃描,為每個像素區域分配權重,從而生成新的特征圖。與傳統全連接方式相比,卷積減少了計算量,且在權重之上增加了權重,增強了模型對圖像特征的提取能力。
卷積后的特征圖在一定程度上失去了原圖像的物理含義,但更便于模型進行后續的運算和特征提取。在卷積過程中,還可以根據圖像大小和需求進行分層卷積,進一步優化運算效率。隨著卷積層數的增加,數據量會不斷增大,此時池化操作應運而生。池化通過將多個像素合并為一個進行處理,減少數據量,降低計算復雜度,提高運算效率。在實際應用中,卷積和池化的層數設置通常基于經驗和對模型性能的考量。
二、視覺感知算法與目標檢測視覺感知算法的構成與流程
視覺感知算法主要由圖像的預處理、神經網絡模型和后處理三部分組成。預處理階段對輸入圖像進行整合和前處理,為后續模型輸入做準備;神經網絡模型涉及深度學習算法,包含目標檢測、語義分割、圖像分類等多種功能;后處理則利用傳統算法優化網絡模型的輸出效果。
在實際應用場景中,如自動駕駛的目標檢測,由于現實中圖像包含多個目標,簡單的圖像分類無法滿足需求,需要進行語義分割。語義分割在預處理階段先利用圖像的閾值信息將目標框選出來,再針對每個框內的目標分別進行神經網絡運算,以實現對多個目標的精準識別。像車道線檢測、紅綠燈檢測和攝像頭障礙物檢測等任務,都需要先進行分割操作,然后再進行后續的檢測和識別。
障礙物檢測的多頭網絡與多模型應用
障礙物檢測通常需要獲取目標物的多種信息,如動態或靜態狀態、速度、長寬高以及3D形狀等。這并非僅通過一次神經網絡運算就能完成,往往需要運行多個模型協同工作。例如,?Fast R-CNN模型,首先進行語義分割,然后進行分類,再分別對2D和3D信息進行檢測。
多頭網絡的出現就是為了解決這一問題,它通過不同的檢測模塊,對同一輸入進行不同維度的檢測,如一個模塊輸出分類結果,一個模塊輸出2D邊框信息,另一個模塊輸出3D形狀等,從而全面獲取目標物的各類信息。車道線檢測目前多采用神經網絡方法,相較于傳統的灰度識別,神經網絡檢測準確率更高,能有效減少偏差。
三、BEV空間感知模型BEV模型產生的背景與原理
在自動駕駛中,傳統基于透視視角的圖像信息難以直接與其他傳感器融合,且存在諸多局限,如地平面假設難以滿足。為解決這些問題,BEV空間感知模型應運而生。
BEV模型通過神經網絡,先將攝像頭數據輸入骨干網絡提取特征,然后進行跨攝像頭融合,最后轉換到BEV空間。這種方法避免了傳統方法中各攝像頭數據單獨處理后再融合帶來的問題,如目標ID識別困難、位移偏差處理復雜等。BEV模型將多個攝像頭的數據統一處理,通過調整權重和偏差,實現了更高效的融合,使得跨攝像頭融合和時序多幀融合變得更加容易。
BEV模型的優勢、挑戰與應用
BEV模型具有多方面優勢,在空間融合方面表現出色,便于進行3D目標識別、跟蹤和預測,能更有效地與其他傳感器信息融合,為端到端優化提供便利。然而,其應用也面臨一些挑戰,對算力要求較高,至少需要50Tops算力;對傳感器聯合標定和時間同步的要求也很嚴格;并且需要大量的數據支持。
特斯拉采用了BEV網絡,小鵬、地平線等企業也在積極研發,部分量產車型已體現出該技術的應用成果。BEV模型可實現多任務功能,如3D物體檢測、語義地圖構建和運動預測等,能根據不同時間的信息進行補償和預測,為自動駕駛提供更全面、精準的環境感知。
四、占用網絡與端到端方案占用網絡的原理與特點
O占用網絡是特斯拉為解決視覺長尾問題提出的模型。該模型將周邊空間劃分為小立方體,通過預測3D空間的占用概率(0/1)來還原目標物的形狀和位置,并利用神經輻射場(NeRF)的可微分渲染圖像進行監督訓練。
占用網絡的優勢在于,它能夠預測空間占用情況,有效解決非標物體的識別問題,還可利用多攝像頭和視頻時序信息,對動態車流進行測量,透過遮擋持續檢測已存在的對象,且內存和計算效率較高,能在約10ms內運行。但它也存在數據量要求高、云端算力要求高的缺點。目前,特斯拉已開始應用該模型,其他企業仍處于起步階段,預計2025年前后會有更多車型應用。
端到端方案的概念與發展趨勢
傳統自動駕駛方案按感知、預測、規劃、控制的順序依次執行,結構簡單、可解釋性強,但存在規則復雜、場景泛化性不足的問題。端到端方案則融合了這些模塊,形成一個統一架構,通過傳感器輸入,直接完成從原始數據到軌跡或控制信號的映射,更符合人類駕駛原理,具有更高的上限。
以UniAD基于nuScenes訓練集的表現為例,其在各方面均優于傳統技術。特斯拉FSD v12據稱已實現端到端方案,國內的華為、小鵬等企業也在積極探索該領域。端到端方案與BEV、transformer的結合是當前的研究熱點,這種結合能夠充分發揮各技術的優勢,實現從圖像輸入到決策輸出的直接生成,減少中間模塊的接口交互,提高系統的整體性能和效率。
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。

