2024 年,被很多中國(guó)車企稱為 " 智駕規(guī)模商用元年 ",但是智駕領(lǐng)域的競(jìng)爭(zhēng)如果沒(méi)有特斯拉這條 " 鯰魚 " 參與,顯然有些成色不足。
近日,據(jù)媒體報(bào)道,上海已向特斯拉發(fā)放了道路測(cè)試牌照。此前有外媒報(bào)道,特斯拉計(jì)劃為中國(guó)市場(chǎng)注冊(cè) FSD 軟件,預(yù)計(jì)今年推出,并可能以月度訂閱方式向用戶收費(fèi)。若注冊(cè)成功,特斯拉員工將可在中國(guó)的公共道路上進(jìn)行 FSD 的內(nèi)部測(cè)試。
回顧特斯拉自 2021 年發(fā)布 FSD Beta 版本(測(cè)試版本)至 2024 年發(fā)布 FSD v12(Supervised)版本(受監(jiān)管版本)以來(lái)走過(guò)的 3 年路程,馬斯克把 FSD 的 30 多萬(wàn)行代碼刪到只剩下 2000 多行。而這背后,是 FSD 端到端的全新升級(jí)。
也正因如此," 端到端 ""BEV""Transformer" 成為了智能駕駛?cè)χ械臒嵩~,引發(fā)車企的爭(zhēng)相研究,華為、小鵬、理想、蔚來(lái)等主流主機(jī)廠、自動(dòng)駕駛方案商均推出了基于 BEV+Transformer 的智駕方案。
全球車企瘋狂押注端到端大模型的背后,新一輪智駕技術(shù)軍備競(jìng)賽號(hào)角已經(jīng)吹響。
路線之爭(zhēng)愈演愈烈
在智能駕駛領(lǐng)域,中美兩國(guó)呈現(xiàn)出一超戰(zhàn)多強(qiáng)的態(tài)勢(shì),特斯拉在某種意義上代表了美國(guó)自動(dòng)駕駛的基本面,中國(guó)這邊則是新勢(shì)力個(gè)個(gè)爭(zhēng)先。
特斯拉研發(fā)的 FSD 采取純視覺(jué)方案,完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等傳感器,僅采用攝像頭進(jìn)行感知,特斯拉汽車共計(jì)采用 8 個(gè)攝像頭分布在車體四周,整體實(shí)現(xiàn) 360 度全局環(huán)視視野,攝像頭就像是 " 汽車之眼 ",為汽車提供類似人類駕駛員的視覺(jué)感知系統(tǒng)。
馬斯克對(duì)于雷達(dá)是極度排斥的,這既有商業(yè)層面的考慮,特斯拉剛上市的時(shí)候,雷達(dá)的成本還比較高昂,有的高達(dá)上萬(wàn)美元。還有另外一個(gè)原因,他信仰 " 第一性原理 " ——既然人類是靠眼睛開(kāi)車,而道路結(jié)構(gòu)和標(biāo)志也是為人眼設(shè)計(jì),作為 " 汽車之眼 " 的攝像頭理論上也可以實(shí)現(xiàn)同樣的效果。
同時(shí),毫米波雷達(dá)技術(shù)上的缺陷也是他的一個(gè)重要顧慮。毫米波雷達(dá)由于無(wú)法分辨高度信息,在使用中會(huì)將靜止物體識(shí)別的置信度降低,如無(wú)其他可靠傳感的情況下,可能導(dǎo)致誤剎或漏剎,導(dǎo)致 " 幽靈剎車 "。這些因素讓特斯拉堅(jiān)定地走出了 " 去雷達(dá) " 之路。
持續(xù)的進(jìn)化能力正是特斯拉 FSD 的可怕之處。2021 年 7 月,特斯拉正式推出了 BEV(鳥瞰圖)+Transformer 的技術(shù)方案,進(jìn)一步提升了攝像頭的測(cè)距、測(cè)速以及適應(yīng)一些極端場(chǎng)景的能力。
2022 年,特斯拉提出 Occupancy Network(占用網(wǎng)絡(luò)),引入了 " 體素 " 的概念——三維空間基本單元,通過(guò)占用網(wǎng)絡(luò)進(jìn)一步提升對(duì)物體體積信息的識(shí)別能力。大幅改進(jìn)此前視覺(jué)算法常常會(huì)出現(xiàn)誤檢、漏檢的問(wèn)題,同時(shí),特斯拉也不斷投喂各類場(chǎng)景的視頻,讓 AI 算法盡可能多的認(rèn)識(shí)更廣泛的駕駛情況。
2024 年 3 月 1 日,特斯拉 FSD v12 完成更新,有業(yè)內(nèi)人士表示,F(xiàn)SD v12 是特斯拉史上最重要的一次更新,它為特斯拉車輛帶來(lái)了前所未有的自動(dòng)駕駛能力。
"FSD Beta v12 將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)數(shù)百萬(wàn)個(gè)視頻訓(xùn)練,取代了 30 多萬(wàn)行 C++ 代碼。" 在更新說(shuō)明中,特斯拉如此說(shuō)道。FSD v12 被視為改變規(guī)則的技術(shù),整個(gè)系統(tǒng)中端到端的算法幾乎全部采用神經(jīng)網(wǎng)絡(luò)構(gòu)建,其優(yōu)勢(shì)在于其靈活度非常高、應(yīng)變能力好、上限高,并且可以通過(guò)高度擬人化的狀態(tài)駕駛,大幅提升駕乘體驗(yàn)。
與特斯拉不同的是,國(guó)內(nèi)廠商普遍采取的是激光雷達(dá)方案,這個(gè)方案依托激光雷達(dá) + 攝像頭 + 毫米波 / 超聲波雷達(dá)等硬件設(shè)備,依靠實(shí)時(shí)測(cè)繪、AI 算法的融合感知,來(lái)實(shí)現(xiàn)智能駕駛。比如,華為問(wèn)界系列、理想汽車 2024 款 L 系列的 Pro 版、極氪 007、阿維塔 12、小鵬 G9、問(wèn)界 M5 等。
中國(guó)車企關(guān)于智能駕駛的技術(shù)主線比較簡(jiǎn)單,雷達(dá)的裝載量越來(lái)越多,雷達(dá)的線程越來(lái)越高,成本越來(lái)越低。由此帶動(dòng)的,智能駕駛技術(shù)也不斷由高價(jià)車向低價(jià)車滲透,乘聯(lián)會(huì)發(fā)布的汽車智能網(wǎng)聯(lián)洞察報(bào)告數(shù)據(jù)顯示,2023 年全年新能源乘用車中,裝備 L2 級(jí)及以上輔助駕駛功能的比例達(dá)到 55.3%。
而隨著雷達(dá)路線的不斷進(jìn)步,2024 年中國(guó)車企們開(kāi)始大規(guī)模 " 進(jìn)城 " 了,極氪 007、阿維塔 12、小鵬 G9、華為問(wèn)界等都已經(jīng)開(kāi)通了城市和高速 NOA 功能。城市場(chǎng)景下的自動(dòng)駕駛具有重大的現(xiàn)實(shí)意義和象征意義," 進(jìn)城 " 也被認(rèn)為是邁進(jìn)高階自動(dòng)駕駛的重要標(biāo)志。
不過(guò),從特斯拉的開(kāi)發(fā)經(jīng)驗(yàn)來(lái)看,端到端自動(dòng)駕駛所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。除了成本高昂,端到端自動(dòng)駕駛的技術(shù)難度也非常之高,想要實(shí)現(xiàn)端到端產(chǎn)品落地和持續(xù)進(jìn)化,對(duì)于車企的技術(shù)迭代能力也提出了更高的要求。
小模型 VS 大模型
智能駕駛行業(yè),經(jīng)歷了一個(gè)模型 " 從小到大 " 的過(guò)程。
目前已量產(chǎn)的智能駕駛,絕大多數(shù)采用的是模塊化架構(gòu)。簡(jiǎn)而言之,模塊化是將智能駕駛系統(tǒng)拆分為多個(gè)典型任務(wù),并由專門的 AI 模型或模塊處理。
現(xiàn)階段的自動(dòng)駕駛模型框架主要由感知、決策、控制三個(gè)部分組成。感知模塊就像是人的眼睛和耳朵,負(fù)責(zé)對(duì)外部環(huán)境進(jìn)行感知;控制模塊就像人的雙手和雙腳,負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作;而決策規(guī)劃模塊就像人的大腦,基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。
在此架構(gòu)下,每個(gè)大模塊可能包含多個(gè)小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型,各司其職。
不過(guò),隨著軟硬件升級(jí)與逐步深入,自動(dòng)駕駛對(duì)于計(jì)算能力和海量數(shù)據(jù)處理能力的需求暴增,傳統(tǒng)各個(gè)小模型 " 堆疊 " 的方案,已經(jīng)無(wú)法滿足城市自動(dòng)駕駛的需求。比如," 堆疊 " 造成信息失真以及算力浪費(fèi),而每個(gè)小模型的技術(shù)天花板也會(huì)導(dǎo)致整體解決方案受限。
這個(gè)時(shí)候,大模型開(kāi)始進(jìn)入業(yè)界視野。
2021 年 8 月,特斯拉 AI 高級(jí)總監(jiān) Andrej Karpathy 展示了一項(xiàng)新技術(shù)——基于 Transformer 的 BEV(鳥瞰視角)感知方案,這是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域,也是特斯拉實(shí)現(xiàn)純視覺(jué)智能駕駛方案的關(guān)鍵。
BEV 可以實(shí)現(xiàn)將 360 度環(huán)視的時(shí)間、空間融合,相當(dāng)于車輛正上方 10-20 米有一個(gè)直升機(jī)俯視車輛與周圍環(huán)境。Transformer 架構(gòu)可以輸出靜態(tài)、動(dòng)態(tài)信息,以及端到端的預(yù)測(cè)能力。更具象化來(lái)說(shuō),就是將攝像頭、毫米波雷達(dá)、激光雷達(dá)等感知元件采集到的實(shí)時(shí)數(shù)據(jù)通過(guò) Transformer 模型轉(zhuǎn)換成 3D 圖景,最后形成車輛周圍的鳥瞰圖,實(shí)現(xiàn)對(duì)車輛周邊環(huán)境的精準(zhǔn)感知,甚至可以實(shí)時(shí)形成一張車輛周圍的實(shí)時(shí)地圖。
需要指出的是,Transformer 不等于大模型,它是模型的底座,目前的大模型都是在 Transformer 的基礎(chǔ)上進(jìn)行開(kāi)發(fā)的。
在特斯拉使用 Transformer 之后,大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。目前,智能駕駛已從僅使用模型進(jìn)行圖像感知,使用規(guī)則算法的方式,轉(zhuǎn)變?yōu)楦兄⑷诤?、預(yù)測(cè)全面使用模型。
盡管 BEV+Transformer 相較于過(guò)往的智駕技術(shù)路線優(yōu)勢(shì)眾多,但也并非十全十美,仍存在諸多挑戰(zhàn)。
首先,為了確保視覺(jué)感知重疊,汽車感知硬件中攝像頭數(shù)量會(huì)有所提升,硬件成本增加。
其次,Transformer 模型體量龐大,運(yùn)算會(huì)消耗大量存儲(chǔ)與帶寬空間。同時(shí)對(duì)芯片性能要求嚴(yán)苛,除需進(jìn)行算子適配以及底層軟件優(yōu)化外,SOC 層面還需對(duì)緩存與帶寬進(jìn)行提升。
最后,也是最為重要的是 Transformer 訓(xùn)練與迭代需要海量數(shù)據(jù)做支撐,催生出海量的數(shù)據(jù)采集、標(biāo)注需求。
從高速場(chǎng)景拓展到城市場(chǎng)景,車輛所遇到的長(zhǎng)尾問(wèn)題大幅增加。高速場(chǎng)景相對(duì)封閉,交通參與者相對(duì)簡(jiǎn)單不涉及行人,駕駛狀態(tài)可預(yù)測(cè)性更強(qiáng),對(duì)數(shù)據(jù)規(guī)模與多樣性要求較低。而城市場(chǎng)景路況則較為復(fù)雜,交通參與者眾多,場(chǎng)景異質(zhì)性強(qiáng),駕駛狀態(tài)很難進(jìn)行預(yù)測(cè)。因此,城市 NOA 對(duì)自動(dòng)駕駛模型的泛化能力提出了更高的要求。
Transformer 大模型量變到引起質(zhì)變需要數(shù)億公里標(biāo)注數(shù)據(jù)的投喂,并覆蓋不斷出現(xiàn)的極端案例,才能實(shí)現(xiàn)自動(dòng)駕駛感知算法從輕量的神經(jīng)網(wǎng)絡(luò)二維感知到基于 Transformer 四維感知的升維,這對(duì)數(shù)據(jù)標(biāo)注量產(chǎn)規(guī)模提出了更高的要求,數(shù)據(jù)閉環(huán)能力取代算法范式,成為決定商業(yè)量產(chǎn)從 1 到 N 的勝負(fù)關(guān)鍵。
智能駕駛的另一條路徑
在智能駕駛產(chǎn)業(yè)在發(fā)展過(guò)程中,數(shù)據(jù)端和算法端都面臨著一定的發(fā)展痛點(diǎn)。
數(shù)據(jù)處理層面,自動(dòng)駕駛所需要的數(shù)據(jù)是有價(jià)值的極端案例(Corner Case), 但當(dāng)前數(shù)據(jù)處理面臨的最大問(wèn)題是低效率和高成本,無(wú)法實(shí)現(xiàn)數(shù)據(jù)閉環(huán)。其中,低效率的問(wèn)題主要是高價(jià)值數(shù)據(jù)比例低、各類型數(shù)據(jù)需求同步難、數(shù)據(jù)處理的自動(dòng)化程度低;高成本問(wèn)題主要是數(shù)據(jù)采集成本高、數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)存儲(chǔ)成本高。
算法模型層面,自動(dòng)駕駛功能逐步邁向高階功能,自動(dòng)駕駛系統(tǒng)將承擔(dān)駕駛操作和周邊監(jiān)控,人類駕駛員將承擔(dān)突發(fā)狀況下的駕駛工作,此時(shí)感知和定位的工作將轉(zhuǎn)移到車端,整個(gè)自動(dòng)駕駛系統(tǒng)被認(rèn)為是不安全的,使得整個(gè)高階自動(dòng)駕駛陷入了一個(gè)低谷中。以城區(qū) NOA 為例,車輛將面對(duì)更復(fù)雜的場(chǎng)景及工況,包括更多的交通參與者、更復(fù)雜的交通規(guī)則、更高要求的地域覆蓋率等。
任何技術(shù)路線都不止一條,車路云一體化作為智能駕駛的另一條技術(shù)路徑被擺到了前臺(tái)。車路云一體化是在車路協(xié)同的基礎(chǔ)上進(jìn)一步發(fā)展而來(lái),其關(guān)鍵是人、車、路、云,對(duì)應(yīng)的是交通參與者、車載終端、路側(cè)設(shè)施和云計(jì)算。一體化是將這些要素融合為一體,通過(guò)配備智能傳感器設(shè)施的道路與智能網(wǎng)聯(lián)汽車聯(lián)動(dòng),類似于 ETC 系統(tǒng)中的路側(cè)單元和車載模塊的交互,在智慧公路獲取到車輛數(shù)據(jù)之后,再回傳到后臺(tái)進(jìn)行數(shù)據(jù)分析,進(jìn)而得到實(shí)時(shí)路況信息,再下發(fā)給智能車輛、交通部門、城市管理者等相關(guān)方,實(shí)現(xiàn)全面的系統(tǒng)協(xié)同感知、決策與控制。
從以端到端大模型為代表的單車智能與車路云一體化兩者關(guān)系來(lái)看,其本質(zhì)上并非同維競(jìng)爭(zhēng)。單車智能是 " 點(diǎn) " 的提升,車路協(xié)同是 " 面 " 的統(tǒng)籌。車路云一體化誕生之初就是為了解決單車智能無(wú)法解決的問(wèn)題,二者的關(guān)系是相互促進(jìn)、互為補(bǔ)充。車路云一體化可以彌補(bǔ)單車智能在復(fù)雜場(chǎng)景下的感知不足,通過(guò)整合交通關(guān)鍵要素、超視距感知、實(shí)時(shí)信息共享等方式,提高自動(dòng)駕駛的可靠性和安全性。
車路云一體化為自動(dòng)駕駛大模型訓(xùn)練開(kāi)辟了新的路徑。與傳統(tǒng)依賴車輛單獨(dú)采集數(shù)據(jù)的方式相比,車路云一體化系統(tǒng)能夠收集到更龐大的數(shù)據(jù)量與更豐富的數(shù)據(jù)類型,不僅大幅拓寬了訓(xùn)練數(shù)據(jù)的廣度與深度,還顯著加速了自動(dòng)駕駛模型的學(xué)習(xí)效率與精確度,為實(shí)現(xiàn)更高水平的自動(dòng)駕駛奠定堅(jiān)實(shí)基礎(chǔ)。
通過(guò)車路云一體化,自動(dòng)駕駛車輛的傳感器不再是唯一的眼睛,通過(guò)遮蔽或關(guān)閉這些傳感器,車輛完全可以依賴路側(cè)基站構(gòu)建的實(shí)時(shí)數(shù)字孿生系統(tǒng),將實(shí)時(shí)路況和環(huán)境數(shù)據(jù)源源不斷地傳輸給車輛,指引其順利完成自動(dòng)駕駛?cè)蝿?wù)。
目前,車路云一體化主要面臨 " 兩率低 " 問(wèn)題,即路側(cè)設(shè)備覆蓋率不高且不均勻和車端設(shè)備滲透率低。一方面,C-V2X 車聯(lián)網(wǎng)路側(cè)基礎(chǔ)設(shè)施 RSU 覆蓋率較低,未形成規(guī)模部署,缺乏全域打通;另一方面,車載終端滲透率較低,導(dǎo)致車輛間信息交互和協(xié)作能力不強(qiáng)。車路城協(xié)同基礎(chǔ)設(shè)施建設(shè)主要集中在各城市示范區(qū)的部分道路路段,無(wú)法形成連續(xù)的智能網(wǎng)聯(lián)環(huán)境,難以滿足智能網(wǎng)聯(lián)車輛規(guī)?;瘻y(cè)試驗(yàn)證、數(shù)據(jù)訓(xùn)練、功能優(yōu)化等需求,進(jìn)而導(dǎo)致基礎(chǔ)設(shè)施使用率偏低。
而中國(guó)龐大的公路網(wǎng)絡(luò)以及機(jī)動(dòng)車保有量為車路云一體化提供了豐富的驗(yàn)證場(chǎng)景和數(shù)據(jù)來(lái)源。2023 年,全國(guó)公路總里程 544 萬(wàn)公里,其中高速公路 18 萬(wàn)公里,機(jī)動(dòng)車保有量是 4.35 億輛。據(jù)《車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)產(chǎn)值增量預(yù)測(cè)》報(bào)告預(yù)測(cè),2025 年 /2030 年我國(guó)車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)總產(chǎn)值增量分別為 7295 億元 /25825 億元,年均復(fù)合增長(zhǎng)率為 28.8%。
所有的技術(shù)路線最終都將殊途同歸。當(dāng)前,端到端大模型和車路云一體化還處于不斷進(jìn)化的階段,但其目標(biāo)都是為了讓更安全的自動(dòng)駕駛走進(jìn)千家萬(wàn)戶。隨著越來(lái)越多的企業(yè)投入到相關(guān)技術(shù)的研發(fā)與應(yīng)用當(dāng)中,這些技術(shù)的未來(lái)發(fā)展圖景也將愈發(fā)清晰。如今,智能駕駛起跑的槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是賽道當(dāng)中的企業(yè)不得不做的選擇。
來(lái)源:極智GeeTech