大模型加速上車，吹響新一輪智駕“軍備競(jìng)賽”號(hào)角？

2024

06/28

22:19

評(píng)論

2024 年，被很多中國(guó)車企稱為 " 智駕規(guī)模商用元年 "，但是智駕領(lǐng)域的競(jìng)爭(zhēng)如果沒(méi)有特斯拉這條 " 鯰魚 " 參與，顯然有些成色不足。

近日，據(jù)媒體報(bào)道，上海已向特斯拉發(fā)放了道路測(cè)試牌照。此前有外媒報(bào)道，特斯拉計(jì)劃為中國(guó)市場(chǎng)注冊(cè) FSD 軟件，預(yù)計(jì)今年推出，并可能以月度訂閱方式向用戶收費(fèi)。若注冊(cè)成功，特斯拉員工將可在中國(guó)的公共道路上進(jìn)行 FSD 的內(nèi)部測(cè)試。

回顧特斯拉自 2021 年發(fā)布 FSD Beta 版本（測(cè)試版本）至 2024 年發(fā)布 FSD v12（Supervised）版本（受監(jiān)管版本）以來(lái)走過(guò)的 3 年路程，馬斯克把 FSD 的 30 多萬(wàn)行代碼刪到只剩下 2000 多行。而這背后，是 FSD 端到端的全新升級(jí)。

也正因如此，" 端到端 ""BEV""Transformer" 成為了智能駕駛?cè)χ械臒嵩~，引發(fā)車企的爭(zhēng)相研究，華為、小鵬、理想、蔚來(lái)等主流主機(jī)廠、自動(dòng)駕駛方案商均推出了基于 BEV+Transformer 的智駕方案。

全球車企瘋狂押注端到端大模型的背后，新一輪智駕技術(shù)軍備競(jìng)賽號(hào)角已經(jīng)吹響。

路線之爭(zhēng)愈演愈烈

在智能駕駛領(lǐng)域，中美兩國(guó)呈現(xiàn)出一超戰(zhàn)多強(qiáng)的態(tài)勢(shì)，特斯拉在某種意義上代表了美國(guó)自動(dòng)駕駛的基本面，中國(guó)這邊則是新勢(shì)力個(gè)個(gè)爭(zhēng)先。

特斯拉研發(fā)的 FSD 采取純視覺(jué)方案，完全摒棄掉激光雷達(dá)、毫米波雷達(dá)等傳感器，僅采用攝像頭進(jìn)行感知，特斯拉汽車共計(jì)采用 8 個(gè)攝像頭分布在車體四周，整體實(shí)現(xiàn) 360 度全局環(huán)視視野，攝像頭就像是 " 汽車之眼 "，為汽車提供類似人類駕駛員的視覺(jué)感知系統(tǒng)。

馬斯克對(duì)于雷達(dá)是極度排斥的，這既有商業(yè)層面的考慮，特斯拉剛上市的時(shí)候，雷達(dá)的成本還比較高昂，有的高達(dá)上萬(wàn)美元。還有另外一個(gè)原因，他信仰 " 第一性原理 " ——既然人類是靠眼睛開(kāi)車，而道路結(jié)構(gòu)和標(biāo)志也是為人眼設(shè)計(jì)，作為 " 汽車之眼 " 的攝像頭理論上也可以實(shí)現(xiàn)同樣的效果。

同時(shí)，毫米波雷達(dá)技術(shù)上的缺陷也是他的一個(gè)重要顧慮。毫米波雷達(dá)由于無(wú)法分辨高度信息，在使用中會(huì)將靜止物體識(shí)別的置信度降低，如無(wú)其他可靠傳感的情況下，可能導(dǎo)致誤剎或漏剎，導(dǎo)致 " 幽靈剎車 "。這些因素讓特斯拉堅(jiān)定地走出了 " 去雷達(dá) " 之路。

持續(xù)的進(jìn)化能力正是特斯拉 FSD 的可怕之處。2021 年 7 月，特斯拉正式推出了 BEV（鳥瞰圖）+Transformer 的技術(shù)方案，進(jìn)一步提升了攝像頭的測(cè)距、測(cè)速以及適應(yīng)一些極端場(chǎng)景的能力。

2022 年，特斯拉提出 Occupancy Network（占用網(wǎng)絡(luò)），引入了 " 體素 " 的概念——三維空間基本單元，通過(guò)占用網(wǎng)絡(luò)進(jìn)一步提升對(duì)物體體積信息的識(shí)別能力。大幅改進(jìn)此前視覺(jué)算法常常會(huì)出現(xiàn)誤檢、漏檢的問(wèn)題，同時(shí)，特斯拉也不斷投喂各類場(chǎng)景的視頻，讓 AI 算法盡可能多的認(rèn)識(shí)更廣泛的駕駛情況。

2024 年 3 月 1 日，特斯拉 FSD v12 完成更新，有業(yè)內(nèi)人士表示，F(xiàn)SD v12 是特斯拉史上最重要的一次更新，它為特斯拉車輛帶來(lái)了前所未有的自動(dòng)駕駛能力。

"FSD Beta v12 將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò)，經(jīng)過(guò)數(shù)百萬(wàn)個(gè)視頻訓(xùn)練，取代了 30 多萬(wàn)行 C++ 代碼。" 在更新說(shuō)明中，特斯拉如此說(shuō)道。FSD v12 被視為改變規(guī)則的技術(shù)，整個(gè)系統(tǒng)中端到端的算法幾乎全部采用神經(jīng)網(wǎng)絡(luò)構(gòu)建，其優(yōu)勢(shì)在于其靈活度非常高、應(yīng)變能力好、上限高，并且可以通過(guò)高度擬人化的狀態(tài)駕駛，大幅提升駕乘體驗(yàn)。

與特斯拉不同的是，國(guó)內(nèi)廠商普遍采取的是激光雷達(dá)方案，這個(gè)方案依托激光雷達(dá) + 攝像頭 + 毫米波 / 超聲波雷達(dá)等硬件設(shè)備，依靠實(shí)時(shí)測(cè)繪、AI 算法的融合感知，來(lái)實(shí)現(xiàn)智能駕駛。比如，華為問(wèn)界系列、理想汽車 2024 款 L 系列的 Pro 版、極氪 007、阿維塔 12、小鵬 G9、問(wèn)界 M5 等。

中國(guó)車企關(guān)于智能駕駛的技術(shù)主線比較簡(jiǎn)單，雷達(dá)的裝載量越來(lái)越多，雷達(dá)的線程越來(lái)越高，成本越來(lái)越低。由此帶動(dòng)的，智能駕駛技術(shù)也不斷由高價(jià)車向低價(jià)車滲透，乘聯(lián)會(huì)發(fā)布的汽車智能網(wǎng)聯(lián)洞察報(bào)告數(shù)據(jù)顯示，2023 年全年新能源乘用車中，裝備 L2 級(jí)及以上輔助駕駛功能的比例達(dá)到 55.3%。

而隨著雷達(dá)路線的不斷進(jìn)步，2024 年中國(guó)車企們開(kāi)始大規(guī)模 " 進(jìn)城 " 了，極氪 007、阿維塔 12、小鵬 G9、華為問(wèn)界等都已經(jīng)開(kāi)通了城市和高速 NOA 功能。城市場(chǎng)景下的自動(dòng)駕駛具有重大的現(xiàn)實(shí)意義和象征意義，" 進(jìn)城 " 也被認(rèn)為是邁進(jìn)高階自動(dòng)駕駛的重要標(biāo)志。

不過(guò)，從特斯拉的開(kāi)發(fā)經(jīng)驗(yàn)來(lái)看，端到端自動(dòng)駕駛所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。除了成本高昂，端到端自動(dòng)駕駛的技術(shù)難度也非常之高，想要實(shí)現(xiàn)端到端產(chǎn)品落地和持續(xù)進(jìn)化，對(duì)于車企的技術(shù)迭代能力也提出了更高的要求。

小模型 VS 大模型

智能駕駛行業(yè)，經(jīng)歷了一個(gè)模型 " 從小到大 " 的過(guò)程。

目前已量產(chǎn)的智能駕駛，絕大多數(shù)采用的是模塊化架構(gòu)。簡(jiǎn)而言之，模塊化是將智能駕駛系統(tǒng)拆分為多個(gè)典型任務(wù)，并由專門的 AI 模型或模塊處理。

現(xiàn)階段的自動(dòng)駕駛模型框架主要由感知、決策、控制三個(gè)部分組成。感知模塊就像是人的眼睛和耳朵，負(fù)責(zé)對(duì)外部環(huán)境進(jìn)行感知；控制模塊就像人的雙手和雙腳，負(fù)責(zé)最終的加減速、轉(zhuǎn)向等操作；而決策規(guī)劃模塊就像人的大腦，基于接收到的感知等信息進(jìn)行行為決策和軌跡生成。

在此架構(gòu)下，每個(gè)大模塊可能包含多個(gè)小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型，各司其職。

不過(guò)，隨著軟硬件升級(jí)與逐步深入，自動(dòng)駕駛對(duì)于計(jì)算能力和海量數(shù)據(jù)處理能力的需求暴增，傳統(tǒng)各個(gè)小模型 " 堆疊 " 的方案，已經(jīng)無(wú)法滿足城市自動(dòng)駕駛的需求。比如，" 堆疊 " 造成信息失真以及算力浪費(fèi)，而每個(gè)小模型的技術(shù)天花板也會(huì)導(dǎo)致整體解決方案受限。

這個(gè)時(shí)候，大模型開(kāi)始進(jìn)入業(yè)界視野。

2021 年 8 月，特斯拉 AI 高級(jí)總監(jiān) Andrej Karpathy 展示了一項(xiàng)新技術(shù)——基于 Transformer 的 BEV（鳥瞰視角）感知方案，這是大模型技術(shù)首次應(yīng)用于自動(dòng)駕駛領(lǐng)域，也是特斯拉實(shí)現(xiàn)純視覺(jué)智能駕駛方案的關(guān)鍵。

BEV 可以實(shí)現(xiàn)將 360 度環(huán)視的時(shí)間、空間融合，相當(dāng)于車輛正上方 10-20 米有一個(gè)直升機(jī)俯視車輛與周圍環(huán)境。Transformer 架構(gòu)可以輸出靜態(tài)、動(dòng)態(tài)信息，以及端到端的預(yù)測(cè)能力。更具象化來(lái)說(shuō)，就是將攝像頭、毫米波雷達(dá)、激光雷達(dá)等感知元件采集到的實(shí)時(shí)數(shù)據(jù)通過(guò) Transformer 模型轉(zhuǎn)換成 3D 圖景，最后形成車輛周圍的鳥瞰圖，實(shí)現(xiàn)對(duì)車輛周邊環(huán)境的精準(zhǔn)感知，甚至可以實(shí)時(shí)形成一張車輛周圍的實(shí)時(shí)地圖。

需要指出的是，Transformer 不等于大模型，它是模型的底座，目前的大模型都是在 Transformer 的基礎(chǔ)上進(jìn)行開(kāi)發(fā)的。

在特斯拉使用 Transformer 之后，大模型早已經(jīng)不限于智能駕駛感知領(lǐng)域。目前，智能駕駛已從僅使用模型進(jìn)行圖像感知，使用規(guī)則算法的方式，轉(zhuǎn)變?yōu)楦兄⑷诤?、預(yù)測(cè)全面使用模型。

盡管 BEV+Transformer 相較于過(guò)往的智駕技術(shù)路線優(yōu)勢(shì)眾多，但也并非十全十美，仍存在諸多挑戰(zhàn)。

首先，為了確保視覺(jué)感知重疊，汽車感知硬件中攝像頭數(shù)量會(huì)有所提升，硬件成本增加。

其次，Transformer 模型體量龐大，運(yùn)算會(huì)消耗大量存儲(chǔ)與帶寬空間。同時(shí)對(duì)芯片性能要求嚴(yán)苛，除需進(jìn)行算子適配以及底層軟件優(yōu)化外，SOC 層面還需對(duì)緩存與帶寬進(jìn)行提升。

最后，也是最為重要的是 Transformer 訓(xùn)練與迭代需要海量數(shù)據(jù)做支撐，催生出海量的數(shù)據(jù)采集、標(biāo)注需求。

從高速場(chǎng)景拓展到城市場(chǎng)景，車輛所遇到的長(zhǎng)尾問(wèn)題大幅增加。高速場(chǎng)景相對(duì)封閉，交通參與者相對(duì)簡(jiǎn)單不涉及行人，駕駛狀態(tài)可預(yù)測(cè)性更強(qiáng)，對(duì)數(shù)據(jù)規(guī)模與多樣性要求較低。而城市場(chǎng)景路況則較為復(fù)雜，交通參與者眾多，場(chǎng)景異質(zhì)性強(qiáng)，駕駛狀態(tài)很難進(jìn)行預(yù)測(cè)。因此，城市 NOA 對(duì)自動(dòng)駕駛模型的泛化能力提出了更高的要求。

Transformer 大模型量變到引起質(zhì)變需要數(shù)億公里標(biāo)注數(shù)據(jù)的投喂，并覆蓋不斷出現(xiàn)的極端案例，才能實(shí)現(xiàn)自動(dòng)駕駛感知算法從輕量的神經(jīng)網(wǎng)絡(luò)二維感知到基于 Transformer 四維感知的升維，這對(duì)數(shù)據(jù)標(biāo)注量產(chǎn)規(guī)模提出了更高的要求，數(shù)據(jù)閉環(huán)能力取代算法范式，成為決定商業(yè)量產(chǎn)從 1 到 N 的勝負(fù)關(guān)鍵。

智能駕駛的另一條路徑

在智能駕駛產(chǎn)業(yè)在發(fā)展過(guò)程中，數(shù)據(jù)端和算法端都面臨著一定的發(fā)展痛點(diǎn)。

數(shù)據(jù)處理層面，自動(dòng)駕駛所需要的數(shù)據(jù)是有價(jià)值的極端案例（Corner Case），但當(dāng)前數(shù)據(jù)處理面臨的最大問(wèn)題是低效率和高成本，無(wú)法實(shí)現(xiàn)數(shù)據(jù)閉環(huán)。其中，低效率的問(wèn)題主要是高價(jià)值數(shù)據(jù)比例低、各類型數(shù)據(jù)需求同步難、數(shù)據(jù)處理的自動(dòng)化程度低；高成本問(wèn)題主要是數(shù)據(jù)采集成本高、數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)存儲(chǔ)成本高。

算法模型層面，自動(dòng)駕駛功能逐步邁向高階功能，自動(dòng)駕駛系統(tǒng)將承擔(dān)駕駛操作和周邊監(jiān)控，人類駕駛員將承擔(dān)突發(fā)狀況下的駕駛工作，此時(shí)感知和定位的工作將轉(zhuǎn)移到車端，整個(gè)自動(dòng)駕駛系統(tǒng)被認(rèn)為是不安全的，使得整個(gè)高階自動(dòng)駕駛陷入了一個(gè)低谷中。以城區(qū) NOA 為例，車輛將面對(duì)更復(fù)雜的場(chǎng)景及工況，包括更多的交通參與者、更復(fù)雜的交通規(guī)則、更高要求的地域覆蓋率等。

任何技術(shù)路線都不止一條，車路云一體化作為智能駕駛的另一條技術(shù)路徑被擺到了前臺(tái)。車路云一體化是在車路協(xié)同的基礎(chǔ)上進(jìn)一步發(fā)展而來(lái)，其關(guān)鍵是人、車、路、云，對(duì)應(yīng)的是交通參與者、車載終端、路側(cè)設(shè)施和云計(jì)算。一體化是將這些要素融合為一體，通過(guò)配備智能傳感器設(shè)施的道路與智能網(wǎng)聯(lián)汽車聯(lián)動(dòng)，類似于 ETC 系統(tǒng)中的路側(cè)單元和車載模塊的交互，在智慧公路獲取到車輛數(shù)據(jù)之后，再回傳到后臺(tái)進(jìn)行數(shù)據(jù)分析，進(jìn)而得到實(shí)時(shí)路況信息，再下發(fā)給智能車輛、交通部門、城市管理者等相關(guān)方，實(shí)現(xiàn)全面的系統(tǒng)協(xié)同感知、決策與控制。

從以端到端大模型為代表的單車智能與車路云一體化兩者關(guān)系來(lái)看，其本質(zhì)上并非同維競(jìng)爭(zhēng)。單車智能是 " 點(diǎn) " 的提升，車路協(xié)同是 " 面 " 的統(tǒng)籌。車路云一體化誕生之初就是為了解決單車智能無(wú)法解決的問(wèn)題，二者的關(guān)系是相互促進(jìn)、互為補(bǔ)充。車路云一體化可以彌補(bǔ)單車智能在復(fù)雜場(chǎng)景下的感知不足，通過(guò)整合交通關(guān)鍵要素、超視距感知、實(shí)時(shí)信息共享等方式，提高自動(dòng)駕駛的可靠性和安全性。

車路云一體化為自動(dòng)駕駛大模型訓(xùn)練開(kāi)辟了新的路徑。與傳統(tǒng)依賴車輛單獨(dú)采集數(shù)據(jù)的方式相比，車路云一體化系統(tǒng)能夠收集到更龐大的數(shù)據(jù)量與更豐富的數(shù)據(jù)類型，不僅大幅拓寬了訓(xùn)練數(shù)據(jù)的廣度與深度，還顯著加速了自動(dòng)駕駛模型的學(xué)習(xí)效率與精確度，為實(shí)現(xiàn)更高水平的自動(dòng)駕駛奠定堅(jiān)實(shí)基礎(chǔ)。

通過(guò)車路云一體化，自動(dòng)駕駛車輛的傳感器不再是唯一的眼睛，通過(guò)遮蔽或關(guān)閉這些傳感器，車輛完全可以依賴路側(cè)基站構(gòu)建的實(shí)時(shí)數(shù)字孿生系統(tǒng)，將實(shí)時(shí)路況和環(huán)境數(shù)據(jù)源源不斷地傳輸給車輛，指引其順利完成自動(dòng)駕駛?cè)蝿?wù)。

目前，車路云一體化主要面臨 " 兩率低 " 問(wèn)題，即路側(cè)設(shè)備覆蓋率不高且不均勻和車端設(shè)備滲透率低。一方面，C-V2X 車聯(lián)網(wǎng)路側(cè)基礎(chǔ)設(shè)施 RSU 覆蓋率較低，未形成規(guī)模部署，缺乏全域打通；另一方面，車載終端滲透率較低，導(dǎo)致車輛間信息交互和協(xié)作能力不強(qiáng)。車路城協(xié)同基礎(chǔ)設(shè)施建設(shè)主要集中在各城市示范區(qū)的部分道路路段，無(wú)法形成連續(xù)的智能網(wǎng)聯(lián)環(huán)境，難以滿足智能網(wǎng)聯(lián)車輛規(guī)?；瘻y(cè)試驗(yàn)證、數(shù)據(jù)訓(xùn)練、功能優(yōu)化等需求，進(jìn)而導(dǎo)致基礎(chǔ)設(shè)施使用率偏低。

而中國(guó)龐大的公路網(wǎng)絡(luò)以及機(jī)動(dòng)車保有量為車路云一體化提供了豐富的驗(yàn)證場(chǎng)景和數(shù)據(jù)來(lái)源。2023 年，全國(guó)公路總里程 544 萬(wàn)公里，其中高速公路 18 萬(wàn)公里，機(jī)動(dòng)車保有量是 4.35 億輛。據(jù)《車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)產(chǎn)值增量預(yù)測(cè)》報(bào)告預(yù)測(cè)，2025 年 /2030 年我國(guó)車路云一體化智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)總產(chǎn)值增量分別為 7295 億元 /25825 億元，年均復(fù)合增長(zhǎng)率為 28.8%。

所有的技術(shù)路線最終都將殊途同歸。當(dāng)前，端到端大模型和車路云一體化還處于不斷進(jìn)化的階段，但其目標(biāo)都是為了讓更安全的自動(dòng)駕駛走進(jìn)千家萬(wàn)戶。隨著越來(lái)越多的企業(yè)投入到相關(guān)技術(shù)的研發(fā)與應(yīng)用當(dāng)中，這些技術(shù)的未來(lái)發(fā)展圖景也將愈發(fā)清晰。如今，智能駕駛起跑的槍聲已經(jīng)打響，路線是關(guān)鍵，而朝著選好的方向狂奔，也是賽道當(dāng)中的企業(yè)不得不做的選擇。

來(lái)源：極智GeeTech

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

大模型加速上車，吹響新一輪智駕“軍備競(jìng)賽”號(hào)角？

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

大模型加速上車，吹響新一輪智駕“軍備競(jìng)賽”號(hào)角？

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們

大模型加速上車，吹響新一輪智駕“軍備競(jìng)賽”號(hào)角？

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒(méi)跑了！

iPhone 13機(jī)模曝光：值得等！