
1980年代,卡內(nèi)基梅隆大學(xué)的機器人專家漢斯·莫拉維克(Hans Moravec)提出人工智能領(lǐng)域的一個悖論:讓計算機在邏輯推理、下棋等高級智力活動中達到甚至超越人類水平,相對容易;但要讓它具備孩童那樣的感知、運動和常識認知能力,卻難于登天。
這個悖論的核心在于:對機器而言,真正的困難在于“理解”物理世界并與物理世界進行直覺式的交互。四十余年后,莫拉維克的觀點,也投射在了智能駕駛的漫長征途上。
如果現(xiàn)在你跟智駕從業(yè)者深聊,會發(fā)現(xiàn)一個微妙的變化:幾年前,從業(yè)者們還在為傳感器的配置、特定場景的覆蓋率等討論不停;而今天,話題焦點又多了一個更具體的模型結(jié)構(gòu)——VLA(視覺-語言-行動模型)。為什么?
一、智駕的終極體驗,是“像人一樣決策”
我們知道,要實現(xiàn)高階智能駕駛,最大的挑戰(zhàn)之一就在于:真實物理世界的復(fù)雜性和不確定性。比如,如何理解一個交警招手動作的復(fù)雜意圖?如何判斷一個滾向路邊的足球背后是否會沖出一個孩子?它要求AI不僅要識別物體,更要理解場景、預(yù)測意圖并進行復(fù)雜的因果推理。為何如此困難?
元戎啟行創(chuàng)始人兼CEO周光,這位擁有物理學(xué)背景的AI博士,在前陣子和我們交流時一語道破其中的關(guān)鍵。他將駕駛行為劃分為兩個層次:一個是“Move like human”(像人一樣行動),另一個是“Decision like human”(像人一樣決策)。

周光認為,早期的AI決策模型,更擅長處理“條件反射式”的駕駛行為,比如跟車、車道保持、簡單避障等,這些可以被歸納為“Move like human”(像人一樣行動),但這只能解決95%常見的駕駛問題。
但決定智能駕駛安全性和體驗感上限的,恰恰是那些需要推理和預(yù)判的長尾場景,也就是圈內(nèi)常說的Corner Case。他舉了一個直觀例子:“前方兩三百米外有施工,人類老司機會立刻觀察后視鏡,提前變道。但(早期的)智駕系統(tǒng),可能是開到近處,識別出錐筒、水馬這些障礙物時才做出反應(yīng),往往帶來突兀和不舒適的駕乘體驗?!?/p>
要解決這個長尾問題,系統(tǒng)必須具備周光所強調(diào)的“推理駕駛”(Inferential Driving)能力,這要求系統(tǒng)能夠基于對物理世界規(guī)律的“理解”,進行復(fù)雜的因果推理和未來預(yù)測。
如果無法實現(xiàn)“Decision like human”,系統(tǒng)就可能停留在“高級的輔助駕駛”階段,難以邁向L4乃至更高級別,無法讓人類駕駛員真正放手。智能駕駛的本質(zhì),是一個需要理解并作用于真實物理世界的“物理AI”(Physical AI)命題。
要跨越這“最后一公里”,行業(yè)亟需一種能夠賦予機器“認知”和“推理”能力的全新范式。這正是VLA這一模型結(jié)構(gòu),迅速成為當(dāng)下行業(yè)新共識的根本原因。
二、VLA邁向推理駕駛
VLA將視覺(Vision)、語言(Language,代表認知和推理)和動作(Action)融合在一個統(tǒng)一框架內(nèi)。這種融合帶來了能力層級的質(zhì)變,超越了簡單的功能疊加。
“從舊架構(gòu)變成GPT架構(gòu),這是一個根本性的變化?!敝芄夥磸?fù)強調(diào)。在他看來,過去的技術(shù)迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正開啟了智能駕駛的“大版本升級”,因為它讓系統(tǒng)開始逼近“物理AI”的理想形態(tài)。

這種對技術(shù)本質(zhì)的洞察,讓元戎啟行在技術(shù)路線上做到知行合一,堅信VLA是實現(xiàn)高階智能駕駛的最優(yōu)解。“要是不上VLA,我覺得是不可能到L5的。”周光判斷,“VLA讓業(yè)界真正看到了實現(xiàn)L5級完全自動駕駛的希望,未來的發(fā)展路徑將緊跟大模型技術(shù)的演進?!?/p>
這家公司早在2019年剛創(chuàng)立不久,就完成了名為“全融合”的技術(shù)架構(gòu)(即早期的BEV鳥瞰圖技術(shù))。到了2020年,便全力投入“無圖”研發(fā),讓系統(tǒng)直接從攝像頭等傳感器獲取的“原始數(shù)據(jù)”中學(xué)習(xí),實時感知和理解物理世界。
到了2022年,周光和團隊的預(yù)判得到了初步驗證。他告訴我們,當(dāng)時團隊已經(jīng)能通過算法,實時生成道路的拓撲結(jié)構(gòu)圖,雖然還不完美,但已經(jīng)能清晰識別出路口和轉(zhuǎn)向關(guān)系。這表示“無圖”技術(shù)路線被成功跑通,為后續(xù)研發(fā)奠定了基礎(chǔ)。
VLA帶來的,是用戶體驗上可感知的“老司機感”,這種實實在在的體驗變革,遠勝于冰冷的參數(shù):比如在復(fù)雜的城市路口,系統(tǒng)能預(yù)判可能出現(xiàn)的“鬼探頭”,提前做出柔和的決策,而非急剎車;在人車混流的狹窄街道,系統(tǒng)能理解交通參與者的“意圖”,進行更靈活的博弈,而不是死板地等待;面對臨時施工或異形障礙物,系統(tǒng)能基于對物理世界的基本理解進行推理,做出合理應(yīng)對。
這種從“輔助人”向“理解人”乃至“超越人”的進化,也有業(yè)界的權(quán)威觀點支撐。阿里巴巴集團首席執(zhí)行官吳泳銘此前在公開演講中指出,通往超級人工智能(ASI)的關(guān)鍵瓶頸在于“真實世界的數(shù)據(jù)”和“自主學(xué)習(xí)”。他強調(diào):“只有讓AI與真實世界持續(xù)互動,獲取更全面、更真實、更實時的數(shù)據(jù),才能更好的理解和模擬世界,發(fā)現(xiàn)超越人類認知的深層規(guī)律?!?/strong>
一句題外話,我們在寫作之余回溯了周光早年的學(xué)術(shù)研究,發(fā)現(xiàn)他早在德州大學(xué)達拉斯分校攻讀博士期間,就提出“去中心化自穩(wěn)定算法”和“群體協(xié)作智能體”模型,探討如何通過局部通信與自組織機制,讓分布式系統(tǒng)在無中心控制下實現(xiàn)穩(wěn)定協(xié)同。這種“由局部交互涌現(xiàn)全局智能”的邏輯,與VLA的視覺、語言、行動三模態(tài)的協(xié)同推理架構(gòu),在思想上已高度契合。
三、VLA 為何需要一座“算力電站”?
然而,為汽車裝上VLA這個強大的“物理AI大腦”,難度巨大。它顛覆了傳統(tǒng)的研發(fā)模式,帶來三個“指數(shù)級”增長的挑戰(zhàn),讓智駕公司必須重塑自己。
挑戰(zhàn)一:數(shù)據(jù)處理的“量級之變”。VLA模型吃的不是“二手”的高精地圖數(shù)據(jù),而是物理世界最原始、最鮮活的多模態(tài)數(shù)據(jù)——海量的圖像、視頻、傳感器信號。處理這些數(shù)據(jù),對數(shù)據(jù)處理的吞吐量和效率提出了前所未有的要求。
挑戰(zhàn)二:模型訓(xùn)練的“范式之變”。訓(xùn)練VLA模型,就像培養(yǎng)一個天才。不能從零教起,而是采用“知識蒸餾”技術(shù):先用一個擁有千億參數(shù)的云端“教師模型”(基座大模型)進行預(yù)訓(xùn)練,再將它的智慧“蒸餾”到車端僅有幾十億參數(shù)的“學(xué)生模型”上。這個過程,對算力集群的規(guī)模、穩(wěn)定性和調(diào)度能力要求極高。
挑戰(zhàn)三:研發(fā)效率的“成本之變”。“早些年幾百張卡就能開個小作坊。”周光感慨,“但在VLA時代,幾千張卡是起步,萬卡是入場券?!?strong>研發(fā)成本結(jié)構(gòu)也從過去“人力占97%,算力占3%”的勞動密集型,轉(zhuǎn)向“人力與算力一半一半”的資本密集型。
阿里云智能AI汽車行業(yè)線銷售總監(jiān)黃晨,向我們揭示了一個殘酷的現(xiàn)實:“一臺GPU智算服務(wù)器,它每一分鐘的成本都可以核算出來。你如果只用了70%,那么30%空跑的時間就是損失掉的真金白銀?!?/strong>
面對這些挑戰(zhàn),自建算力中心已非最優(yōu)解。建設(shè)和運維一個“超萬卡集群”,其工程復(fù)雜度、能耗和成本都是天文數(shù)字。智駕公司最明智的選擇,是接入一個穩(wěn)定、高效、且懂AI的“算力電網(wǎng)”。
這正是元戎啟行與阿里云的合作進入深水區(qū)的原因。他們需要的不是簡單的算力租賃,而是一個能解決VLA時代全鏈路挑戰(zhàn)的合作伙伴。

四、超級AI云的全棧解法
具體而言,阿里云提供的“超級AI云”,是一套從IaaS(基礎(chǔ)設(shè)施)、PaaS(平臺工具)到MaaS(模型服務(wù))的全棧式解決方案,精準(zhǔn)解決其在VLA路上可能遇到的痛點,從而帶來極致的效率優(yōu)化。
第一重:以極致的工程能力,構(gòu)筑穩(wěn)定高效的算力基石(IaaS層)。
要解決“萬卡集群甚至超萬卡集群”的穩(wěn)定性問題和通信效率瓶頸,無疑需要久經(jīng)考驗的系統(tǒng)工程能力。元戎啟行的算力需求,主要由阿里云PAI-靈駿智算服務(wù)承載,PAI-靈駿的核心價值在于,通過自研的高性能網(wǎng)絡(luò)及智能調(diào)度算法,能將大規(guī)模集群的AI算力利用率提升超過95%。對于“每一分鐘都是錢”的智駕研發(fā)而言,這意味著巨大的成本節(jié)約和時間縮短。
VLA訓(xùn)練中,海量小文件的并發(fā)訪問,對存儲系統(tǒng)是極大考驗。對此,阿里云的分布式文件系統(tǒng)CPFS就派上用場,它提供超高并發(fā)的多機讀取能力,為萬卡集群提供了數(shù)據(jù)的“飽和投喂”,確保元戎VLA模型訓(xùn)練極致高效。
此外,VLA大模型的訓(xùn)練也是一場圍繞數(shù)據(jù)的精密接力賽:對元戎啟行而言,百PB級的原始感知數(shù)據(jù)在深圳匯集、清洗和標(biāo)注,最終在阿里云烏蘭察布智算集群完成模型迭代。面對該問題,阿里云的云企業(yè)網(wǎng)CEN構(gòu)建了一張覆蓋全國的“算力一張網(wǎng)”,可實現(xiàn)數(shù)據(jù)和算力的靈活調(diào)度。同時,阿里云的全棧安全防護體系,可確保元戎啟行在云端訓(xùn)練過程中的數(shù)據(jù)安全。
這些堅實的基礎(chǔ)設(shè)施,共同構(gòu)成了元戎啟行在VLA時代加速奔跑的底氣。
第二重:以獨有的工具鏈,加速數(shù)據(jù)處理與模型迭代(PaaS層)。
說完了數(shù)據(jù)訓(xùn)練,那么說到數(shù)據(jù)處理,其效率也直接決定了模型訓(xùn)練的速度,如何高效完成海量多模態(tài)數(shù)據(jù)的清洗、標(biāo)注和預(yù)處理,是模型訓(xùn)練的重要一步。
在數(shù)據(jù)處理方面,阿里云自研的分布式計算框架MaxFrame,日均可完成數(shù)十萬級數(shù)據(jù)包處理,生成數(shù)百萬Clips和數(shù)億訓(xùn)練樣本,相比開源框架性能提升40%以上。同時,結(jié)合智能數(shù)據(jù)開發(fā)治理平臺DataWorks,可實現(xiàn)百萬級任務(wù)統(tǒng)一開發(fā)調(diào)度與元數(shù)據(jù)追溯,高效支撐VLA模型海量多模態(tài)數(shù)據(jù)訓(xùn)練。這些工具鏈的高效協(xié)同,為VLA模型訓(xùn)練提供了充足且高質(zhì)量的“燃料”。
接下來在模型訓(xùn)練階段,迭代速度決定了競爭優(yōu)勢。阿里云專為智駕領(lǐng)域定制“加速包”PAI-TurboX,在數(shù)據(jù)層、計算層、系統(tǒng)層深度優(yōu)化。阿里云計算平臺事業(yè)部負責(zé)人汪軍華介紹,TurboX能在多個主流模型上將訓(xùn)練時間縮短50%以上——這意味著元戎的模型迭代周期直接減半,能夠更快將新技術(shù)能力應(yīng)用到產(chǎn)品中。
第三重:以開源開放的生態(tài),提供創(chuàng)新的戰(zhàn)略縱深(MaaS層)。
如上文所提,VLA模型的構(gòu)建并非從零開始,它需要強大的基座模型進行知識蒸餾和調(diào)優(yōu)。在這一點上,阿里云的開源開放戰(zhàn)略,為元戎啟行提供了助力。
通義千問(Qwen)系列模型,作為全球第一的開源模型矩陣(根據(jù)Huggingface開源大模型榜單Open LLM Leaderboard),它目前全球下載量超6億次,衍生模型超17萬個,為行業(yè)提供了堅實基座。周光對此高度認可:“元戎啟行經(jīng)常用通義大模型去做一些蒸餾,通義開源挺好的?!?/strong>這種開放性,讓元戎啟行得以站在基座模型的肩膀上,更高效優(yōu)化自己的車端模型。
同時,它支持廠商基于開源能力做深度自研,這一點至關(guān)重要。這使得元戎啟行能夠?qū)氋F的研發(fā)資源,投入到智駕垂類知識的積累和創(chuàng)新上,而不是重復(fù)造輪子。
從IaaS的工程能力,到PaaS的工具鏈,再到MaaS的開源開放生態(tài),阿里云提供的“超級AI云”全棧能力,構(gòu)筑了其在智駕訓(xùn)練領(lǐng)域的重要地位。正如阿里云智能集團公共云事業(yè)部AI汽車行業(yè)總經(jīng)理李強在一次公開演講中提到,超過60%中國智能輔助駕駛的AI算力來自阿里云。這足以證明,阿里云已成為智駕訓(xùn)練中那朵好用的云。
五、選擇對的伙伴,駛向更遠的路
誠然,強大的技術(shù)基建,最終要轉(zhuǎn)化為商業(yè)成果和產(chǎn)業(yè)引領(lǐng)。
在商業(yè)策略上,許多智駕公司廣撒網(wǎng)、服務(wù)多個品牌車型(多SKU),而作為全棧智能駕駛解決方案提供商元戎啟行,再次展現(xiàn)了與其技術(shù)路線一致的“專注”。
周光進一步指出,有的智駕公司SKU特別多,但月銷可能只有幾百臺;元戎啟行專注于“大單品”策略——集中資源與車企深度合作,打造爆款車型。在他看來,只有深度合作,才能打磨出極致的產(chǎn)品體驗?!澳阍绞亲龅纳?,做的雜,你這個產(chǎn)品越難。”
這種“少而精”的策略背后,是對自身技術(shù)研發(fā)效率的絕對自信。而這份自信,很大程度上來源于其選擇了一個能提供長期價值、深刻理解AI、并具備開放生態(tài)的云合作伙伴。
當(dāng)然,智駕的商業(yè)化過程中,成本控制也至關(guān)重要。如今智駕已成標(biāo)配,而非溢價項。黃晨告訴我們:“車上有智駕,不一定讓你多賣1萬塊,但如果沒有,一定不被接受?!?/strong>
換句話說,當(dāng)智駕成為“標(biāo)配”而非“溢價項”,Tier 1供應(yīng)商的利潤空間被持續(xù)擠壓。這樣一來,選擇云服務(wù)商,早已超越了單純的資源采購,更上升為一項關(guān)乎核心競爭力的戰(zhàn)略決策。因為云端基礎(chǔ)設(shè)施的技術(shù)深度與工程效率,直接決定了算法迭代的速度和質(zhì)量,進而影響最終產(chǎn)品的市場競爭力。
對元戎啟行而言,與阿里云合作的核心價值,在于通過阿里云全棧式的技術(shù)能力(包括高效的基礎(chǔ)設(shè)施、長期積累的技術(shù)價值、以及開源開放的生態(tài)),將每一分算力的技術(shù)價值發(fā)揮到極致。這正是其構(gòu)筑自身技術(shù)壁壘、實現(xiàn)商業(yè)正循環(huán)的底氣所在。
對于所有致力于在物理AI時代取得突破的智能駕駛參與者而言,元戎啟行的實踐極具參考價值:要跨越智能駕駛的“最后一公里”,需要擁抱VLA;而要高效地訓(xùn)練VLA,需要選擇一朵像阿里云這樣具備全棧能力、能夠提供長期價值陪伴、且開源開放的“超級AI云”。
因為在新世界里,走得快需要好的技術(shù)。而走得遠,則需要好的伙伴。
免責(zé)聲明:本文轉(zhuǎn)自網(wǎng)絡(luò),僅代表作者個人觀點,與亞訊車網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容(包括圖片版權(quán)等問題)未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。
買車、賣車就上亞訊車網(wǎng) sbu3.com
汽車團購 tg.yescar.cn,省心、省力、省錢!團購電話:400-6808097
關(guān)鍵詞:模型,VLA,阿里,AI,數(shù)據(jù)
CLTC超700km/配L2++級輔助駕駛 大眾與眾08官圖
11月11日,大眾汽車乘用車品牌中國CEO 齊澤凱RobertCisek在其社交
將于洛杉磯車展首秀 全新起亞Telluride官圖發(fā)布
近日,全新起亞Telluride官圖正式發(fā)布,該車與全新現(xiàn)代帕里斯帝共享
響應(yīng)“雙碳”戰(zhàn)略 廣汽集團與寧德時代簽署全面戰(zhàn)略合作協(xié)議
2025年11月10日,廣州汽車集團股份有限公司(以下簡稱“廣汽集團”)與
配備有華為雙電機 極狐阿爾法S6四驅(qū)版車型申報圖
近日,在工信部看到了極狐阿爾法S6四驅(qū)版車型申報圖,新車采用前后雙
電機升級 奧迪Q6L e-tron/Q6L Sportback e-tron申報
近日,從工信部目錄中發(fā)現(xiàn)了奧迪Q6L e-tron/Q6L Sportback e-tron