很爽很爽三级片三区四区,嗯好粗好长视频,欧美成 人影院在线观看,日日摸夜夜做肉肉射人色

Ξ當(dāng)前位置:首頁>行業(yè)之窗>無萬卡,不VLA:元戎啟行與阿里云的“想法”和“解法”

無萬卡,不VLA:元戎啟行與阿里云的“想法”和“解法”

來源:網(wǎng)絡(luò) 時間:2025-11-12 編輯:亞訊編輯部 評論 收藏
亞訊車網(wǎng)sbu3.com】1980年代,卡內(nèi)基梅隆大學(xué)的機器人專家漢斯·莫拉維克(Hans Moravec)提出人工智能領(lǐng)域的一個悖論:讓計算機在邏輯推理、下棋等高級智力活動中達到甚至超越人類水平,相對容易;但要讓它具備孩童那樣的感知、運動和常識認知能力,卻難于登天。

1980年代,卡內(nèi)基梅隆大學(xué)的機器人專家漢斯·莫拉維克(Hans Moravec)提出人工智能領(lǐng)域的一個悖論:讓計算機在邏輯推理、下棋等高級智力活動中達到甚至超越人類水平,相對容易;但要讓它具備孩童那樣的感知、運動和常識認知能力,卻難于登天。

這個悖論的核心在于:對機器而言,真正的困難在于“理解”物理世界并與物理世界進行直覺式的交互。四十余年后,莫拉維克的觀點,也投射在了智能駕駛的漫長征途上。

如果現(xiàn)在你跟智駕從業(yè)者深聊,會發(fā)現(xiàn)一個微妙的變化:幾年前,從業(yè)者們還在為傳感器的配置、特定場景的覆蓋率等討論不停;而今天,話題焦點又多了一個更具體的模型結(jié)構(gòu)——VLA(視覺-語言-行動模型)。為什么?

一、智駕的終極體驗,是“像人一樣決策”

我們知道,要實現(xiàn)高階智能駕駛,最大的挑戰(zhàn)之一就在于:真實物理世界的復(fù)雜性和不確定性。比如,如何理解一個交警招手動作的復(fù)雜意圖?如何判斷一個滾向路邊的足球背后是否會沖出一個孩子?它要求AI不僅要識別物體,更要理解場景、預(yù)測意圖并進行復(fù)雜的因果推理。為何如此困難?

元戎啟行創(chuàng)始人兼CEO周光,這位擁有物理學(xué)背景的AI博士,在前陣子和我們交流時一語道破其中的關(guān)鍵。他將駕駛行為劃分為兩個層次:一個是“Move like human”(像人一樣行動),另一個是“Decision like human”(像人一樣決策)。

周光認為,早期的AI決策模型,更擅長處理“條件反射式”的駕駛行為,比如跟車、車道保持、簡單避障等,這些可以被歸納為“Move like human”(像人一樣行動),但這只能解決95%常見的駕駛問題。

但決定智能駕駛安全性和體驗感上限的,恰恰是那些需要推理和預(yù)判的長尾場景,也就是圈內(nèi)常說的Corner Case。他舉了一個直觀例子:“前方兩三百米外有施工,人類老司機會立刻觀察后視鏡,提前變道。但(早期的)智駕系統(tǒng),可能是開到近處,識別出錐筒、水馬這些障礙物時才做出反應(yīng),往往帶來突兀和不舒適的駕乘體驗?!?/p>

要解決這個長尾問題,系統(tǒng)必須具備周光所強調(diào)的“推理駕駛”(Inferential Driving)能力,這要求系統(tǒng)能夠基于對物理世界規(guī)律的“理解”,進行復(fù)雜的因果推理和未來預(yù)測。

如果無法實現(xiàn)“Decision like human”,系統(tǒng)就可能停留在“高級的輔助駕駛”階段,難以邁向L4乃至更高級別,無法讓人類駕駛員真正放手。智能駕駛的本質(zhì),是一個需要理解并作用于真實物理世界的“物理AI”(Physical AI)命題。

要跨越這“最后一公里”,行業(yè)亟需一種能夠賦予機器“認知”和“推理”能力的全新范式。這正是VLA這一模型結(jié)構(gòu),迅速成為當(dāng)下行業(yè)新共識的根本原因。

二、VLA邁向推理駕駛

VLA將視覺(Vision)、語言(Language,代表認知和推理)和動作(Action)融合在一個統(tǒng)一框架內(nèi)。這種融合帶來了能力層級的質(zhì)變,超越了簡單的功能疊加。

“從舊架構(gòu)變成GPT架構(gòu),這是一個根本性的變化?!敝芄夥磸?fù)強調(diào)。在他看來,過去的技術(shù)迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正開啟了智能駕駛的“大版本升級”,因為它讓系統(tǒng)開始逼近“物理AI”的理想形態(tài)。

這種對技術(shù)本質(zhì)的洞察,讓元戎啟行在技術(shù)路線上做到知行合一,堅信VLA是實現(xiàn)高階智能駕駛的最優(yōu)解。“要是不上VLA,我覺得是不可能到L5的。”周光判斷,“VLA讓業(yè)界真正看到了實現(xiàn)L5級完全自動駕駛的希望,未來的發(fā)展路徑將緊跟大模型技術(shù)的演進?!?/p>

這家公司早在2019年剛創(chuàng)立不久,就完成了名為“全融合”的技術(shù)架構(gòu)(即早期的BEV鳥瞰圖技術(shù))。到了2020年,便全力投入“無圖”研發(fā),讓系統(tǒng)直接從攝像頭等傳感器獲取的“原始數(shù)據(jù)”中學(xué)習(xí),實時感知和理解物理世界。

到了2022年,周光和團隊的預(yù)判得到了初步驗證。他告訴我們,當(dāng)時團隊已經(jīng)能通過算法,實時生成道路的拓撲結(jié)構(gòu)圖,雖然還不完美,但已經(jīng)能清晰識別出路口和轉(zhuǎn)向關(guān)系。這表示“無圖”技術(shù)路線被成功跑通,為后續(xù)研發(fā)奠定了基礎(chǔ)。

VLA帶來的,是用戶體驗上可感知的“老司機感”,這種實實在在的體驗變革,遠勝于冰冷的參數(shù):比如在復(fù)雜的城市路口,系統(tǒng)能預(yù)判可能出現(xiàn)的“鬼探頭”,提前做出柔和的決策,而非急剎車;在人車混流的狹窄街道,系統(tǒng)能理解交通參與者的“意圖”,進行更靈活的博弈,而不是死板地等待;面對臨時施工或異形障礙物,系統(tǒng)能基于對物理世界的基本理解進行推理,做出合理應(yīng)對。

這種從“輔助人”向“理解人”乃至“超越人”的進化,也有業(yè)界的權(quán)威觀點支撐。阿里巴巴集團首席執(zhí)行官吳泳銘此前在公開演講中指出,通往超級人工智能(ASI)的關(guān)鍵瓶頸在于“真實世界的數(shù)據(jù)”和“自主學(xué)習(xí)”。他強調(diào):“只有讓AI與真實世界持續(xù)互動,獲取更全面、更真實、更實時的數(shù)據(jù),才能更好的理解和模擬世界,發(fā)現(xiàn)超越人類認知的深層規(guī)律?!?/strong>

一句題外話,我們在寫作之余回溯了周光早年的學(xué)術(shù)研究,發(fā)現(xiàn)他早在德州大學(xué)達拉斯分校攻讀博士期間,就提出“去中心化自穩(wěn)定算法”和“群體協(xié)作智能體”模型,探討如何通過局部通信與自組織機制,讓分布式系統(tǒng)在無中心控制下實現(xiàn)穩(wěn)定協(xié)同。這種“由局部交互涌現(xiàn)全局智能”的邏輯,與VLA的視覺、語言、行動三模態(tài)的協(xié)同推理架構(gòu),在思想上已高度契合。

三、VLA 為何需要一座“算力電站”?

然而,為汽車裝上VLA這個強大的“物理AI大腦”,難度巨大。它顛覆了傳統(tǒng)的研發(fā)模式,帶來三個“指數(shù)級”增長的挑戰(zhàn),讓智駕公司必須重塑自己。

挑戰(zhàn)一:數(shù)據(jù)處理的“量級之變”。VLA模型吃的不是“二手”的高精地圖數(shù)據(jù),而是物理世界最原始、最鮮活的多模態(tài)數(shù)據(jù)——海量的圖像、視頻、傳感器信號。處理這些數(shù)據(jù),對數(shù)據(jù)處理的吞吐量和效率提出了前所未有的要求。

挑戰(zhàn)二:模型訓(xùn)練的“范式之變”。訓(xùn)練VLA模型,就像培養(yǎng)一個天才。不能從零教起,而是采用“知識蒸餾”技術(shù):先用一個擁有千億參數(shù)的云端“教師模型”(基座大模型)進行預(yù)訓(xùn)練,再將它的智慧“蒸餾”到車端僅有幾十億參數(shù)的“學(xué)生模型”上。這個過程,對算力集群的規(guī)模、穩(wěn)定性和調(diào)度能力要求極高。

挑戰(zhàn)三:研發(fā)效率的“成本之變”。“早些年幾百張卡就能開個小作坊。”周光感慨,“但在VLA時代,幾千張卡是起步,萬卡是入場券?!?strong>研發(fā)成本結(jié)構(gòu)也從過去“人力占97%,算力占3%”的勞動密集型,轉(zhuǎn)向“人力與算力一半一半”的資本密集型。

阿里云智能AI汽車行業(yè)線銷售總監(jiān)黃晨,向我們揭示了一個殘酷的現(xiàn)實:“一臺GPU智算服務(wù)器,它每一分鐘的成本都可以核算出來。你如果只用了70%,那么30%空跑的時間就是損失掉的真金白銀?!?/strong>

面對這些挑戰(zhàn),自建算力中心已非最優(yōu)解。建設(shè)和運維一個“超萬卡集群”,其工程復(fù)雜度、能耗和成本都是天文數(shù)字。智駕公司最明智的選擇,是接入一個穩(wěn)定、高效、且懂AI的“算力電網(wǎng)”。

這正是元戎啟行與阿里云的合作進入深水區(qū)的原因。他們需要的不是簡單的算力租賃,而是一個能解決VLA時代全鏈路挑戰(zhàn)的合作伙伴。

四、超級AI云的全棧解法

具體而言,阿里云提供的“超級AI云”,是一套從IaaS(基礎(chǔ)設(shè)施)、PaaS(平臺工具)到MaaS(模型服務(wù))的全棧式解決方案,精準(zhǔn)解決其在VLA路上可能遇到的痛點,從而帶來極致的效率優(yōu)化。

第一重:以極致的工程能力,構(gòu)筑穩(wěn)定高效的算力基石(IaaS層)。

要解決“萬卡集群甚至超萬卡集群”的穩(wěn)定性問題和通信效率瓶頸,無疑需要久經(jīng)考驗的系統(tǒng)工程能力。元戎啟行的算力需求,主要由阿里云PAI-靈駿智算服務(wù)承載,PAI-靈駿的核心價值在于,通過自研的高性能網(wǎng)絡(luò)及智能調(diào)度算法,能將大規(guī)模集群的AI算力利用率提升超過95%。對于“每一分鐘都是錢”的智駕研發(fā)而言,這意味著巨大的成本節(jié)約和時間縮短。

VLA訓(xùn)練中,海量小文件的并發(fā)訪問,對存儲系統(tǒng)是極大考驗。對此,阿里云的分布式文件系統(tǒng)CPFS就派上用場,它提供超高并發(fā)的多機讀取能力,為萬卡集群提供了數(shù)據(jù)的“飽和投喂”,確保元戎VLA模型訓(xùn)練極致高效。

此外,VLA大模型的訓(xùn)練也是一場圍繞數(shù)據(jù)的精密接力賽:對元戎啟行而言,百PB級的原始感知數(shù)據(jù)在深圳匯集、清洗和標(biāo)注,最終在阿里云烏蘭察布智算集群完成模型迭代。面對該問題,阿里云的云企業(yè)網(wǎng)CEN構(gòu)建了一張覆蓋全國的“算力一張網(wǎng)”,可實現(xiàn)數(shù)據(jù)和算力的靈活調(diào)度。同時,阿里云的全棧安全防護體系,可確保元戎啟行在云端訓(xùn)練過程中的數(shù)據(jù)安全。

這些堅實的基礎(chǔ)設(shè)施,共同構(gòu)成了元戎啟行在VLA時代加速奔跑的底氣。

第二重:以獨有的工具鏈,加速數(shù)據(jù)處理與模型迭代(PaaS層)。

說完了數(shù)據(jù)訓(xùn)練,那么說到數(shù)據(jù)處理,其效率也直接決定了模型訓(xùn)練的速度,如何高效完成海量多模態(tài)數(shù)據(jù)的清洗、標(biāo)注和預(yù)處理,是模型訓(xùn)練的重要一步。

在數(shù)據(jù)處理方面,阿里云自研的分布式計算框架MaxFrame,日均可完成數(shù)十萬級數(shù)據(jù)包處理,生成數(shù)百萬Clips和數(shù)億訓(xùn)練樣本,相比開源框架性能提升40%以上。同時,結(jié)合智能數(shù)據(jù)開發(fā)治理平臺DataWorks,可實現(xiàn)百萬級任務(wù)統(tǒng)一開發(fā)調(diào)度與元數(shù)據(jù)追溯,高效支撐VLA模型海量多模態(tài)數(shù)據(jù)訓(xùn)練。這些工具鏈的高效協(xié)同,為VLA模型訓(xùn)練提供了充足且高質(zhì)量的“燃料”。

接下來在模型訓(xùn)練階段,迭代速度決定了競爭優(yōu)勢。阿里云專為智駕領(lǐng)域定制“加速包”PAI-TurboX,在數(shù)據(jù)層、計算層、系統(tǒng)層深度優(yōu)化。阿里云計算平臺事業(yè)部負責(zé)人汪軍華介紹,TurboX能在多個主流模型上將訓(xùn)練時間縮短50%以上——這意味著元戎的模型迭代周期直接減半,能夠更快將新技術(shù)能力應(yīng)用到產(chǎn)品中。

第三重:以開源開放的生態(tài),提供創(chuàng)新的戰(zhàn)略縱深(MaaS層)。

如上文所提,VLA模型的構(gòu)建并非從零開始,它需要強大的基座模型進行知識蒸餾和調(diào)優(yōu)。在這一點上,阿里云的開源開放戰(zhàn)略,為元戎啟行提供了助力。

通義千問(Qwen)系列模型,作為全球第一的開源模型矩陣(根據(jù)Huggingface開源大模型榜單Open LLM Leaderboard),它目前全球下載量超6億次,衍生模型超17萬個,為行業(yè)提供了堅實基座。周光對此高度認可:“元戎啟行經(jīng)常用通義大模型去做一些蒸餾,通義開源挺好的?!?/strong>這種開放性,讓元戎啟行得以站在基座模型的肩膀上,更高效優(yōu)化自己的車端模型。

同時,它支持廠商基于開源能力做深度自研,這一點至關(guān)重要。這使得元戎啟行能夠?qū)氋F的研發(fā)資源,投入到智駕垂類知識的積累和創(chuàng)新上,而不是重復(fù)造輪子。

從IaaS的工程能力,到PaaS的工具鏈,再到MaaS的開源開放生態(tài),阿里云提供的“超級AI云”全棧能力,構(gòu)筑了其在智駕訓(xùn)練領(lǐng)域的重要地位。正如阿里云智能集團公共云事業(yè)部AI汽車行業(yè)總經(jīng)理李強在一次公開演講中提到,超過60%中國智能輔助駕駛的AI算力來自阿里云。這足以證明,阿里云已成為智駕訓(xùn)練中那朵好用的云。

五、選擇對的伙伴,駛向更遠的路

誠然,強大的技術(shù)基建,最終要轉(zhuǎn)化為商業(yè)成果和產(chǎn)業(yè)引領(lǐng)。

在商業(yè)策略上,許多智駕公司廣撒網(wǎng)、服務(wù)多個品牌車型(多SKU),而作為全棧智能駕駛解決方案提供商元戎啟行,再次展現(xiàn)了與其技術(shù)路線一致的“專注”。

周光進一步指出,有的智駕公司SKU特別多,但月銷可能只有幾百臺;元戎啟行專注于“大單品”策略——集中資源與車企深度合作,打造爆款車型。在他看來,只有深度合作,才能打磨出極致的產(chǎn)品體驗?!澳阍绞亲龅纳?,做的雜,你這個產(chǎn)品越難。”

這種“少而精”的策略背后,是對自身技術(shù)研發(fā)效率的絕對自信。而這份自信,很大程度上來源于其選擇了一個能提供長期價值、深刻理解AI、并具備開放生態(tài)的云合作伙伴。

當(dāng)然,智駕的商業(yè)化過程中,成本控制也至關(guān)重要。如今智駕已成標(biāo)配,而非溢價項。黃晨告訴我們:“車上有智駕,不一定讓你多賣1萬塊,但如果沒有,一定不被接受?!?/strong>

換句話說,當(dāng)智駕成為“標(biāo)配”而非“溢價項”,Tier 1供應(yīng)商的利潤空間被持續(xù)擠壓。這樣一來,選擇云服務(wù)商,早已超越了單純的資源采購,更上升為一項關(guān)乎核心競爭力的戰(zhàn)略決策。因為云端基礎(chǔ)設(shè)施的技術(shù)深度與工程效率,直接決定了算法迭代的速度和質(zhì)量,進而影響最終產(chǎn)品的市場競爭力。

對元戎啟行而言,與阿里云合作的核心價值,在于通過阿里云全棧式的技術(shù)能力(包括高效的基礎(chǔ)設(shè)施、長期積累的技術(shù)價值、以及開源開放的生態(tài)),將每一分算力的技術(shù)價值發(fā)揮到極致。這正是其構(gòu)筑自身技術(shù)壁壘、實現(xiàn)商業(yè)正循環(huán)的底氣所在。

對于所有致力于在物理AI時代取得突破的智能駕駛參與者而言,元戎啟行的實踐極具參考價值:要跨越智能駕駛的“最后一公里”,需要擁抱VLA;而要高效地訓(xùn)練VLA,需要選擇一朵像阿里云這樣具備全棧能力、能夠提供長期價值陪伴、且開源開放的“超級AI云”。

因為在新世界里,走得快需要好的技術(shù)。而走得遠,則需要好的伙伴。

免責(zé)聲明:本文轉(zhuǎn)自網(wǎng)絡(luò),僅代表作者個人觀點,與亞訊車網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容(包括圖片版權(quán)等問題)未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。

買車、賣車就上亞訊車網(wǎng) sbu3.com

汽車團購 tg.yescar.cn,省心、省力、省錢!團購電話:400-6808097

編輯:亞訊編輯部

關(guān)鍵詞:模型,VLA,阿里,AI,數(shù)據(jù)

詢價(詢價詳情會以短信方式直接發(fā)送給經(jīng)銷商,立即回復(fù),無需等待!)
*聯(lián) 系 人
*聯(lián)系電話
*期望價格
萬元
 補充信息
  • [
    票]
  • 好文[
    票]
  • 槍手[
    票]
  • 雷人[
    票]
  • [
    票]
  • 標(biāo)題黨[
    票]
相關(guān)閱讀
熱點排行
精選圖文
本周本月熱點資訊
點擊排行
广丰县| 大城县| 图木舒克市| 张家港市| 平顶山市| 瑞安市| 青浦区| 沭阳县| 乾安县| 拜泉县| 大同县| 永安市| 聂拉木县| 扶风县| 桐庐县| 三河市| 喀喇沁旗| 德令哈市| 紫云| 惠水县| 安化县| 宁津县| 中宁县| 信宜市| 家居| 湘潭市| 滦平县| 辽阳县| 山东| 河池市| 郑州市| 青神县| 九江县| 吉隆县| 黄大仙区| 定结县| 宕昌县| 泌阳县| 油尖旺区| 富蕴县| 南川市|