是「司機大模型」,也是你的司機 理想汽車 CEO 李想第一次提到 VLA,是在去年 12 月的與騰訊新聞科技主筆張小珺對談的 AI Talk 第一季上。當時他說:
我們在做的理想同學(xué)和自動駕駛,按照行業(yè)的標準其實是分割開的,處于早期階段。我們做的 Mind GPT,其實是大語言模型;我們在做的自動駕駛,我們自己內(nèi)部叫行為智能,但是像李飛飛(斯坦福終身教授、前 Google 首席科學(xué)家)的定義,叫空間智能。只有你真正大規(guī)模去做的時候,你才知道,這兩個之間,有一天一定會連在一起,我們自己內(nèi)部叫 VLA(Vision Language Action Model,視覺語言行動模型)。
首先是 3D 高斯表征技術(shù),即用很多個「高斯點」來拼出一個 3D 物體,每個點都含有自己的位置、顏色和大小等信息。這項技術(shù)通過自監(jiān)督學(xué)習(xí),利用海量真實數(shù)據(jù)訓(xùn)練出一個強大的 3D 空間理解模型。有了它,VLA 就能像人一樣「看懂」周圍的世界,知道哪里是障礙物,哪里是可通行區(qū)域。
從技術(shù)到信念,理想的 AI 探索并非坦途。李想坦言:「我們在 AI 領(lǐng)域經(jīng)歷了很多挑戰(zhàn),就像黎明前的黑暗,但我們相信,堅持下去就會看到光!筕LA 的研發(fā)面臨算力瓶頸、數(shù)據(jù)倫理等難題,但理想通過自研基座模型和世界模型,逐步迎來了屬于他們的技術(shù)曙光。
李想在采訪中還提到,VLA 的成功離不開中國 AI 的崛起。
他表示,DeepSeek、通義千問等模型的出現(xiàn)讓中國 AI 水平迅速接近美國。其中,DeepSeek 所秉持的開源精神尤為令人振奮,它直接直接促使理想開源星環(huán) OS。李想稱:「這不是出于公司戰(zhàn)略考量,DeepSeek 給我們那么大幫助,我們應(yīng)該為社會貢獻點什么!
在追求技術(shù)突破的同時,理想汽車并未忽視 AI 技術(shù)的安全性和倫理問題。VLA 引入的「超級對齊」技術(shù),通過基于人類反饋的強化學(xué)習(xí)(RLHF),讓模型的行為更貼近人類習(xí)慣。數(shù)據(jù)顯示,VLA 的應(yīng)用使高速 MPI(平均干預(yù)里程)從 240km 提升至 300km。