6月20日-22日,一年一度的華為開(kāi)發(fā)者大會(huì)(HDC 2025)隆重啟幕。大會(huì)期間,AI科技創(chuàng)業(yè)者、Al暢銷(xiāo)書(shū)作者、人工智能頭部自媒體博主GenJi(李艮基)攜手華為博士天團(tuán),圍繞盤(pán)古NLP大模型、盤(pán)古世界模型、具身智能,以及預(yù)測(cè)大模型四大核心內(nèi)容,展開(kāi)了一場(chǎng)深度技術(shù)對(duì)談,華為AI領(lǐng)域核心研發(fā)團(tuán)隊(duì)首次集中揭秘,干貨滿(mǎn)滿(mǎn)!
以下是本次直播實(shí)錄“盤(pán)古世界模型”部分——
GenJi:“世界大模型”一詞被反復(fù)提及,那么,華為是如何理解世界大模型的?
金博士:之前大家對(duì)大模型的研究較偏重于理解這個(gè)世界、但我們更需要生成這個(gè)世界,以及預(yù)測(cè)這個(gè)世界的未來(lái),因?yàn)橹挥蓄A(yù)測(cè)未來(lái)世界,才能輔助做出一些決策、行為和交互,從而將物理世界和虛擬世界建立聯(lián)系。為此大家想了很多路徑,早在大模型之前,可能會(huì)采用一些人腦科學(xué)技術(shù),通過(guò)對(duì)人腦過(guò)程進(jìn)行模擬,構(gòu)造理解模型;后來(lái)人們發(fā)現(xiàn),借助數(shù)據(jù)驅(qū)動(dòng)的方式反而更好,所以有了LLM大語(yǔ)言模型,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的算法學(xué)習(xí)世界規(guī)律,該規(guī)律主要體現(xiàn)在文字層面或語(yǔ)義層面,語(yǔ)義層面只能做出理解,但無(wú)法驅(qū)動(dòng)這個(gè)世界,因?yàn)轵?qū)動(dòng)這個(gè)世界需要生成世界的能力,在這方面當(dāng)前有很多種研究,包括多模態(tài)視頻生成大模型、3D生成等。
GenJi:無(wú)論產(chǎn)界還是學(xué)界都對(duì)世界大模型有相關(guān)定義,那么,友商是如何界定的?
王博士:世界模型概念是較為廣泛的概念。只從生成方向介紹,例如,有人認(rèn)為大語(yǔ)言模型是對(duì)世界的生成,它也是一維的生成;有人認(rèn)為普通的視頻生成模型是世界模型,也能夠生成真實(shí)的世界;再進(jìn)一步,有人認(rèn)為可控的視頻生成,通過(guò)交互控制下一幀往哪個(gè)方向發(fā)展的視頻生成模型,是一個(gè)世界模型;還有人認(rèn)為只有生成一個(gè)完整的3D空間,顯示出3D表征才算是世界模型。大家對(duì)此也還會(huì)有不同的理解。
GenJi:通過(guò)剛才的分享,讓我想起馬斯洛的《動(dòng)機(jī)與人格》,從理解世界到生成世界,就是讓機(jī)器和人工智能逐漸理解人做事情的動(dòng)機(jī),產(chǎn)生相關(guān)的行為。我想問(wèn)一下兩位,做世界大模型的初心或者動(dòng)機(jī)是什么?
金博士:從兩個(gè)層面來(lái)說(shuō):一是技術(shù)層面,之前做大模型都是偏單模態(tài),如CV大模型、大語(yǔ)言模型。后來(lái)大家發(fā)現(xiàn),之前的大模型都是單一圖像或者NLP單一模態(tài),在此基礎(chǔ)上,通過(guò)融合產(chǎn)生了多模態(tài)理解大模型,即融合圖像和NLP模態(tài)。另外,視頻生成,它的輸入是NLP或一種語(yǔ)言,這種語(yǔ)言往往比較簡(jiǎn)單,不像大語(yǔ)言模型,需要輸入很長(zhǎng)的tokens,繼而生成一個(gè)視頻、生成多樣化世界的模擬。下一步,我們考慮是否能夠?qū)⒗斫夂蜕勺鲆粋€(gè)融合,因?yàn)槭澜缡嵌嗄B(tài)的,會(huì)得到我們認(rèn)為的動(dòng)態(tài)輸出加動(dòng)態(tài)輸入的全模態(tài)模型,這些模態(tài)也是我們?nèi)祟?lèi)現(xiàn)在感受到的世界原始信號(hào)。如果將人的行為納入進(jìn)去,如具身大模型、自動(dòng)駕駛大模型,那么不光有真實(shí)世界感知的信號(hào),還包括行為的信號(hào)。所以,從技術(shù)上來(lái)說(shuō),大模型會(huì)融合多種模態(tài)包括人的模態(tài)、自然的模態(tài)等。
二是業(yè)務(wù)層面,目前,為保障自動(dòng)駕駛安全行駛,至少需要在真實(shí)路況上行駛110億英里,因?yàn)榻煌ㄊ鹿实仁菦](méi)有辦法進(jìn)行預(yù)測(cè)的。因而,為了達(dá)到這一目的,我們可以在虛擬世界進(jìn)行驗(yàn)證和仿真。其實(shí),具身智能比自動(dòng)駕駛更難,因?yàn)榫呱磉€沒(méi)有訓(xùn)練數(shù)據(jù)集,所以需要在物理世界中采集和虛擬世界模擬訓(xùn)練數(shù)據(jù)集,從而滿(mǎn)足具身大模型所需要的大數(shù)據(jù)量,實(shí)現(xiàn)具身大模型的scaling law訓(xùn)練范式。
GenJi:請(qǐng)問(wèn)華為今年在STCG方面有哪些革新和變化?
金博士:其實(shí)做世界模型是一個(gè)持續(xù)的過(guò)程,我們從去年就開(kāi)始了對(duì)這一技術(shù)初始能力的探索。去年,OpenAI發(fā)布Sora功能后,大家開(kāi)始對(duì)視頻生成產(chǎn)生極大的興趣,但當(dāng)時(shí)我們發(fā)現(xiàn),大家做視頻生成,集中于單相機(jī)的、偏娛樂(lè)性質(zhì)的視頻,而這些在很多情況下不符合世界3D規(guī)律。為了實(shí)現(xiàn)這一目的,我們提出時(shí)空可控的視頻生成技術(shù),該技術(shù)的其中一個(gè)好處是,它可以將真實(shí)世界3D信號(hào)控制信息,例如,大模型可以用BEV map表示道路結(jié)構(gòu)輸入,于是我們可以把控制信號(hào)和模擬世界規(guī)律的信號(hào),輸入到一個(gè)多模態(tài)大模型中,保證生成視頻和行為信息,而且所生成的視頻不僅可以是單視角的視頻,還能夠生成多個(gè)相機(jī)的視頻。如有一輛車(chē)過(guò)來(lái)的時(shí)候,貫穿正前方、左前方、左后方,以及正后方四個(gè)相機(jī)的過(guò)程中,其顏色、形狀、運(yùn)行規(guī)律將完全符合真實(shí)世界規(guī)律,因此可以保持它的3D一致性。
王博士:以我個(gè)人理解來(lái)說(shuō),當(dāng)我們能夠生成多視角視頻的時(shí)候,已經(jīng)說(shuō)明我們的模型對(duì)于整個(gè)空間的3D、時(shí)間維度,都有了比較好的生成能力。但對(duì)于自動(dòng)駕駛來(lái)說(shuō),僅僅只生成2D的信息,或者用2D的信息呈現(xiàn)是遠(yuǎn)遠(yuǎn)不夠的。因?yàn)榧す鈧鞲衅魇?a href="http://sanwutuku.cn/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6_1.html" target="_blank" class="keylink">自動(dòng)駕駛中非常重要的組件,所以很多自動(dòng)駕駛的算法需要3D信息做感知。在此基礎(chǔ)上,我們今年又增加了激光生成能力,也可以理解成,我們從去年的2D能力,提升到了三維,后續(xù)我們會(huì)更進(jìn)一步,將它延展到4D空間的生成。
GenJi:插入一個(gè)相對(duì)業(yè)余的問(wèn)題,STCG是什么的縮寫(xiě)?
金博士:是時(shí)間、空間可控的生成。為了實(shí)現(xiàn)不同行為的模擬,我們進(jìn)一步生成4D世界,同時(shí)實(shí)現(xiàn)實(shí)時(shí)的、更高速度仿真的過(guò)程,我們依然是通過(guò)3D控制信號(hào),生成精準(zhǔn)的多相機(jī)的視頻。下一步,我們將通過(guò)生成的視頻,將其變成4D世界,滿(mǎn)足自動(dòng)駕駛模擬場(chǎng)景要求,并進(jìn)行不同的場(chǎng)景推演,這個(gè)推演便可以對(duì)應(yīng)真實(shí)的物理世界,加入一個(gè)硬件模擬器,以此驗(yàn)證自動(dòng)駕駛是否符合真實(shí)駕駛的要求。比如,對(duì)同樣一個(gè)4D世界,輸出不同行為后,將會(huì)產(chǎn)生不同的駕駛行為,如實(shí)現(xiàn)車(chē)輛加減速、左右側(cè)超車(chē)等,在我們驗(yàn)證重要的行為特征之后,獲取到自動(dòng)駕駛算法期望的結(jié)果后,我們就會(huì)認(rèn)為它通過(guò)了測(cè)試,便可以進(jìn)行實(shí)車(chē)的驗(yàn)證。
GenJi:我比較好奇在4D中,多出的這個(gè)D指代什么?以及在這一方面華為都實(shí)現(xiàn)了哪些技術(shù)上的突破創(chuàng)新,又是如何實(shí)現(xiàn)這一效果的?
王博士:我們?cè)谶@里所說(shuō)的4D,本質(zhì)上是動(dòng)態(tài)的3D。3D中,我們可以從不同的視角查看數(shù)據(jù)或觀(guān)察世界,而4D就是在3D的基礎(chǔ)上增加一些動(dòng)態(tài),比如時(shí)間維度的變化。甚至可能增加一些可控的變化,我們可以認(rèn)為它是一種交互。這也是我們當(dāng)前重點(diǎn)想要去做的方向。
從技術(shù)上說(shuō),我們業(yè)界主要的路線(xiàn),包括二維視頻、三維空間生成,但當(dāng)前它們各自存在不同的缺陷。如可控的視頻生成,可能在3D一致性上比較有限;3D生成,則在動(dòng)態(tài)能力上比較有限。我們的整體思路,是將視頻生成能力與3D生成能力進(jìn)行結(jié)合,把它推廣到動(dòng)態(tài)空間生成的能力上??梢钥吹?,我們?cè)谶@個(gè)邏輯上有兩個(gè)路線(xiàn),第一個(gè)是給視頻生成增加一個(gè)顯示的3D表征。另外一個(gè)是在3D基礎(chǔ)上,利用視頻生成做一個(gè)動(dòng)態(tài)模型的生成或者編輯,這兩個(gè)路線(xiàn)我們都有在進(jìn)行探索。
GenJi:在整套技術(shù)里面,還有哪些會(huì)在未來(lái)改進(jìn)或者完善的地方?
王博士:首先,當(dāng)前我們只能生成較為局部的動(dòng)態(tài);其次,我們生成的動(dòng)態(tài)持續(xù)時(shí)間相對(duì)較短,可以總結(jié)為動(dòng)態(tài)的范圍小、時(shí)間短,這是后續(xù)比較重要的發(fā)展方向;此外,我們的動(dòng)態(tài)是利用視頻生成模型生成出來(lái)的,它對(duì)于物理的理解,可能還有待改進(jìn)。因而,我們后面可以基于仿真引擎引入顯示的物理知識(shí),從而使我們生成的動(dòng)態(tài)內(nèi)容更加符合物理規(guī)律。
GenJi:請(qǐng)問(wèn)兩位在未來(lái)發(fā)展趨勢(shì)和脈絡(luò)里,有什么關(guān)于行業(yè)的洞見(jiàn)?
金博士:一方面,從世界模型角度出發(fā),我們會(huì)回到大模型發(fā)展歷程中來(lái),之前我們大模型更偏重理解大模型,理解大模型對(duì)于理解模態(tài)的輸入較多或較重,但是生成方面比較弱,而生成模型恰好相反,輸入的模態(tài)、信息量較少,但是輸出卻比較大、比較重。所以,目前大家已經(jīng)開(kāi)始進(jìn)行初步嘗試將圖像理解和圖像生成做融合,這將是未來(lái)技術(shù)上的趨勢(shì)。未來(lái),視頻、3/4D理解和生成的統(tǒng)一模型會(huì)更有挑戰(zhàn)意義。
另一方面,從大模型底層表示出發(fā),以NLP大語(yǔ)言模型舉例,我們可以將其理解成一個(gè)一個(gè)token計(jì)算生成的過(guò)程,其實(shí)在3D世界中,我們的3D世界并不是一維信息,所以如果3D世界的時(shí)間和空間信息都變成控制信號(hào),它可能會(huì)變成3D的token,或者4D的token,如此一來(lái),如何表示3Dtoken、4Dtoken,業(yè)界還沒(méi)有較好的辦法,所以大家還是轉(zhuǎn)化為和自然語(yǔ)言對(duì)齊的token來(lái)表示,這在信息效率和信息壓縮上都有一些損失,因此,找到好的解決方法會(huì)是未來(lái)的趨勢(shì)點(diǎn)。
GenJi:我們發(fā)現(xiàn),現(xiàn)實(shí)世界里的物體在真實(shí)自然光照環(huán)境下產(chǎn)生的光影關(guān)系,以及主體的一致性,很像您剛才所說(shuō),即本質(zhì)上像是把世界都建模好了,所以我們現(xiàn)在不再是一個(gè)不斷去創(chuàng)造新畫(huà)面的過(guò)程,而像是一個(gè)攝像頭在現(xiàn)實(shí)世界里的穿梭和移動(dòng),因?yàn)槲覀€(gè)人對(duì)這類(lèi)技術(shù)應(yīng)用和發(fā)展有非常多的想象空間,所以也想請(qǐng)教一下兩位在這塊有什么展望?
王博士:我們引入了顯式的3D表示,有顯示的3D空間后,它將從光照到空間結(jié)構(gòu),都有更好的保持。甚至后續(xù)我們還想要讓它實(shí)現(xiàn)物理上的引入,它也會(huì)有更好的基礎(chǔ)。如果說(shuō)我們只是從像視頻生成統(tǒng)計(jì)性的數(shù)據(jù)來(lái)說(shuō),可能比較難控制中間的過(guò)程。這就是我們當(dāng)前在這一部分、在這個(gè)技術(shù)上的優(yōu)勢(shì)。但它同時(shí)也帶來(lái)很多復(fù)雜的問(wèn)題,因?yàn)?D的表示要比2D的表示更加復(fù)雜。
金博士:這分為兩種路線(xiàn),一種路線(xiàn)是數(shù)據(jù)驅(qū)動(dòng),OpenAI是數(shù)據(jù)驅(qū)動(dòng),只通過(guò)大量視頻數(shù)據(jù)訓(xùn)練,自動(dòng)學(xué)習(xí)到物理規(guī)律等;還有一條路線(xiàn)是,我們可以將物理理論、物理公式嵌入到大模型中去。如果我們將兩條路線(xiàn)做一個(gè)結(jié)合,既包含物理相應(yīng)的知識(shí),又包含數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)規(guī)律,這對(duì)未來(lái)來(lái)說(shuō),將會(huì)是比較好的方案。
GenJi:這個(gè)挺有意思的,把我們高中學(xué)的那些物理公式,融入到現(xiàn)實(shí)世界物理的模擬中,比如動(dòng)量守恒、兩個(gè)球碰撞怎么傳遞動(dòng)量,就能夠通過(guò)虛擬世界去實(shí)現(xiàn)。
王博士:我們當(dāng)前的主要技術(shù)路線(xiàn)除了剛才說(shuō)到的可控視頻生成、3D生成之外,還有類(lèi)似傳統(tǒng)的仿真引擎的過(guò)程,我們從技術(shù)上判斷,這三個(gè)方向一定會(huì)逐漸的互相融合。比如,仿真引擎里面包含了很多物理的知識(shí),我們將它的結(jié)果或它中間的知識(shí),作為初始引導(dǎo),無(wú)論是引導(dǎo)視頻的生成,還是引導(dǎo)空間的生成,都會(huì)顯示引入到物理知識(shí),并帶來(lái)較大的提升。
GenJi:在現(xiàn)實(shí)世界中,就像剛才提到的,我們先去理解世界,再去生成世界,但這個(gè)理解世界的過(guò)程也是很復(fù)雜的,像太空?qǐng)鼍埃谖覀兩钪泻茈y模擬,所以,剛才所提到的這項(xiàng)技術(shù),在未來(lái)是否會(huì)應(yīng)用到火星探測(cè)等全新的太空探索中,做一些數(shù)據(jù)的模擬?畢竟我們很少有機(jī)會(huì)真的把探測(cè)相關(guān)的設(shè)備放到太空中去。
金博士:其實(shí)我們做這件事的初衷像你所說(shuō)的一樣,我們?cè)谧龌鹦翘綔y(cè)的時(shí)候,不可能采集到大量火星真實(shí)的數(shù)據(jù),但比如說(shuō)我們自動(dòng)化的設(shè)備,需要驗(yàn)證在火星或是月球真實(shí)環(huán)境是否有效、是否真正發(fā)揮作用,我們只能通過(guò)幾張圖像,做出我們認(rèn)為的三維世界,將待驗(yàn)證設(shè)備放到3D世界里面去,所以將這些物理設(shè)備進(jìn)行3D交互,驗(yàn)證是否符合預(yù)期運(yùn)行,確實(shí)是為了達(dá)到這樣的目的而進(jìn)行的。
面對(duì)紛繁的現(xiàn)實(shí)世界,盤(pán)古世界模型可以通過(guò)4D空間重構(gòu)出符合物理規(guī)律的新世界,實(shí)現(xiàn)虛擬世界與真實(shí)世界的交互。未來(lái),這一技術(shù)將會(huì)不斷應(yīng)用到自動(dòng)駕駛、具身等不同領(lǐng)域,賦能更多行業(yè)實(shí)現(xiàn)新的突破與躍遷。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )