女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

眾所周知,“AI工廠(chǎng)”是NVIDIA CEO黃仁勛率先在全球提出的新概念,經(jīng)過(guò)了2022年到2024年的技術(shù)發(fā)展才明確了“AI工廠(chǎng)”生產(chǎn)的產(chǎn)品就是大模型推理所生成的“Token”。整個(gè)生成式AI產(chǎn)業(yè)包括生產(chǎn)大模型以及大模型微調(diào)用于各行各業(yè)推理和智能體生成“Token”,從而將大模型AI轉(zhuǎn)換為真正的生產(chǎn)力和商業(yè)價(jià)值,而“AI工廠(chǎng)”更指向生產(chǎn)“推理Token”。

在HDC 2025大會(huì)上,華為云宣布基于CloudMatrix384超節(jié)點(diǎn)的新一代昇騰AI云服務(wù)全面上線(xiàn),CloudMatrix384超節(jié)點(diǎn)是在去年發(fā)布的CloudMatrix架構(gòu)下的首個(gè)生產(chǎn)級(jí)超節(jié)點(diǎn),配合DeepSeek-R1萬(wàn)億參數(shù)MoE模型,展現(xiàn)出超越NVIDIA H100/H800的推理性能,單卡推理吞吐量(即生產(chǎn)推理Token)躍升到2300 Tokens/s,超節(jié)點(diǎn)還支持訓(xùn)推算力一體化部署,在云數(shù)據(jù)中心還能將432個(gè)超節(jié)點(diǎn)級(jí)聯(lián)成最高16萬(wàn)卡的超大集群。

華為云CloudMatrix384超節(jié)點(diǎn)昇騰AI云服務(wù)是可與NVIDIA超節(jié)點(diǎn)方案并列的兩大頂配“AI工廠(chǎng)”路線(xiàn),與常規(guī)的萬(wàn)卡集群有著本質(zhì)的不同。2025年4月,華為云與創(chuàng)新公司硅基流動(dòng)團(tuán)隊(duì)聯(lián)合發(fā)表了重磅英文論文,首次完整披露了CloudMatrix384超節(jié)點(diǎn)架構(gòu)和實(shí)踐,硅基流動(dòng)已經(jīng)使用CloudMatrix384超節(jié)點(diǎn)為數(shù)百萬(wàn)用戶(hù)高效提供DeepSeek V3、R1推理服務(wù)。

那么,華為云憑什么與NVIDIA爭(zhēng)鋒?

三條系統(tǒng)級(jí)創(chuàng)新路線(xiàn)

華為云與硅基團(tuán)隊(duì)的《Serving Large Language Models on Huawei CloudMatrix384(在華為CloudMatrix384上線(xiàn)大語(yǔ)言模型)》是一篇長(zhǎng)達(dá)58頁(yè)的英文論文,該論文詳細(xì)介紹了CloudMatrix架構(gòu)和CloudMatrix384生產(chǎn)級(jí)實(shí)踐。在更深入這篇論文以了解華為云CloudMatrix384與NVIDIA同類(lèi)型系統(tǒng)的異同之前,我們先來(lái)理解一下當(dāng)前的三大“AI工廠(chǎng)”技術(shù)方案路線(xiàn)。

首先要了解,MOE混合專(zhuān)家模型架構(gòu)是當(dāng)前主流的大模型架構(gòu),“AI工廠(chǎng)”以適配MOE架構(gòu)為優(yōu)先。MOE架構(gòu)即將具有不同“專(zhuān)長(zhǎng)”的專(zhuān)家子模型組合起來(lái)形成“專(zhuān)家網(wǎng)絡(luò)”,從而將一個(gè)復(fù)雜的問(wèn)題拆解為若干子問(wèn)題,每個(gè)子問(wèn)題由一個(gè)獨(dú)立的專(zhuān)家模型進(jìn)行處理,再有效結(jié)合不同“專(zhuān)家”的結(jié)論,就能快速進(jìn)行訓(xùn)練/推理。MOE的特點(diǎn)包括訓(xùn)練快、推理快、擴(kuò)展性好、多任務(wù)能力強(qiáng)等,開(kāi)源大模型“當(dāng)紅炸子雞”DeepSeek就是基于MOE架構(gòu)。

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

第二,由于大模型可以擴(kuò)展到萬(wàn)億參數(shù),這已經(jīng)遠(yuǎn)遠(yuǎn)超出了單GPU/NPU/智算卡的性能,因此各大技術(shù)廠(chǎng)商紛紛從萬(wàn)卡集群角度進(jìn)行創(chuàng)新,試圖通過(guò)整個(gè)AI數(shù)據(jù)中心的軟硬件整體優(yōu)化角度,實(shí)現(xiàn)更高的單卡Token吞吐量。當(dāng)前,適配MOE架構(gòu)大模型的AI數(shù)據(jù)中心即“AI工廠(chǎng)”技術(shù)路線(xiàn),主要有三大技術(shù)方案路線(xiàn),分別是NVIDIA超節(jié)點(diǎn)路線(xiàn)、華為CloudMatrix超節(jié)點(diǎn)路線(xiàn)以及各智算中心等自行搭建的萬(wàn)卡集群路線(xiàn)。

萬(wàn)卡集群路線(xiàn)是很多云廠(chǎng)商、互聯(lián)網(wǎng)廠(chǎng)商、車(chē)企、智算中心或AI數(shù)據(jù)中心選擇的一條主要技術(shù)方案路線(xiàn),該路線(xiàn)主要選擇通用Linux服務(wù)器搭配GPU/NPU/智算卡等,配合以太網(wǎng)交換機(jī)組成的通用或增強(qiáng)通用網(wǎng)絡(luò),再結(jié)合通用或高性能存儲(chǔ)方案,可以說(shuō)是“AI工廠(chǎng)”的“中低配”方案。該方案通過(guò)網(wǎng)絡(luò)的“Scale Out”進(jìn)行擴(kuò)展,所謂“Scale Out”方案就是傳統(tǒng)數(shù)據(jù)中心所采用的分級(jí)交換機(jī)方案,典型的有三層交換網(wǎng)絡(luò),可以實(shí)現(xiàn)集群內(nèi)以及跨集群和跨數(shù)據(jù)中心的互聯(lián)方案。

與萬(wàn)卡集群不同的是NVIDIA提出的超節(jié)點(diǎn)方案。2024 GTC大會(huì)上,NVIDIA推出了基于NVL72液冷機(jī)架服務(wù)器設(shè)計(jì)的DGX Superpod“頂配版”超節(jié)點(diǎn),搭配了最先進(jìn)的NVIDIA GPU和CPU,通過(guò)NVLink和NVLink Switch實(shí)現(xiàn)單節(jié)點(diǎn)的“Scale Up”高性能互聯(lián),即將一個(gè)超節(jié)點(diǎn)視為一個(gè)巨大的虛擬GPU,“Scale Up”就是在節(jié)點(diǎn)內(nèi)加入更多的GPU,再通過(guò)高性能網(wǎng)絡(luò)Infiniband實(shí)現(xiàn)超節(jié)點(diǎn)間的“Scale Out”互聯(lián),可以將更多的超節(jié)點(diǎn)連起來(lái)形成萬(wàn)卡集群。

而華為提出的CloudMatrix超節(jié)點(diǎn)方案與NVIDIA的類(lèi)似,不同的是由于國(guó)內(nèi)缺乏與NVIDIA有同等競(jìng)爭(zhēng)力的GPU以及相應(yīng)的NVLink和CUDA等成熟NVIDIA生態(tài),華為運(yùn)用自己的網(wǎng)絡(luò)通信專(zhuān)長(zhǎng)而提出了MatrixLink對(duì)等全互聯(lián)方案,實(shí)現(xiàn)了單節(jié)點(diǎn)的“Scale Up”高性能互聯(lián),再采用RDMA增強(qiáng)以太網(wǎng)絡(luò)實(shí)現(xiàn)多個(gè)超節(jié)點(diǎn)互聯(lián)的“Scale Out”,從而實(shí)現(xiàn)萬(wàn)卡集群。

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

簡(jiǎn)單理解,NVIDIA主板內(nèi)的GPU-GPU由NVLink實(shí)現(xiàn)、增強(qiáng)了NVLink Switch的NVIDIA主板內(nèi)為GPU-NVLink Switch-GPU、超節(jié)點(diǎn)內(nèi)不同主板GPU通信由NVLink Switch實(shí)現(xiàn)。而華為則將主板內(nèi)以及超節(jié)點(diǎn)內(nèi)不同主板上的NPU和CPU都放到了一個(gè)點(diǎn)對(duì)點(diǎn)對(duì)等網(wǎng)絡(luò)中,實(shí)現(xiàn)了超節(jié)內(nèi)所有NPU和CPU的全局對(duì)等通信和高帶寬。CloudMatrix384可以作為一個(gè)緊耦合的大規(guī)模邏輯節(jié)點(diǎn),計(jì)算和內(nèi)存全局可尋址,便于統(tǒng)一資源池化和高效的工作負(fù)載編排。

第三,在MatrixLink和基于MatrixLink的統(tǒng)一總線(xiàn)之上,華為CloudMatrix384實(shí)現(xiàn)了 “一切可池化、一切皆對(duì)等、一切可組合”,即將超節(jié)點(diǎn)內(nèi)的NPU和CPU、NPU和CPU上的內(nèi)存、NPU上的AI Core、緩存以及外部云緩存、云存儲(chǔ)等異構(gòu)資源都解耦拆分并歸類(lèi)組合成同類(lèi)資源池,從而高效滿(mǎn)足大模型訓(xùn)推計(jì)算需求。

在硬件資源極致池化的基礎(chǔ)上,華為云團(tuán)隊(duì)專(zhuān)門(mén)為大規(guī)模MoE模型設(shè)計(jì)的綜合LLM推理服務(wù)解決方案CloudMatrix-Infer,這是涵蓋了算法、服務(wù)引擎、CANN庫(kù)和云服務(wù)的全棧優(yōu)化,而高達(dá)每秒2300 Tokens的單卡推理吞吐也是在這一解決方案下優(yōu)化的結(jié)果。值得一提的是,華為云持續(xù)推進(jìn)CANN算子生態(tài),對(duì)標(biāo)NVIDIA CUDA,強(qiáng)化PyTorch和TensorFlow等流行AI軟件框架與昇騰NPU硬件之間的兼容性。

解讀CloudMatrix384的先進(jìn)性

從三條“AI工廠(chǎng)”技術(shù)路線(xiàn)可以看出,傳統(tǒng)數(shù)據(jù)中心在大模型與生成式AI時(shí)代正在經(jīng)歷巨變:從傳統(tǒng)數(shù)據(jù)中心與應(yīng)用APP之間的南北流量(即以數(shù)據(jù)中心外部流量為主),轉(zhuǎn)而注重?cái)?shù)據(jù)中心內(nèi)部服務(wù)器與服務(wù)器之間的東西流量(即以數(shù)據(jù)中心內(nèi)部流量為主),這就是AI數(shù)據(jù)中心即計(jì)算機(jī),也就是將整個(gè)數(shù)據(jù)中心視作一臺(tái)完整的高性能計(jì)算機(jī)、整個(gè)數(shù)據(jù)中心承載一個(gè)或幾個(gè)大模型工作負(fù)載,而不是將數(shù)據(jù)中心視作一個(gè)一個(gè)承載了不同應(yīng)用的集群組合。

那么,第一,面向“AI工廠(chǎng)”的萬(wàn)卡集群是傳統(tǒng)數(shù)據(jù)中心的利舊,即通過(guò)各種技術(shù)增強(qiáng)而讓傳統(tǒng)數(shù)據(jù)中心適配大模型工作負(fù)載,當(dāng)然由于傳統(tǒng)數(shù)據(jù)中心并不是圍繞大模型而設(shè)計(jì),因此在運(yùn)行大模型訓(xùn)推時(shí)存在各種“墻”和延時(shí),導(dǎo)致生產(chǎn)Token的效率在三條技術(shù)路線(xiàn)中最低。第二,NVIDIA的AI工廠(chǎng)是圍繞大模型而重構(gòu)了數(shù)據(jù)中心,專(zhuān)門(mén)為大模型工作負(fù)載而生,但因?yàn)槁窂揭蕾?lài)而不得不圍繞已經(jīng)有NVIDIA技術(shù)棧而建,例如NVLink+NVLink Switch的通信方案。第三,華為云CloudMatrix384由于沒(méi)有歷史負(fù)擔(dān)或技術(shù)債,可以真正重構(gòu)AI數(shù)據(jù)中心,用全局對(duì)等通信和全局高帶寬,打破了所有的“墻”,極致降低各種“延時(shí)”,最終實(shí)現(xiàn)了超越NVIDIA主流GPU單卡推理呑吐的結(jié)果。

那么,在CloudMatrix384全局對(duì)等通信和全局高帶寬的前提下,MOE大模型推理發(fā)生了什么變化呢?我們以曾經(jīng)掀起了第二次工業(yè)革命浪潮的福特汽車(chē)為例。當(dāng)時(shí),福特汽車(chē)推出T型車(chē),這是世界上首輛以大量通用零部件進(jìn)行大規(guī)模流水線(xiàn)裝配作業(yè)的汽車(chē),相應(yīng)福特汽車(chē)開(kāi)創(chuàng)了流水線(xiàn)生產(chǎn)模式,將組裝一輛汽車(chē)的時(shí)間從數(shù)周降低到93分鐘,后期又進(jìn)一步降低到10秒鐘以?xún)?nèi)。那么,CloudMatrix384就是將MOE大模型拆解為可以在CloudMatrix384超節(jié)點(diǎn)上用大量通用“零部件”進(jìn)行流水線(xiàn)裝配的大模型“T型車(chē)”。

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

例如:傳統(tǒng)集群模式下進(jìn)行推理,將一個(gè)復(fù)雜問(wèn)題拆分為若干個(gè)子問(wèn)題,然后在每一張單卡上分配了所有的“專(zhuān)家”,每個(gè)“專(zhuān)家”都要將所有相關(guān)子問(wèn)題都運(yùn)行一遍,然后再將總輸出結(jié)果組裝起來(lái),導(dǎo)致每一張單卡的每一個(gè)“專(zhuān)家”只能獲得少量的計(jì)算和通信能力,這就是一卡多專(zhuān)家的“小作坊模式”;而超節(jié)點(diǎn)“工廠(chǎng)”里每一張單卡上只分配一個(gè)專(zhuān)家,通過(guò)全局對(duì)等網(wǎng)絡(luò)將所有相關(guān)問(wèn)題都匯集給同一“專(zhuān)家”,同一“專(zhuān)家”集中處理所有相關(guān)子問(wèn)題后再返還給系統(tǒng)進(jìn)行最后的組裝,顯然單卡的MoE計(jì)算和通信效率都大幅提升了。

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

(CloudMatrix-infer的PDC解耦示意圖)

再例如,CloudMatrix-Infer的PDC( Prefill-Decode-Caching)解耦對(duì)等服務(wù)架構(gòu),該架構(gòu)將LLM推理工作流分解為獨(dú)立可擴(kuò)展的組件,同時(shí)利用CloudMatrix384的高帶寬互連進(jìn)行高效協(xié)調(diào)。通常LLM推理工作流包括兩大階段:Prefill預(yù)填充階段處理Prompt提示詞并生成推理的首個(gè)Token以及初始KV緩存、Decode解碼階段負(fù)責(zé)自回歸生成后續(xù)Token,在Decode階段也會(huì)產(chǎn)生大量的KV緩存,這些KV緩存在自回歸步驟中被反復(fù)使用,因此傳統(tǒng)LLM推理需要與KV緩存物理位置緊耦合,因?yàn)檫h(yuǎn)程讀取KV緩存將帶來(lái)顯著的延時(shí)。而PDC分離則將Prefill固化在Prefill集群、將Decode固化在Decode集群,同時(shí)利用統(tǒng)一總線(xiàn)的全局尋址高帶寬特點(diǎn)而另設(shè)立了獨(dú)立的KV緩存集群,這樣不論是Prefill集群還是Decode集群的NPU都能夠直接訪(fǎng)問(wèn)獨(dú)立KV緩存集群的共享內(nèi)存緩存,突破了數(shù)據(jù)的物理位置限制,顯著提高了負(fù)載均衡、NPU利用率以及內(nèi)存利用率,同時(shí)提供了更大的彈性。

就華為云CloudMatrix384昇騰AI云服務(wù)來(lái)說(shuō),從多個(gè)維度對(duì)于MOE大模型推理進(jìn)行了零部件和工序的拆解,包括硬件維度、軟件維度、算法維度以及云服務(wù)維度等,具體可參考《Serving Large Language Models on Huawei CloudMatrix384(在華為CloudMatrix384上線(xiàn)大語(yǔ)言模型)》論文。華為云CloudMatrix384昇騰AI云服務(wù)將大模型推理Token的生產(chǎn),推進(jìn)到了流水線(xiàn)生產(chǎn)模式,而且是更為先進(jìn)的全網(wǎng)狀現(xiàn)代化流水線(xiàn)生產(chǎn)模式。

單卡推理2300 Tokens/s,華為云超越NVIDIA憑什么?

(在華為云上部署CloudMatrix384云基礎(chǔ)設(shè)施軟件棧)

在CloudMatrix384之上,華為云提供了MatrixCompute、MatrixLink、MatrixResource、MatrixContainer等云軟件服務(wù),再搭配ModelArts,向上支撐各類(lèi)AI工作負(fù)載。當(dāng)前,昇騰AI云服務(wù)已為超過(guò)1300家客戶(hù)提供AI算力,加速千行萬(wàn)業(yè)智能化升級(jí)。新浪與華為云深度合作,基于CloudMatrix384昇騰AI云服務(wù),為“智慧小浪”智能服務(wù)體系構(gòu)建了統(tǒng)一的推理平臺(tái),底層由昇騰AI算力提供支持,推理的交付效率提升了超過(guò) 50%,模型上線(xiàn)速度成倍加快,通過(guò)軟硬協(xié)同調(diào)優(yōu),NPU利用率提升超過(guò)40%。

目前CloudMatrix384昇騰AI云服務(wù)已經(jīng)在華為云CloudOcean的4大節(jié)點(diǎn):烏蘭察布、貴安、蕪湖、和林格爾上線(xiàn),依托華為云光纖骨干網(wǎng)支持百TB級(jí)的帶寬互聯(lián),同時(shí)10毫秒時(shí)延圈覆蓋了全國(guó)19個(gè)城市群,全國(guó)主要流量高地城市都能在10毫秒之內(nèi)訪(fǎng)問(wèn)超節(jié)點(diǎn)資源,這也意味著這些城市能夠馬上獲得“AI工廠(chǎng)華為云造”的體驗(yàn)。

整體來(lái)說(shuō):華為CloudMatrix架構(gòu)以及基于CloudMatrix384超節(jié)點(diǎn)的昇騰AI云服務(wù),正是為全球AI工廠(chǎng)提供了一條中國(guó)路線(xiàn),為第四次工業(yè)革命真正開(kāi)局闖出了華為路徑——全球新的戰(zhàn)略制高點(diǎn)插上了以華為代表中國(guó)科技大旗。隨著華為云CloudMatrix384昇騰AI云服務(wù)的正式上線(xiàn),數(shù)字中國(guó)將開(kāi)啟全新的征程——從世界工廠(chǎng)到世界AI工廠(chǎng)的世紀(jì)轉(zhuǎn)型!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )