女人被狂躁到高潮呻吟小说,蜜桃成人网,女人与公豬交交30分钟视频,久久无码精品一区二区三区,浓毛老太交欧美老妇热爱乱

華為周躍峰:Token經(jīng)濟時代到來,需改進AI推理系統(tǒng)的效率和體驗

極客網(wǎng)·極客說 8月12日,在上海舉行的2025金融AI推理應用落地與發(fā)展論壇上,華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰博士代表華為發(fā)布AI推理創(chuàng)新技術——UCM推理記憶數(shù)據(jù)管理器,以推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。

會上,基于華為攜手中國銀聯(lián)率先在金融典型場景開展的UCM技術試點應用及成果,周躍峰博士發(fā)表了《AI推理科技創(chuàng)新,開啟智慧金融新篇章》主題演講。他指出,Token經(jīng)濟時代已經(jīng)到來,AI真正創(chuàng)造價值的是推理過程,目前面臨推不動、推得慢、推得貴三大挑戰(zhàn),需要改進推理系統(tǒng)的效率和體驗。

微信圖片_20250813075923.jpg

以下是周躍峰博士演講全文:

AI時代到來之后,訓練是一個成本中心,真正給我們創(chuàng)造價值的是推理過程,但現(xiàn)在推理的效率以及推理體驗是大家非常關注的一個問題。今天各個金融的AI場景創(chuàng)新過程中,對于Token的消耗越來越大,尤其在各個性能指標當中,以Token數(shù)——無論是首Token的時延,還是Token的流量,都是以Token數(shù)為量綱,我們有理由認為,AI的到來使得整個Token經(jīng)濟的時代也到來了。

今天我們實行AI行業(yè)化落地過程中,事實上我們也發(fā)現(xiàn)像剛才中國銀聯(lián)的楊總提到的,在推理過程中還是有不少挑戰(zhàn)。(首先)可以看到,我們將一篇比較大的、長的文章放到推理系統(tǒng)當中時,有可能推理系統(tǒng)看了這一段忘了下面這一段,看了下面一段要前面一段給忘記了,因為推理窗口相對比較小,推不動。其次可以看到,由于在基礎設施投資當中的差距,中國互聯(lián)網(wǎng)的大模型首Token時延普遍慢于海外互聯(lián)網(wǎng)頭部的首Token時延。另外,每秒或者一定時間內(nèi)推理的Token數(shù)也可以看到,我們在中國頭部互聯(lián)網(wǎng)中可以看到提供的服務也是遠小于海外頭部的互聯(lián)網(wǎng),這主要由于我們在AI基礎設施投資方面,相對還是有差距。

因此,如何改進推理系統(tǒng)的效率和體驗是我們重要的話題。這次我們和銀聯(lián)通過聯(lián)合創(chuàng)新,推出了UCM推理記憶數(shù)據(jù)管理器。應該說,它對于過去我們試圖用增加顯存、內(nèi)存來提升AI推理的效率和性能方面,是一個有效的突破。

大家知道,人也是一樣,思考的能力跟記憶能力強相關——記憶能力既要記得東西多,而且還要記得快。這和我們思考能力是強相關的,AI推理系統(tǒng)也是一樣的。整個AI推理系統(tǒng)當中,它的記憶往往有三部分:上面是高性能的緩存(HBM),中間是內(nèi)存(DRAM),這兩部分基本上在智算服務器當中;我們可以充分利用,但過去我們沒有利用起來的是下面的專業(yè)的共享存儲(SSD)。UCM推理記憶數(shù)據(jù)管理器通過一系列的算法,把我們在推理過程中不同的延時要求的數(shù)據(jù)放在不同的記憶體當中,對于實時的記憶數(shù)據(jù)即熱的放在HBM當中,對于短期記憶數(shù)據(jù)相對比較熱的放在存儲當中,通過它極大提升系統(tǒng)的效率和AI推理的性能。

UCM主要分為三部分:(1)頂層跟業(yè)界流行的推理框架對接的這部分我們稱作為“連接器”,它會連接業(yè)界普遍流行的推理引擎框架,包括華為的MindiE、SGLang等等,可以跟目前推理框架進行協(xié)同。(2)中間部分是加速程序,對于緩存記憶數(shù)據(jù)進行分級緩存管理的算法程序,運行在智算服務器當中。(3)另外一部分很重要的是跟專業(yè)的共享存儲相結合的協(xié)同器,這個協(xié)同器(適配器)可以提升專業(yè)存儲直通的效率和降低時延,可以讓三級存儲協(xié)同起來。

楊總在剛才的介紹當中得到了印證,我們通過大量測試確實也發(fā)現(xiàn),通過這樣的算法首Token時延最高可以降低90%,系統(tǒng)的吞吐率最大可以提升22倍,同時上下文推理的窗口也可以擴展10倍級以上,這對于提升推理系統(tǒng)的效能是一個非常大的進步。

這樣的UCM推理記憶數(shù)據(jù)管理器,我們希望通過開放開源的方式,讓業(yè)界都能夠共享這個成果。感謝我們的聯(lián)創(chuàng)團隊,尤其是銀聯(lián)的工程師和華為的工程師。我們希望這個UCM和之前的ModelEngine已經(jīng)開源的組件共同進行開源,9月份會在魔擎社區(qū)首發(fā),當中很多算子,包括連接器這部分,也會在更多的開源社區(qū),比如vLLM、華為的MindiE等等這些社區(qū)都會提貢獻,讓大家方便地在我們系統(tǒng)當中進行植入和用起來。

我們非常高興地看到UCM在現(xiàn)在可以和銀聯(lián)一起,首先在我們金融智慧化的一些場景中應用起來,當然我們希望這個算法在雙方的努力下,能夠讓更多的廠商使用,而且能夠共享于更加高效的AI,讓AI能夠有更好的商業(yè)回報。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2025-08-13
華為周躍峰:Token經(jīng)濟時代到來,需改進AI推理系統(tǒng)的效率和體驗
UCM推理記憶數(shù)據(jù)管理器推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。

長按掃碼 閱讀全文