原標(biāo)題:HPC、AI與云計(jì)算:當(dāng)智能時(shí)代三叉戟在亞馬遜云科技完美融合
希臘神話中,海神與豐收之神波塞冬手持三叉戟,為航船保駕護(hù)航,為農(nóng)人帶來(lái)清泉。從此之后,三叉戟經(jīng)常用來(lái)比喻三種事物緊密結(jié)合,形成合力,比如足球世界很多球隊(duì)都有經(jīng)典的鋒線三叉戟。
在企業(yè)上云與產(chǎn)業(yè)智能化的浪潮里,也有前沿技術(shù)趨勢(shì)上的三叉戟組合:業(yè)務(wù)與組織上云正在成為絕大多數(shù)企業(yè)的數(shù)字化發(fā)展選擇;算力逐漸成為企業(yè)的戰(zhàn)略性資源,而云端近乎無(wú)限的集群算力,使越來(lái)越多的行業(yè)與場(chǎng)景創(chuàng)新可以依賴云端高性能計(jì)算來(lái)完成;AI正在改變千行百業(yè)的生產(chǎn)方式,成為科研與產(chǎn)業(yè)探索的先驅(qū)力量,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)也帶來(lái)了人工智能專項(xiàng)算力需求的爆發(fā)。
而在很多人的印象中,HPC高性能計(jì)算、AI、云服務(wù)的三叉戟還處在各自獨(dú)立,并行發(fā)展的階段,尤其在云端實(shí)現(xiàn)高性能計(jì)算似乎還過(guò)于前衛(wèi)。
但從產(chǎn)業(yè)效率的邏輯上看,在云端實(shí)現(xiàn)可以高質(zhì)量、高效率的AI訓(xùn)練與部署的高性能計(jì)算,其實(shí)是產(chǎn)業(yè)集約化與社會(huì)低成本創(chuàng)新的大勢(shì)所趨。只有把這三項(xiàng)技術(shù)完美融合到一起,才能鑄成智能時(shí)代所需的數(shù)字化三叉戟。
如何熔煉這把時(shí)代三叉戟,亞馬遜云科技已經(jīng)有了一些答案。
走向云端:高性能計(jì)算的產(chǎn)業(yè)趨勢(shì)與挑戰(zhàn)
云計(jì)算與高性能計(jì)算的關(guān)系,真的只能格格不入嗎?答案可能并非如此。
根據(jù)Hyperion Research市場(chǎng)調(diào)研的數(shù)據(jù)來(lái)看,到2022年底將會(huì)有18.8%的HPC在云端運(yùn)行,而這個(gè)數(shù)據(jù)在2021年是12.3%,雖然大多數(shù)HPC任務(wù)依舊依賴于超算中心和本地硬件,但在云端獲取高性能計(jì)算,可以說(shuō)是產(chǎn)業(yè)發(fā)展的大勢(shì)所趨。在云端獲取高性能計(jì)算,在目前階段客戶會(huì)擔(dān)心遇到一些挑戰(zhàn)。比如說(shuō):管理挑戰(zhàn),大規(guī)模計(jì)算集群難以創(chuàng)建和管理,是否能夠有快捷的部署方式和高效便捷的管理手段;能效挑戰(zhàn),或者說(shuō)是對(duì)云上高性能計(jì)算的性價(jià)比考慮,如何在云端發(fā)揮HPC的最大能效是很多用戶擔(dān)心的話題;安全挑戰(zhàn),大量HPC處理的任務(wù)與數(shù)據(jù)都密不可分,有數(shù)據(jù)勢(shì)必會(huì)有數(shù)據(jù)安全的顧慮,云端的數(shù)據(jù)安全如何交付給用戶一個(gè)放心的環(huán)境。
但從高性能計(jì)算行業(yè)發(fā)展趨勢(shì)上看,這些問(wèn)題都是可以在實(shí)踐中被逐個(gè)解決的。從基礎(chǔ)的計(jì)算邏輯上看,云端獲取高性能計(jì)算更加經(jīng)濟(jì)實(shí)惠,并且用戶可以彈性獲取異構(gòu)計(jì)算資源,真正實(shí)現(xiàn)計(jì)算與任務(wù)的適配。從單個(gè)節(jié)點(diǎn)性能上看,云端的計(jì)算資源性能更好;而在計(jì)算集群場(chǎng)景下,云端可以讓用戶獲得線性增長(zhǎng)的計(jì)算性能,避免算力浪費(fèi)。
所以,在云端實(shí)現(xiàn)高性能計(jì)算并不是不可能,反而因?yàn)樵贫撕A繑U(kuò)展的算力,不斷增強(qiáng)的但節(jié)點(diǎn)的計(jì)算性能,以及方便高效的算力管理手段,以及云原生的系統(tǒng)及數(shù)據(jù)的安全保障,使得眾多行業(yè)的高性能計(jì)算可以得以在云端運(yùn)行。
在如何實(shí)現(xiàn)云端獲取可靠HPC的探索中,亞馬遜云科技已經(jīng)實(shí)現(xiàn)了行業(yè)領(lǐng)軍級(jí)的探索。
技術(shù)融合與產(chǎn)業(yè)平衡:亞馬遜云科技的高性能計(jì)算探索
在目前階段,亞馬遜云科技已經(jīng)可以提供高度可定制的 HPC 計(jì)算平臺(tái),為用戶帶來(lái)多樣化的異構(gòu)計(jì)算資源以及定制化的計(jì)算實(shí)例。尤其值得注意的是,以軟件生態(tài)豐富著稱的亞馬遜云科技在HPC領(lǐng)域同樣提供了大量可用、低成本的軟件,幫助用戶解決管理與調(diào)度等領(lǐng)域的問(wèn)題。
總體而言,亞馬遜云科技的HPC探索呈現(xiàn)出兩大核心差異:芯片、云、存儲(chǔ)、軟件、AI等領(lǐng)域的技術(shù)經(jīng)驗(yàn)的高度融合,以及面向行業(yè)需求與用戶痛點(diǎn),進(jìn)行了大量高度產(chǎn)業(yè)指向的軟硬件生態(tài)。
在高性能計(jì)算客戶關(guān)心的計(jì)算,網(wǎng)絡(luò),存儲(chǔ)以及應(yīng)用軟件生態(tài)適配上,亞馬遜云科技都為客戶提供了成熟的HPC相關(guān)服務(wù)保障。
在算力層,亞馬遜云科技提供包括CPU、GPU、ARM在內(nèi)的多樣化異構(gòu)計(jì)算支持,以及定制化的彈性計(jì)算實(shí)例,滿足用戶在AI等HPC高發(fā)任務(wù)中的計(jì)算資源需求。
在存儲(chǔ)層,集群化算力需求會(huì)導(dǎo)致對(duì)存儲(chǔ)的海量高并發(fā)訪問(wèn),這就讓存儲(chǔ)的性能非常關(guān)鍵。亞馬遜云科技提供了面向高性能計(jì)算場(chǎng)景的存儲(chǔ)支撐,并且可以在云端實(shí)現(xiàn)多級(jí)的文件存儲(chǔ)策略,幫助用戶實(shí)現(xiàn)根據(jù)計(jì)算需求來(lái)彈性規(guī)劃存儲(chǔ)使用,進(jìn)而實(shí)現(xiàn)降低云端HPC的存儲(chǔ)成本,提升數(shù)據(jù)調(diào)用、管理效率。
在云端的網(wǎng)絡(luò)里,亞馬遜云科技可以為客戶提供超級(jí)計(jì)算應(yīng)用程序所需的持續(xù)低延遲,高帶寬的網(wǎng)絡(luò)環(huán)境,用戶可以采用亞馬遜云科技推出的高達(dá)100Gbps帶寬吞吐,支持MPI的EFA(Elastic Fabric Adapter)網(wǎng)卡,推出了低延遲,降低網(wǎng)絡(luò)抖動(dòng)的SRD(Scalable Reliable Datagram)協(xié)議,加速節(jié)點(diǎn)之間的通信。
在軟件層,亞馬遜云科技面向遷移、調(diào)度,包括可視化等等HPC場(chǎng)景需求,提供了豐富且低成本的軟件工具。比如使用亞馬遜云科技 ParallelCluster 可以說(shuō)實(shí)現(xiàn)快速構(gòu)建 HPC 計(jì)算環(huán)境,簡(jiǎn)化 HPC 集群的部署和管理。亞馬遜云科技 Step Functions 是一項(xiàng)低代碼、可視化的工作流服務(wù),可以幫助開(kāi)發(fā)人員構(gòu)建分布式應(yīng)用程序、自動(dòng)化 IT 和業(yè)務(wù)流程并構(gòu)建數(shù)據(jù)和機(jī)器學(xué)習(xí)管道,從而降低綜合開(kāi)發(fā)成本。這對(duì)于AI等領(lǐng)域的高性能計(jì)算任務(wù)來(lái)說(shuō)非常重要。豐富、專業(yè)且低門檻的軟件生態(tài),讓亞馬遜云科技可以幫助高性能計(jì)算用戶節(jié)約掉巨大的軟件定制開(kāi)發(fā)成本,實(shí)現(xiàn)產(chǎn)業(yè)級(jí)的高性能計(jì)算應(yīng)用。
基于亞馬遜云科技多樣化的高性能計(jì)算探索,在云端獲取集群化的澎湃算力已經(jīng)成為可能。而這樣一種可能帶來(lái)的直接影響,就是為大規(guī)模的AI應(yīng)用潮奠定基礎(chǔ)。
智能晨曦:AI大航海帶來(lái)的計(jì)算浪潮
隨著預(yù)訓(xùn)練大模型與AI科學(xué)計(jì)算開(kāi)始成為行業(yè)主流,AI訓(xùn)練與部署所需的算力開(kāi)始激增,尤其是AI任務(wù)對(duì)高性能計(jì)算的依賴逐漸被放大?;蛟S可以說(shuō),產(chǎn)業(yè)智能化的晨曦逐漸綻放,必須建立在HPC的堅(jiān)實(shí)算力基座上。
新藥研發(fā)、科研研究、地質(zhì)勘探等結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量龐大的AI任務(wù)開(kāi)始增多,對(duì)HPC提出了一系列全新的需求。比如計(jì)算集群化的要求不斷提升,異構(gòu)計(jì)算的能力要求更加嚴(yán)苛、數(shù)據(jù)吞吐量與吞吐效率要求不斷加強(qiáng)等等。而在這樣的“AI大航?!睍r(shí)代,如果企業(yè)和科研機(jī)構(gòu)依舊廣泛采用搭建硬件計(jì)算池的方向來(lái)實(shí)現(xiàn)HPC,那么顯然產(chǎn)業(yè)效率很低,綜合成本浪費(fèi)巨大,而物理集群從硬件采購(gòu),到安裝、部署等都需要較長(zhǎng)的時(shí)間。對(duì)于時(shí)效性要求極高的高性能計(jì)算任務(wù)來(lái)說(shuō),顯然無(wú)法滿足其需求。
面對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及其他AI任務(wù)帶來(lái)的算力需求,亞馬遜云科技在云端不僅提供了搭載企業(yè)級(jí)GPU的計(jì)算資源,同時(shí)針對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的工作特點(diǎn),自主研發(fā)了相對(duì)應(yīng)的芯片,并且通過(guò)云服務(wù)的形式交付給客戶使用。目前階段,亞馬遜云科技可以為客戶的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)任務(wù)提供搭載了4000張NVIDIA A100 GPU的超大規(guī)模計(jì)算集群,提供400 Gbps非阻塞聯(lián)網(wǎng)基礎(chǔ)設(shè)施,以及通過(guò) FSx for Lustre 實(shí)現(xiàn)的高吞吐能力、低延遲存儲(chǔ)。而這樣規(guī)模的計(jì)算集群,在物理超算中心中其實(shí)是很難實(shí)現(xiàn)的。在AI大航海時(shí)代,從云端獲取針對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的高性能算力顯然是最合理的方案。
面向智能時(shí)代必然高速涌起的HPC需求,亞馬遜云科技通過(guò)產(chǎn)業(yè)知識(shí)與服務(wù)經(jīng)驗(yàn)的積累,最終將AI、HPC、云計(jì)算,三項(xiàng)明星技術(shù)融合成了一把三叉戟。這把三叉戟還將持續(xù)進(jìn)化,幫助用戶在智能化浪潮中出海遠(yuǎn)航,在數(shù)字化田野中收獲價(jià)值。
在今年6月初的全球ISC2022大會(huì)上,亞馬遜云科技推出了一系列針對(duì)高性能計(jì)算的云服務(wù),有專門針對(duì)HPC工作負(fù)載的計(jì)算實(shí)例HPC6a。經(jīng)過(guò)優(yōu)化,可高效運(yùn)行計(jì)算密集型、高性能計(jì)算工作負(fù)載,如計(jì)算流體動(dòng)力學(xué)、油藏建模、天氣模擬,以及有限元分析等。相對(duì)于與之相當(dāng)?shù)?Amazon EC2 基于 x86 的計(jì)算優(yōu)化型實(shí)例,Hpc6a 實(shí)例所提供的性價(jià)比最多更高出 65%。使用 Hpc6a 實(shí)例,您可以大幅降低 HPC 工作負(fù)載的成本,同時(shí)利用 AWS 的彈性和可擴(kuò)展性。在GPU實(shí)例上,新型實(shí)例 Amazon EC2 P4de 推出預(yù)覽版,這款實(shí)例可提供機(jī)器學(xué)習(xí)(ML)訓(xùn)練和高性能計(jì)算(HPC)應(yīng)用程序所需的極佳性能,例如對(duì)象檢測(cè)、語(yǔ)義分割、自然語(yǔ)言處理、地震分析和計(jì)算流體動(dòng)力學(xué)等。而亞馬遜云科技一直以來(lái)致力于發(fā)展的基于ARM的芯片Graviton系列,也在今年發(fā)布了第三代Graviton處理器系列的最新產(chǎn)品Graviton3。與AWS Graviton2處理器相比,它們的計(jì)算性能提高了25%,浮點(diǎn)性能提高了2倍,加密工作負(fù)載性能提高了2倍。
想要了解亞馬遜云科技在高性能計(jì)算領(lǐng)域的持續(xù)進(jìn)化;想要明晰高性能計(jì)算如何與機(jī)器學(xué)習(xí),真正量子計(jì)算這樣的前沿科技相結(jié)合;想要提前洞察各行業(yè)中蘊(yùn)藏的計(jì)算潛力,不妨關(guān)注8月24日13:30在金茂北京威斯汀大飯店三層會(huì)議大廳 AB舉辦的“亞馬遜云科技 HPC +云上業(yè)務(wù)加速創(chuàng)新論壇”。
這場(chǎng)活動(dòng)將匯聚來(lái)自亞馬遜云科技與各行業(yè)的技術(shù)專家,共同梳理計(jì)算與智能的發(fā)展軌跡,揭秘“ HPC +”時(shí)代的創(chuàng)新機(jī)遇。
8月24日,我們不見(jiàn)不散。
- 世間將再無(wú)松下電視:松下官宣解散家電子公司并徹底放棄電視機(jī)業(yè)務(wù)
- 雅迪集團(tuán)與南都電源簽署協(xié)議:攜手共繪固態(tài)電池未來(lái)藍(lán)圖
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠60%股份 并接管日常運(yùn)營(yíng)
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。