釋放數據中心的潛力:為每個人提供高性能計算

來源: VentureBeat   

woman in black top using Surface laptop
圖片來源: Unsplash

ChatGPT的推出是一個轉折點,將世界的注意力轉向生成式人工智能(AI)。建立在OpenAI的GPT系列上,這個全方位的聊天機器人展示了在動態對話中的能力,為個人提供了深入探索機器智能領域並發現其在增強專業和個人問題上的潛力的機會。

對於企業來說,ChatGPT並不是首次接觸到AI。在這個生成工具出現之前,各個行業的公司已經在使用AI和機器學習(ML)來處理他們工作的不同方面,例如點腦視覺、推薦系統、預測分析等等。如果說有什麼不同的話,OpenAI的機器人只是確保他們加倍努力以保持競爭力。

如今,企業正大膽地押注於各種下一代工作負載。然而,這並不是一件容易的事情。以ChatGPT背後的模型之一GPT-3為例。這種擁有1750億參數的技術需要大約3640個petaflop-days的計算能力進行訓練。這相當於每秒進行一百萬億次計算,連續運行3640天。

數據中心如何滿足這些廣泛的計算需求?

為了快速有效地處理下一代工作負載所需的計算,企業需要在其數據中心中使用大規模並行計算(MPP)。MPP是高性能計算(HPC)中使用的一種技術,它將一個複雜的任務(如查詢複雜的數據庫)分解為許多較小的任務,然後在同時運行的不同節點上運行。將結果合併以獲得最終輸出。

許多數據中心運行在通用處理器上,這些處理器可以處理傳統工作負載,但無法同時運行多個複雜的計算,例如乘法大矩陣和添加複雜向量。這個缺點推動企業重新思考他們的數據中心,並專注於像GPU這樣的專用處理器。

咨詢公司Protiviti的技術咨詢副總監Brandon Wardlaw表示:“最顯著的變化之一是將工作負載轉移到專用硬體上的趨勢。擁有大量CPU容量的通用計算節點對於這些下一代工作負載來說既不足夠也不具有成本效益,GPU原始設備製造商和更專門的FPGA(現場可編程門陣列)和ASIC(特定應用集成電路)硬體供應商在支持訓練模型所需的高度並行計算方面進行了大規模的創新”。

推動向專用硬體加速數據中心轉型的公司之一是Nvidia。其數據中心平台提供多種GPU選項,從最高性能的H100到入門級的A30,以滿足現代工作負載的強大計算需求,包括科學計算和研究、大型語言模型(LLM)訓練、機器效率的實時分析和法律材料的生成。

例如,在厄瓜多爾的電信公司Telconet正在使用Nvidia的DGX H100,這是一個由八個H100 GPU組成的系統,用於建立智能影片分析以實現安全城市和語言服務,以支持不同西班牙方言的客戶。同樣地,在日本,這些高性能GPU被互聯網服務公司CyberAgent用於創建智能數位廣告和名人虛擬形象。

日本最大的商業集團之一三井物產也利用DGX H100,使用多達16個這樣的系統(128個GPU)進行高分辨率分子動力學模擬和生成式AI模型,旨在加速藥物發現。

基於GPU的加速面臨挑戰

儘管基於GPU的加速可以滿足各個行業的工作負載需求,但除非解決了某些限制,否則它無法完全發揮作用。

問題是雙重的。首先,實施這些附加卡帶來了一個重大的物理挑戰,因為傳統的一個或兩個機架單元的“披薩盒”伺服器根本沒有足夠的空間容納它們。其次,這種高密度計算硬體也會產生高功耗(DGX H100的預計最大功耗約為10.2千瓦)和熱輸出,從而產生操作瓶頸並增加數據中心的總擁有成本。

為了解決這個問題,Wardlaw 建議在其他地方進行補償性調整,例如使用高核心數x64晶片組增加計算密度,並將通用工作負載遷移到這些平台上。他還強調採取更積極的熱管理方法,並優化數據中心佈局以提高冷卻效能和效率。

根據Vantage Data Centers的銷售和解決方案工程副總裁Steve Conner的說法,支持HPC的關鍵是擺脫空氣冷卻的足跡。這是因為必須控制CPU和GPU的溫度,而唯一的方法就是使用比空氣具有更好的熱交換特性的介質,例如液體輔助冷卻。

“從高性能計算的角度來看,我們在與其他平台合作時所看到的是,要獲得最大的性能,唯一的方法就是將液體傳遞到散熱器上,無論是在GPU還是CPU方面。”他告訴VentureBeat。

其他選擇 除了專用硬體之外,企業還可以考慮使用軟體加速等新興解決方案來支持其數據中心中的一些新一代工作負載。

例如,德克薩斯州的ThirdAI提供了一種基於哈希的算法引擎,可以減少計算量,使通用x86 CPU能夠訓練深度學習模型,同時達到某些GPU的性能水準。這不僅可以更具成本效益(取決於工作負載),還可以減少操作和物理障礙。

還有優化的選擇,使用知識蒸餾等技術來減小模型的大小,使其更容易支持。

這些方法可能會導致一些準確性的損失。但是,內容生成器Undetectable AI的CTO兼聯合創始人Bars Juhasz表示,該公司的蒸餾模型比基礎模型快65%,同時保留了90%的準確性,這是一個值得的折衷方案。

Juhasz指出:“將模型的性能擴展可以類比為現有技術堆棧,即水平和垂直擴展。添加更多GPU相當於水平擴展,而優化模型並使用加速軟體相當於垂直擴展。改善性能的關鍵是了解模型[工作負載]的技術細節,並選擇合適的加速選項。”

根據Wardlaw的說法,如果AI / ML工作負載對企業來說是“不間斷運轉”的操作,那麼在數據中心內擁有和管理專用硬體將具有成本效益。

然而,如果這些工作負載不是“不間斷運轉”的操作,並且企業可能無法以合理的投資來運行這些工作負載,那麼最好選擇替代的加速方法或由專門提供商或雲超大型運算服務提供商提供的AI / ML優化硬體,以基礎設施即服務(IaaS)模式提供。

新增留言