人工智能 (AI) 和高性能計算 (HPC) 的爆炸式增長正以前所未有的速度重塑各行各業(yè)。從醫(yī)療保健和金融到自動駕駛汽車和先進機器人技術(shù),人工智能驅(qū)動的應用正在徹底改變我們的工作、生活以及與科技互動的方式。隨著人工智能模型變得越來越復雜——需要處理海量數(shù)據(jù)并每秒執(zhí)行數(shù)萬億次計算——對計算能力的需求也隨之飆升。
這場革命的核心是數(shù)據(jù)中心,它是推動人工智能和云計算發(fā)展的關(guān)鍵基礎(chǔ)設施。這些龐大的計算中心負責處理和存儲訓練和部署人工智能模型所需的不斷增長的數(shù)據(jù)量。然而,人工智能工作負載的激增也帶來了高昂的成本:更高的功耗、更大的發(fā)熱量以及對冷卻系統(tǒng)的壓力。
傳統(tǒng)的數(shù)據(jù)中心冷卻方法(例如風冷和液冷)正被推向極限。現(xiàn)代人工智能工作負載的密度意味著服務器的運行溫度比以往任何時候都高,導致過熱、性能下降和硬件故障的風險不斷增加。最新的人工智能服務器機架將16個燃氣燒烤爐的熱量塞進一個電話亭大小的空間。為了保持峰值效率并避免代價高昂的停機,數(shù)據(jù)中心運營商必須不斷平衡能耗、制冷能力和可持續(xù)性目標。
更為復雜的是,AI 工作負載不僅需要在服務器層面,也需要在芯片層面實現(xiàn)高效的散熱。GPU 和 TPU 等下一代 AI 處理器產(chǎn)生的熱量遠超傳統(tǒng) CPU,因此需要更精準的熱管理解決方案。最新 GPU 的發(fā)熱量是熨斗的十倍。隨著 AI 的加速普及,數(shù)據(jù)中心創(chuàng)新散熱策略的壓力只會越來越大。
為了跟上 AI 驅(qū)動的未來,業(yè)界必須擴展和超越傳統(tǒng)的散熱方法,探索能夠優(yōu)化效率、可擴展性、精度和環(huán)境影響的全新解決方案。在不影響性能的情況下有效管理熱量的能力將成為數(shù)據(jù)中心如何發(fā)展和競爭,以及 AI 如何在未來幾年持續(xù)擴展的決定性因素。
人工智能數(shù)據(jù)中心日益嚴峻的散熱挑戰(zhàn)
人工智能和高性能計算 (HPC) 工作負載產(chǎn)生的熱量遠超傳統(tǒng)計算任務。與傳統(tǒng)應用不同,人工智能需要圖形處理單元 (GPU) 和張量處理單元 (TPU) 等專用硬件,這些硬件的運行功率密度極高。這些芯片的高溫需要更復雜的冷卻機制,從而帶來諸多挑戰(zhàn):
能源消耗:冷卻系統(tǒng)能耗占數(shù)據(jù)中心總能耗的近 40%。隨著人工智能將計算能力推向新的高度,冷卻能源需求也隨之飆升。
基礎(chǔ)設施壓力:許多數(shù)據(jù)中心最初的設計并非針對人工智能帶來的極端熱負荷,導致現(xiàn)有冷卻系統(tǒng)的磨損加劇。現(xiàn)代化的人工智能數(shù)據(jù)中心產(chǎn)生的熱量足以讓底特律市在整個密歇根州的冬天保持溫暖。
可持續(xù)發(fā)展壓力:全球?qū)G色數(shù)據(jù)中心的追求意味著企業(yè)必須在性能與環(huán)境責任之間取得平衡,因此節(jié)能冷卻成為優(yōu)先事項。
可擴展性問題:隨著人工智能的普及,數(shù)據(jù)中心必須能夠高效地擴展其冷卻能力,而無需進行成本高昂且破壞性的基礎(chǔ)設施檢修。
傳統(tǒng)冷卻方法的局限性
歷史上,數(shù)據(jù)中心一直依賴空氣冷卻(使用風扇和空調(diào)機組)來管理散熱。事實上,最近的估計表明,目前多達 80% 的數(shù)據(jù)中心采用空氣冷卻。雖然空氣冷卻對于傳統(tǒng)工作負載有效,但人工智能系統(tǒng)不斷增長的熱量輸出可能會超過傳統(tǒng)空氣冷卻的設計承載能力。因此,空氣冷卻效率低下的問題可能會浮現(xiàn)出來,導致能源消耗過高和運營成本上升。更復雜的是,如今許多空氣冷卻數(shù)據(jù)中心的運營商不愿在短期內(nèi)進行改造或進行大規(guī)模的基礎(chǔ)設施投資,因此,提高現(xiàn)有空氣冷卻設施的效率和性能既極具吸引力,也需要新的思維和方法。
液體冷卻已成為一種替代方案,通過直接芯片冷卻或浸入式冷卻技術(shù)提供更強大的散熱能力。然而,液體冷卻本身也面臨挑戰(zhàn),并且肯定存在一些相對局限性:
復雜性和維護:液體冷卻系統(tǒng)需要大量的管道、專用泵以及日常維護,以防止泄漏或污染。
基礎(chǔ)設施檢修:改造現(xiàn)有數(shù)據(jù)中心以適應液體冷卻可能是一個成本高昂且后勤困難的過程。
泄漏風險:液體冷卻系統(tǒng)中的任何泄漏都可能導致嚴重的硬件損壞和運行中斷。
雖然液體冷卻可以改善熱管理,但其缺點意味著數(shù)據(jù)中心運營商需要充分評估液體冷卻在其特定應用中固有的相對機會和風險。現(xiàn)實情況是,在高峰需求期間通常響應緩慢,這迫使許多液體冷卻設施為最壞情況的負載進行配置,這必然會導致一定程度的浪費。考慮固態(tài)高響應動態(tài)冷卻的可能性,它可以通過提供按需冷卻來釋放降低冷卻能耗的機會。
網(wǎng)絡?需求顯而易見,但沒有萬能的解決方案。然而,我們可以通過拓展思路,最大限度地提升現(xiàn)有解決方案的性能,并構(gòu)建全新的冷卻方式,從而重新審視固態(tài)冷卻的各種可能性。
全新冷卻解決方案的需求
為了滿足人工智能和高性能計算 (HPC) 的需求,同時降低能耗并實現(xiàn)所需的功率和性能,業(yè)界必須尋求更先進的冷卻解決方案。理想的方法應該是:
可擴展:能夠適應不斷增長的人工智能工作負載,而無需大規(guī)模改造基礎(chǔ)設施。
可靠且維護成本低:消除泄漏或系統(tǒng)故障等可能影響運營的風險。
節(jié)能:在不犧牲性能的情況下減少冷卻能耗。
可持續(xù):有助于降低碳排放并符合企業(yè)可持續(xù)發(fā)展目標。
新興冷卻技術(shù)(包括創(chuàng)新的固態(tài)冷卻方法)為應對這些挑戰(zhàn)提供了有前景的解決方案。通過利用基于半導體的熱管理,這些先進的系統(tǒng)可以提供精確、快速響應的局部冷卻,從而提高效率并降低運營復雜性。
人工智能驅(qū)動數(shù)據(jù)中心的未來
隨著人工智能不斷突破計算界限,業(yè)界必須重新思考其數(shù)據(jù)中心冷卻方案。投資新的熱管理解決方案不僅可以確保持續(xù)的性能優(yōu)化,還能幫助數(shù)據(jù)中心降低能耗、降低成本,并為全球可持續(xù)發(fā)展做出貢獻。
數(shù)據(jù)中心運營商和行業(yè)領(lǐng)導者必須積極主動地采用創(chuàng)新的冷卻技術(shù),以確保其基礎(chǔ)設施面向未來發(fā)展。如此一來,他們才能確保人工智能的快速發(fā)展仍然是推動其進步的動力,而不會給支持它的系統(tǒng)帶來巨大的負擔。