【覓跡尋蹤潛力股】在NVIDIA Blackwell與AMD MI300採用CoWoS先進封裝的巨獸中,致新高階數位溫度感測器晶片為什麼成為守護系統最後防線? 需求大爆發?
《覓跡尋蹤潛力股"致新"系列》 在NVIDIA Blackwell與AMD MI300採用CoWoS先進封裝的巨獸中,致新高階數位溫度感測器晶片為什麼成為守護系統最後防線? 答案在於它「完全不信任軟體」的純硬體保護機制。從致新(G7811)高階數位溫度感測器晶片的Datasheet(技術規格說明書)中,可以提煉出讓系統廠(ODM)奉為圭臬的三大關鍵護城河: ㊀ 繞過系統死機的(核按鈕) : THERM(熱敏)獨立硬體腳位(真正的最後防線) =這是它被稱為最後防線的最主要原因。一般伺服器依賴BMC(基板管理控制器)裡的軟體來監控溫度並調整風扇或水冷幫浦。但如果BMC韌體卡死、軟體排程阻塞,或者水冷系統突然失效導致溫度在幾秒內暴衝,軟體根本來不及反應。從技術規格說明書的Pin Configuration(引腳配置)可以看到G7811保留了獨立的THERM(熱敏)腳位。這是一個純硬體的觸發機制。當G7811偵測到溫度突破毀滅性的絕對臨界點(例如100°C或105°C),它會直接透過THERM(熱敏)腳位送出訊號。這個訊號在主機板的硬體佈線上,通常是(物理直連)到GPU的硬體降頻腳位(PROCHOT過熱保護機制)或是主電源管理IC(PMIC)。它能瞬間強制切斷電源或將晶片鎖頻至最低運作狀態,完全繞過了所有的作業系統與軟體,是名副其實的(硬體級保命防線)。 ㊁ 突破輪詢延遲的毫秒級警報(警報中斷腳位) = 在傳統架構下,系統主控是透過SMBus(系統管理匯流排)雙線序列介面不斷去輪詢感測器(定期去問:現在幾度?)。但在擁有成百上千個元件的AI伺服器中,輪詢會產生致命的時間差(熱延遲)。致新(G7811)具備可程式化溫度過高/過低警報功能。工程師可以預先將HBM記憶體的危險溫度(例如85°C)寫入G7811的暫存器。一旦溫度觸及這個閥值,G7811不會等系統來問,而是主動將ALERT(警報)腳位拉低,直接發出硬體中斷訊號給BMC,強制系統打斷常規排程,立刻啟動最高級別的散熱機制,實現接近零延遲的防護響應。 ㊂ 直搗黃龍的精準度(遠端測溫) = CoWoS封裝最大問題在於(微觀熱點)。如果只量測散熱器或PCB板的溫度,根本無法反映HBM內部的真實慘況。致新(G7811)是一顆高精度的數位溫度計,能夠精準量測(遠端感測器)的溫度。它可以直接連接到GPU或HBM矽...