University of Oregon的化學系教授David C. Johnson發現二硒化鎢薄膜的熱傳導率比單晶態的二硒化鎢更差,而且這個薄膜的熱傳導率大概只有熱傳導率最好的鑽石的十萬分之一。這個新材料不但具有像多孔狀物質般的熱傳導率,更重要的,它的密度夠高,大概跟銅差不多。他們發現,二硒化鎢的結構是多層膜的結構,而每層二硒化鎢在熱傳導的方向都旋轉了些許的角度,因此晶格就相當不對稱。而這個材料更奇怪的是對他的表面進行離子蝕刻已破壞薄膜的二微結構,結果竟然是增加這個材料的熱傳導率。
AI 人工智慧技術是透過模擬人腦的類神經網路,經過深度學習,取得物件特徵參數,產生模擬人腦的判斷能力。這看似艱深的 AI 技術,早已走進大眾的日常生活,從生成式內容、自動駕駛、智能家居到醫療保健,從金融到製造業甚至國防等…應用廣泛且深具潛力。今年 1 月美國政府更是宣布將加強限制 AI 晶片與技術出口,這項措施顯示 AI 技術舉足輕重的地位,它將成為推動產業發展的重要引擎。
-----廣告,請繼續往下閱讀-----
除了演算法與大數據不斷進化,在硬體方面, AI 晶片則依不同應用領域,不斷往高效能、高頻寬或低耗電等特性演進。但這些特性同時也跟 AI 晶片的效能、壽命息息相關,甚至會造成 AI 晶片可靠度試驗設計的設備與手法面臨到極大挑戰。宜特可靠度驗證實驗室在本文將歸納出 AI 晶片最常見的三大挑戰,並逐一說明解決辦法。
同時,1V 或甚至低於 1V 的主電源(core power)低工作電壓,將使得 IC 電源的餘裕度(power margin)縮小,電路板上的電壓降(power IR drop)或者電源漣波(power ripple),更容易造成 IC 可靠度測試出錯。電壓降不僅發生在主電源,因為主電源的降低,部分邏輯閘訊號源(Pattern)電壓準位,也需要同步降低,這進一步造成硬體設計與測試上的困難,在在考驗著可靠度測試系統能力與硬體設計。
因此規劃一個符合終端 AI 晶片需求的高溫工作壽命(High Temperature Operating Life,簡稱HTOL)可靠度測試環境,從設備選擇、PCB 電路板模擬與製作,各種細節與設計上的考量,皆必須較一般邏輯 IC 更為嚴謹。
散熱設計功率(Thermal Design Power,簡稱TDP),是 CPU 晶片對主機板「散熱能力」的要求規格。目前桌上型電腦 CPU 的 TDP 規格最高在 150 瓦(W)左右,電競玩家為了維持 CPU 長時間高效高頻工作,往往升級主機板、散熱片、風扇等等配件,使得升級後的系統散熱能力高於 TDP 要求,讓 CPU 能長時間高頻工作,而不會發生過熱降頻,甚至休眠等問題。
尤其是在可靠度測試中,要求的目標溫度高達 125°C,這遠遠高於桌上型電腦的 70°C。通常在 125°C 時,晶片的功耗牆已經處於解鎖狀態,因此稍有不慎就可能導致晶片因高溫而燒毀。因此,當對如此高功耗的 IC 進行高溫可靠度測試時,測試系統必須具備更快速的散熱能力。
液態冷卻系統(Liquid cooling socket)。圖/Enplas
宜特可靠度驗證實驗室建議的解法,是利用更高效的液態冷卻控制調節系統(Liquid cooling system),搭配客製化液態循環 socket(如上圖),此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗 AI 晶片產生的熱能,成功收集可靠度實驗數據。
熱二極體監控電路,監控 IC 本體溫度
雲端 AI 晶片的超高功耗,在進行可靠度測試時,容易因晶片本體溫度波動太快,導致無法及時消散熱能,造成產品非預期性故障,例如熱失控(Thermal Runaway)。因此,當 IC 內建熱二極體(thermal diode)元件時,透過可靠度系統與可靠度測試板設計,可以客製化熱二極體(thermal diode)監控電路,來監控 IC 內部溫度,將可監測到最即時與準確的接面(junction)溫度(如下圖)。
此外,當 IC power 抽載大電流時,也會產生各種頻率的SSN(Simultaneous Switching Noise)。 而電路板的電源層阻抗(Power plane impedance),在各種不同抽載頻率下,因本身佈線(layout)因素可能反映出高低不一的阻抗(impedance)值(如下圖),當阻抗值在某個頻率下超越目標值時,就會造成嚴重雜訊(Power AC noise)與漣波(Power ripple),也會使得 AI 晶片因電源雜訊餘裕度(Power noise margin)不足而失效。
為了解決此問題,我們跳脫傳統電路板設計思維採用新的 BI 模組(Burn in module)設計理念,將電路板從原本的一板測試數顆晶片,微縮至僅測試單顆晶片。搭配目前許多佈線(layout)輔助設計工具,即可在可靠度電路板設計初期,經由軟體分析模擬,調整電源走線長短寬窄、灌孔點大小與數目、解偶合(decoupling)電容值與放置位置等,改善工作電壓與訊號源IR drop與電源層阻抗等問題,避免測試電路板於生產組裝完成後,才面臨效能不符問題。此外,電路板設計微縮至單顆晶片,在測試老化實驗時,能協助客戶以個別待測物(Devices Under Test, 簡稱DUT)取得更多的實驗參數,同時能針對各晶片的電晶體靜態漏電流的不同,分別進行測試參數設定,進一步提升 AI 晶片的測試品質。
AI 晶片可靠度解決方案速查表
宜特的可靠度驗證實驗室從多年經驗中,統整出以上問題和解法,並製作一張圖表讓您快速了解 AI 晶片面對不同可靠度挑戰時的解決方案。