首頁 突破AI晶片散熱需求與可靠度試驗難關

突破AI晶片散熱需求與可靠度試驗難關

AI

不想被大AI時代拋在後頭?AI晶片散熱如何解? 確保晶片品質與可靠度是關鍵。

AI晶片演進與挑戰

AI人工智慧技術是透過模擬人腦的類神經網路,經過深度學習,取得物件特徵參數,產生模擬人腦的判斷能力。這看似艱深的AI技術,早已走進大眾的日常生活,從生成式內容、自動駕駛、智能家居到醫療保健,從金融到製造業,應用廣泛且深具潛力。可以預見,AI技術將繼續引領創新,成為推動產業發展的重要引擎。

除了演算法與大數據的演進與支援之外,硬體方面,AI晶片依不同的應用領域,不斷往高效能、高頻寬或低耗電等特性演進。然而這些特點,不僅會影響AI晶片的效能與壽命,甚至,也造成AI晶片可靠度試驗設計手法、設備等,面臨極大挑戰,包括高功耗的散熱議題,以及低功耗終端AI晶片電壓控制議題。

AI晶片最常見的挑戰

高功耗AI,考驗熱消散與熱平衡能力

異質整合封裝,使熱消散路徑複雜化

低功耗AI晶片需兼顧效能,電壓控制增測試複雜度

1. 高功耗AI,考驗熱消散與熱平衡能力

雲端AI晶片肩負深度學習任務,單顆晶片耗電量甚至超過200W,伴隨產生的高熱使晶片老化速度加劇。因此,一年必須連續工作365天的雲端運算AI晶片,對老化產生的可靠度問題更需審慎評估

可靠度測試原理必須抽樣(sampling)一定數量的IC做實驗,來預估整個母體的生命週期與故障機率。通常抽樣的數量為77顆,當77顆數百瓦的晶片,一起在一台可靠度系統設備做1000小時的可靠度測試時,上萬瓦的功率熱能,將嚴格考驗可靠度測試系統的熱消散與熱平衡能力。

唯有精準的熱消散與熱平衡能力,才能讓每一顆晶片在執行各種不同運算模式時,晶片都能維持穩定的Junction溫度(Tj)(PN接面溫度),如此才能夠準確預估IC的生命週期。因此,高效能雲端AI晶片所產能的熱能,該如何消散與控制,將是IC可靠度實驗設計面臨的一大挑戰

2. 異質整合封裝,使熱消散路徑複雜化

此外,AI晶片使用異質整合(heterogeneous integration)先進封裝。為了加快不同晶片間的傳輸頻寬,不同製程的異質晶片被整合在一個封裝內,這些晶片可以並排或堆疊起來這將大幅度提升異質晶片間的資料傳遞效率,並降低耗電量。

但是,這種複雜的異質封裝堆疊架構,熱產生與熱消散路徑亦隨之複雜,例如較大功耗晶片不一定位在封裝中心位置,各個晶片厚度亦可能不盡相同,這將使得晶片產生的熱消散與熱感測方式不同於傳統封裝,如何在可靠度測試時正確量測與監控晶片溫度變得更具挑戰

3. 低功耗AI晶片需兼顧效能,電壓控制增加可靠度測試複雜度

低功耗的終端AI晶片(End Device AI),面臨的是另一層面的電壓控制議題。終端AI晶片包含了ASIC、SoC,它們主要用於終端設備的運算,常見的裝置有手機智能助理、無人機、ADAS (先進駕駛輔助系統)等等。由於這些裝置都是依賴電池供電,因此要同時具備高效能、低功耗的特質,如何降低功耗,就成為這類晶片最大設計難題。

為了降低功耗,除了採用低工作電壓設計之外,多工作電壓與多閘極電壓的設計也十分常見。,但對於可靠度測試來說就會產生兩個難題:

  • 多組工作電壓,就代表多組系統電源同時測試,也就意味著增加測試複雜度,同時也挑戰可靠度測試設備,能承受的電源數目極限。
  • 當工作電壓降低,搭配高電流經過電路板走線時,容易在電路板上發生IR drop與Ripple等問題,會進一步造成硬體設計與測試上的困難。

因此規劃一個符合終端AI晶片需求的高溫工作壽命(High Temperature Operating Life,簡稱HTOL)可靠度測試環境,從設備選擇、PCB電路板模擬與製作,各種細節與設計上的考量,皆必須較一般邏輯IC更為嚴謹。

綜上所述,如何面對熱消散與熱平衡能力、異質整合的熱消散路徑複雜化,以及測試系統的電壓極限,是在進行可靠度設計驗證時,必須克服的關鍵。

如何克服AI晶片可靠度挑戰

  • 1. 利用液態冷卻系統,穩定控制高功耗AI晶片產生的熱能

    在HPC、伺服器所用的雲端AI晶片,因為長時間高效運算導致高功耗、高發熱,傳統空氣冷卻已經無法有效散熱。特別是,當對如此高功耗的IC進行高溫可靠度測試時,測試系統必須具備更快速的散熱能力。

    近年來液態冷卻系統,也就是俗稱的「水冷散熱」,被看好將會成為雲端AI晶片的主流散熱方案。

    宜特可靠度驗證實驗室,進行試驗時,也是利用更高效的液態冷卻控制調節系統(Liquid cooling system),搭配客製化液態循環socket(圖二),此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗AI晶片產生的熱能,成功收集可靠度實驗數據。

    圖二:液態冷卻系統(Liquid cooling socket)(原圖來源: Enplas)

  • 2. 熱二極體監控電路,監控IC本體溫度

    雲端AI晶片的超高功耗,在進行可靠度測試時,容易因晶片本體溫度波動太快,導致無法及時消散熱能,造成產品非預期性故障,例如熱失控(Thermal Runaway)。因此,當IC內建熱二極體(thermal diode)元件時,宜特可靠度系統與可靠度測試板設計,可以客製化熱二極體(thermal diode)監控電路,來監控IC 內部溫度,將可監測到最即時與準確的接面(junction)溫度(圖三)。

    圖三:IC熱二極體(thermal diode)監控電路圖例(圖片來源:宜特科技)

    此作法反應速度快,搭配前面提到的高效液態冷卻控制調節系統,更適合超高功耗AI晶片快速溫度變化,藉以提供即時熱消散動作。此外熱二極體(thermal diode)監控電路,可針對3D封裝的多晶體(multi-chip)結構下,獨立量測出各個晶片的溫度,以達到更精確的可靠度數據收集。

  • 3. 客製化治具,貼合高低不同的裸晶(die)

    AI異質整合晶片,裏頭的裸晶(die)高低不同,因此,在可靠度驗證測試的治具準備,必須依照不同的晶片,客製化IC socket(測試座)和散熱系統(heat sink)和熱感測元件(sensor),才能夠緊密貼合高低不同的裸晶(die),藉此增加熱消散能力,溫度量測與監控才能更準確(圖四)。

    圖四:客製化IC測試socket(圖片來源:宜特科技)

  • 4. 測試電路板超前模擬,免去生產組裝後效能不符

    前文提及,由於AI晶片採用多組系統電源需求,容易因為電壓降低或雜訊問題,造成可靠度試驗設計的複雜度與困難度。為了解決這類問題,宜特跳脫傳統電路板設計思維,採用新的Burn in module設計。將電路板從原本的一板測試數顆晶片,微縮至僅測試單顆晶片。搭配目前許多佈線(layout)輔助設計工具,即可在可靠度電路板設計初期,經由軟體分析模擬,改善工作電壓與訊號源IR drop與電源層阻抗等問題,避免測試電路板於生產組裝完成後,才面臨效能不符問題。

宜特可靠度驗證實驗室從早期面對一般消費型晶片、車用晶片、5G晶片,到現今的AI晶片,已累積相當多的實戰經驗,可解決AI晶片可靠度試驗設計時面臨到的超高功率、超低電壓,以及異質整合等問題,可以提供您精確的溫度電壓等可靠度測試數據,提升AI晶片的可靠度。

深入閱讀