首頁 技術文庫 AI晶片設計面臨的三大可靠度挑戰 如何突破

AI晶片設計面臨的三大可靠度挑戰 如何突破

發佈日期:2024/6/3 AI晶片可靠度挑戰
發佈單位:iST宜特

不想被大AI時代拋在後頭?確保晶片品質與可靠度是關鍵。而AI晶片面臨的三大挑戰:超高功耗、超低電壓、異質整合,你知道該怎麼迎戰嗎? AI晶片可靠度挑戰

AI晶片可靠度挑戰

OpenAI與Google日前於最新發表會中,揭曉了旗艦模型「GPT-4o」與「Project Astra」。當使用者與其對話時,不但可相互傳輸文字、圖像和音訊,甚至另一端的機器人還可以透過手機螢幕,描述出使用者身處的環境,並從使用者的口吻中,判斷出使用者的情緒,聊到開心之處甚至還會大笑和歌唱,溝通上完全就跟真人如出一轍。

AI人工智慧技術是透過模擬人腦的類神經網路,經過深度學習,取得物件特徵參數,產生模擬人腦的判斷能力。這看似艱深的AI技術,早已走進大眾的日常生活,從生成式內容、自動駕駛、智能家居到醫療保健,從金融到製造業,應用廣泛且深具潛力。可以預見,AI技術將繼續引領創新,成為推動產業發展的重要引擎。

除了演算法與大數據的演進與支援之外,硬體方面,AI晶片依不同的應用領域,不斷往高效能、高頻寬或低耗電等特性演進(表一)。然而這些特點,不僅會影響AI晶片的效能與壽命,甚至,也造成AI晶片可靠度試驗設計手法、設備等,面臨極大挑戰。宜特可靠度驗證實驗室,為您歸納出最常見的三大 AI晶片可靠度挑戰 與解決辦法,本期宜特小學堂,將會逐一說明。

AI晶片可靠度挑戰

表一:AI 晶片應用種類 (圖片來源: 宜特科技)

  • 一、AI晶片最常見的三大挑戰

    (一) 雲端AI晶片的超高功耗挑戰:熱消散與熱平衡能力

    資料中心的雲端AI晶片,肩負人工智慧的深度學習任務,必須提高效能運算,也因此將耗費大量電能,其單一顆晶片耗電量甚至超過200W(瓦),伴隨產生的高熱,將使得晶片老化速度加劇。

    AI晶片可靠度挑戰

    因此,一年必須連續工作365天的雲端運算AI晶片,對老化產生的可靠度問題更需審慎評估。
    可靠度測試原理必須抽樣(sampling)一定數量的IC做實驗,來預估整個母體的生命週期與故障機率。通常抽樣的數量為77顆,當77顆數百瓦的晶片,一起在一台可靠度系統設備做1000小時的可靠度測試時,上萬瓦的功率熱能,將嚴格考驗可靠度測試系統的熱消散與熱平衡能力。

    唯有精準的熱消散與熱平衡能力,才能讓每一顆晶片在執行各種不同運算模式時,晶片都能維持穩定的Junction溫度(Tj)(PN接面溫度),如此才能夠準確預估IC的生命週期。因此,高效能雲端AI晶片所產能的熱能,該如何消散與控制,將是IC可靠度實驗設計面臨的一大挑戰。

    (二) 終端AI晶片的超低電壓挑戰:多組系統電源需求,挑戰可靠度測試極限與硬體解決方案

    終端AI晶片除了需要高運算效能之外,還必須具備低耗電特性,以滿足其應用環境的需求。例如,行動裝置、物聯網 (IoT) 裝置、無人機、電動車自駕輔助等,皆仰賴電池供電,因此低功耗設計至關重要。

    隨著半導體製程不斷進步,相同邏輯閘數下的動態電流越來越省電。然而,尺寸微縮的物理特性效應,卻導致電晶體靜態漏電流增加。摩爾定律指出,每兩年電晶體面積可縮減一半,但這並無法讓晶片的功耗密度減半,相同面積的晶片將會消耗比以往更大的電流。

    為了降低功耗,除了採用低工作電壓設計之外,多工作電壓與多閘極電壓的設計也十分常見。然而,對於可靠度測試系統而言,動輒10組以上的系統電源需求,將挑戰可靠度設備電源數目的極限。

    同時,1V或甚至低於1V的主電源(core power)低工作電壓,將使得IC電源的餘裕度(power margin)縮小,電路板上的電壓降(power IR drop)或者電源漣波(power ripple),更容易造成IC可靠度測試出錯。電壓降不僅發生在主電源,因為主電源的降低,部分邏輯閘訊號源(Pattern)電壓準位,也需要同步降低,這進一步造成硬體設計與測試上的困難,在在考驗著可靠度測試系統能力與硬體設計。因此規劃一個符合終端AI晶片需求的高溫工作壽命(High Temperature Operating Life,簡稱HTOL)可靠度測試環境,從設備選擇、PCB電路板模擬與製作,各種細節與設計上的考量,皆必須較一般邏輯IC更為嚴謹。

    (三) 異質整合挑戰:熱消散路徑複雜化

    異質整合(heterogeneous integration)是AI晶片中的一項重要技術。為了加快不同晶片間的傳輸頻寬,不同製程的異質晶片被整合在一個封裝內,常見的有高帶寬記憶體(High Bandwidth Memory,簡稱HBM)、感測器(sensor)、微機電系統(Micro-Electro-Mechanical Systems,簡稱MEMS)和天線(antenna)等。經由矽通孔(Through-Silicon Via,簡稱TSV)、重分佈層(Redistribution Layer,簡稱RDL)、凸塊(bump)和中介層(interposer)等製程手法,這些晶片可以並排或堆疊起來(如圖一所示)。這將大幅度提升異質晶片間的資料傳遞效率,並降低耗電量。

    但是,這種複雜的異質封裝堆疊架構,熱產生與熱消散路徑亦隨之複雜,例如較大功耗晶片不一定位在封裝中心位置,各個晶片厚度亦可能不盡相同,這將使得晶片產生的熱消散與熱感測方式不同於傳統封裝,如何在可靠度測試時正確量測與監控晶片溫度變得更具挑戰。

    圖一:異質整合晶片(圖片來源: 宜特科技)

    綜上所述,如何面對熱消散與熱平衡能力、測試系統的電壓極限,以及異質整合的熱消散路徑複雜化,是在進行可靠度設計驗證時,必須克服的關鍵。對此,宜特可靠度驗證實驗室提出如下建議。

  • 二、如何克服AI晶片的可靠度挑戰

    (一) 利用液態冷卻系統,穩定控制高功耗AI晶片產生的熱能

    散熱設計功率(Thermal Design Power,簡稱TDP),是CPU晶片對主機板「散熱能力」的要求規格。目前桌上型電腦CPU的TDP規格最高在150瓦(W)左右,電競玩家為了維持CPU長時間高效高頻工作,往往升級主機板、散熱片、風扇等等配件,使得升級後的系統散熱能力高於TDP要求,讓CPU能長時間高頻工作,而不會發生過熱降頻,甚至休眠等問題。

    但是伺服器及HPC等雲端AI晶片,當前TDP規格已達200W以上超高發熱功耗。而晶片因封裝結構與材料等因素,已難以使用空氣對流當散熱媒介,將晶片junction溫度控制在目標值。

    尤其是在可靠度測試中,要求的目標溫度高達125°C,這遠遠高於桌上型電腦的70°C。通常在125°C時,晶片的功耗牆已經處於解鎖狀態,因此稍有不慎就可能導致晶片因高溫而燒毀。因此,當對如此高功耗的IC進行高溫可靠度測試時,測試系統必須具備更快速的散熱能力。

    宜特可靠度驗證實驗室的解法是,利用更高效的液態冷卻控制調節系統(Liquid cooling system),搭配客製化液態循環socket(圖二),此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗AI晶片產生的熱能,成功收集可靠度實驗數據。

    利用更高效的液態冷卻控制調節系統(Liquid cooling system),搭配客製化液態循環socket,此系統利用液態熱交換速率優於氣態的特性,以及即時監控晶片溫度與調節液態流速等方法,穩定控制超高功耗AI晶片產生的熱能,成功收集可靠度實驗數據。

    圖二:液態冷卻系統(Liquid cooling socket)(原圖來源: Enplas)

    (二) 熱二極體監控電路,監控IC本體溫度

    雲端AI晶片的超高功耗,在進行可靠度測試時,容易因晶片本體溫度波動太快,導致無法及時消散熱能,造成產品非預期性故障,例如熱失控(Thermal Runaway)。因此,當IC內建熱二極體(thermal diode)元件時,宜特可靠度系統與可靠度測試板設計,可以客製化熱二極體(thermal diode)監控電路,來監控IC 內部溫度,將可監測到最即時與準確的接面(junction)溫度(圖三)。

    此作法反應速度快,搭配前面提到的高效液態冷卻控制調節系統,更適合超高功耗AI晶片快速溫度變化,藉以提供即時熱消散動作。此外熱二極體(thermal diode)監控電路,可針對3D封裝的多晶體(multi-chip)結構下,獨立量測出各個晶片的溫度,以達到更精確的可靠度數據收集。

    圖三:IC熱二極體(thermal diode)監控電路圖例(圖片來源: 宜特科技)

    (三) 客製化治具,貼合高低不同的裸晶(die)

    AI異質整合晶片,裏頭的裸晶(die)高低不同,因此,在可靠度驗證測試的治具準備,必須依照不同的晶片,客製化IC socket(測試座)和散熱系統(heat sink)和熱感測元件(sensor),才能夠緊密貼合高低不同的裸晶(die),藉此增加熱消散能力,溫度量測與監控才能更準確(圖四)。

    圖四:客製化IC測試socket(圖片來源: 宜特科技)

    (四) 測試電路板超前模擬,免去生產組裝後效能不符

    AI晶片採用先進製程,超低的工作電壓已來到1V以下。然而,當高電流經過電路板走線時,容易在電路板上產生由低到高的壓降(DC IR drop)(圖五),IR drop將壓低原本已超低的工作電壓,容易使得AI晶片因電源電壓餘裕度(Power voltage margin)不足而失效。

    此外,當IC power抽載大電流時,也會產生各種頻率的SSN(Simultaneous Switching Noise)。

    而電路板的電源層阻抗(Power plane impedance),在各種不同抽載頻率下,因本身佈線(layout)因素可能反映出高低不一的阻抗(impedance)值(圖六),當阻抗值在某個頻率下超越目標值時,就會造成嚴重雜訊(Power AC noise)與漣波(Power ripple),也會使得AI晶片因電源雜訊餘裕度(Power noise margin)不足而失效。

    另外,在傳統的電路板設計中,由於在同一電路板上放置多顆晶片,每顆晶片的佈線(layout)難以完全一致,導致晶片間測試電性存在差異,亦提高了設計與測試的困難度。

    為了解決此問題,宜特可靠度實驗室跳脫傳統電路板設計思維,採用新的BI模組(Burn in module)設計理念,將電路板從原本的一板測試數顆晶片,微縮至僅測試單顆晶片。搭配目前許多佈線(layout)輔助設計工具,即可在可靠度電路板設計初期,經由軟體分析模擬,調整電源走線長短寬窄、灌孔點大小與數目、解偶合(decoupling)電容值與放置位置等,改善工作電壓與訊號源IR drop與電源層阻抗等問題,避免測試電路板於生產組裝完成後,才面臨效能不符問題。此外,電路板設計微縮至單顆晶片,在測試老化實驗時,能協助客戶以個別待測物(Devices Under Test, 簡稱DUT)取得更多的實驗參數,同時能針對各晶片的電晶體靜態漏電流的不同,分別進行測試參數設定,進一步提升AI晶片的測試品質。

    圖五:IR drop的模擬測試(圖片來源: 宜特科技)

    圖六:電源層阻抗的模擬測試(圖片來源: 宜特科技)

  • 三、AI晶片可靠度挑戰 的解決方案速查表

    統整以上問題和解法,宜特可靠度驗證實驗室從多年經驗中,為您製作一張圖表(表二),讓您快速了解AI晶片面對不同可靠度挑戰時的解決方案。

    表二:三大類AI晶片可靠度設計驗證速查表(圖片來源: 宜特科技)

宜特可靠度驗證實驗室從早期面對一般消費型晶片、車用晶片、5G晶片,到現今的AI晶片,已累積相當多的實戰經驗,可解決AI晶片可靠度試驗設計時面臨到的超高功率、超低電壓,以及異質整合等問題,可以提供您精確的溫度電壓等可靠度測試數據,提升AI晶片的可靠度。

本文與各位長久以來支持宜特的您,分享驗證經驗,若您還有進一步的問題,請洽+886-3-579-9909分機6428徐先生(Bear) Email: web_cre@istgroup.com ; marketing_tw@istgroup.com