首頁 AIチップの放熱および信頼性試験における課題の克服

AIチップの放熱および信頼性試験における課題の克服

AI

AI時代に取り残されないための鍵は、AIチップの放熱と、チップの品質と信頼性の確保である

AIチップの進化と挑戦

高消費電力のAIでは放熱と熱平衡が求められる

ヘテロジニアス・インテグレーションにより放熱経路が複雑化する

低消費電力AIチップは効率も考慮する必要があるため、電圧制御の信頼性試験が一層複雑になる

1. 高消費電力のAIでは放熱と熱平衡が求められる

クラウドAIチップはディープラーニングも行うため、1つのチップの電力消費量が200Wを超えることもあり、それにより生じる高温はチップの劣化を速めます。1年365日連続的に使用するクラウド演算AIチップの劣化に関する信頼性は慎重に評価する必要があります

信頼性テストをするには、一定数のICをサンプリングして実験し、全体のライフサイクルと故障の確率を予測します。通常のサンプリング数は77個で、数百ワットのチップを77個、一台の信頼性テスト装置に装着し1000時間にわたる信頼性試験を行います。その際には、何万ワットの電力と熱エネルギーが発生するため、信頼性試験の装置には高い放熱および熱平衡能力が求められます。

正確な放熱および熱平衡能力がないと、チップが異なる演算モデルを実行する際に、安定したジャンクション温度(Tj)(PN接合部温度)を維持することができず、ICのライフサイクルを正確に予測することが困難になります。このように、高効率クラウドAIチップで生じる熱エネルギーをいかにして放散し制御するかがICの信頼性実験の設計における大きな挑戦となります

2. ヘテロジニアス・インテグレーションにより経路が複雑化する

AIチップではヘテロジニアス・インテグレーションと呼ばれる先進的なパッケージングが用いられます。これは、異なるチップ間の伝送帯域幅を広げるため、製造過程が種類の異なる複数のチップを整合して1つのパッケージに納めたものです。チップを並列したり積み上げたりすることにより、異種チップ間の情報伝送の効率を大幅に上げ、電力消費量を下げることができます。

しかし異種チップを積み上げるこのような複雑な構造においては、熱発生と放熱経路も複雑になります。例えば電力消費が大きなチップが必ずしもパッケージの中心に置かれるとは限らず、それぞれのチップの厚さも異なります。そのため、チップの放熱や熱の検知方法は従来のパッケージとは異なります。信頼性試験時にいかにしてチップの温度を正確に測定し監視するかが挑戦となってきます

3. 低消費電力AIチップは効率も考慮する必要があるため、電圧制御の信頼性試験が一層複雑になる

低消費電力の端末用AIチップ(End Device AI)が直面する別の課題は電圧の制御です。端末用AIチップには、ASIC、SoCがあり、主に端末機器の演算に用いられ、スマホのスマートアシスタント、ドローン、ADAS (先進運転支援システム)などに応用されています。これらの装置は電池が給電するため、高効率でかつ低消費電力という特性が求められます。そのため、いかにして消費電力をおさえるかがチップ設計での最大の課題となります。

電力消費を下げるため、動作電圧が低くなるよう設計することに加え、複数動作電圧と複数ゲート端子電圧の設計もよく用いられます。しかし信頼性試験では二つの課題が生じます。

  • 複数動作電圧を採用すると、複数のシステムの電源を同時に測定するため、測定が一層複雑になります。また信頼性試験の設備が対応できる電源数が限られるという問題もあります。
  • 動作電圧を下げ、高電流をプリント基板に通すと、プリント基板にIRドロップやリップルなどの問題が生じやすくなるため、ハードウェア設計や測定が一層困難になります。

端末用AIチップのニーズに合った高温動作寿命(High Temperature Operating Life,HTOL)の信頼性試験環境は、設備の選択、プリント基板(PCB)のシミュレーションと製作など、細かな設計上の配慮が必要で、通常のロジックICより更に厳しい条件が必要となります。

このように、信頼性設計の検証の際に克服すべき鍵となるのは、放熱と熱平衡能力、ヘテロジニアス・インテグレーションの放熱経路の複雑化,測定システムの電圧の限界です。

AIチップの信頼性の挑戦に対応する

  • 1. 液冷システムを利用した高消費電力AIチップの熱エネルギーの安定制御

    HPCやサーバーに使用されるクラウドAIチップは、長時間、高性能計算を行うため、消費電力や発生熱が高くなり、従来型の空冷では十分な放熱ができません。特に、高消費電力のICの高温信頼性試験を行う際の測定システムは、より迅速に放熱する機能を必要とします。

    近年、クラウドAIチップの放熱には、液冷システム(「水冷放熱」とも呼ばれる)が多く用いられるようになりました。

    iST信頼性検証ラボでは、試験の際に、高効率の液冷制御システム(Liquid cooling system)と、カスタマイズした液体循環ソケット(図2)を活用しています。この液体を利用したシステムの熱交換速度は気体よりも優れています。またチップの温度をリアルタイムで監視し、流速を調整することができるため、超高消費電力AIチップで発生する熱エネルギーを安定的に制御し、信頼性実験データを的確に収集できます。

    図2:液冷システム(Liquid cooling socket)(画像提供: Enplas)

  • 2. サーマルダイオード監視回路によるIC本体の温度監視

    クラウドAIチップは消費電力が非常に高いため、信頼性試験時のチップ本体温度が高速で変動し、適時にエネルギーを放散することが難しくなります。これは熱暴走など予期しない故障を招くことがあります。ICにサーマルダイオードが内蔵されている場合、iST信頼性システムと信頼性試験ボードを設計することによりサーマルダイオード監視回路をカスタマイズしてICの内部温度を測定し、接合部(ジャンクション)の温度をリアルタイムかつ正確にモニタリングできます(図3)。

    図3:ICサーマルダイオード監視回路図の一例(画像提供:iST科技)

    この方法では迅速な反応が得られます。またこれに上記の高効率の液冷制御システムを併用すると一層的確に超高消費電力AIチップの迅速な温度変化に対応することができ、リアルタイムの放熱が実現します。さらにサーマルダイオード監視回路は、3Dパッケージのマルチチップ構造にも対応し、それぞれのチップの温度を個別に測定できるため、より正確な信頼性データの収集が可能になります。

  • 3. 高低が異なるダイに対応した治具のカスタマイズ

    AIヘテロジニアス・インテグレーションチップでは、ダイの高低が異なっています。そのため信頼性を検証する治具は、チップに応じてIC ソケット(測定基部)、放熱システム(Heat sink)、熱センサーをカスタマイズする必要があります。こうして高低が異なる接合ダイの放熱を効率的に行い、温度測定とモニタリングを正確に行うことができるようになります(図4)。

    図4:カスタムメードのIC測定ソケット(画像提供:iST科技)

  • 4. プリント基板の早期シミュレーションにより、生産後の問題を回避

    上に述べたように、AIチップは様々なシステム電源の必要に対応するため、電圧の低下やノイズが生じ易く、信頼性試験の設計が複雑かつ困難になります。この問題を解決するため、iSTは従来のプリント基板による設計を脱却し、新たな「Burn in module」設計を採用しました。従来は一枚のプリント基板で複数のチップを測定していましたが、1個のチップだけを測定できるようになりました。また様々なレイアウト設計補助ツールを使用することにより、プリント基板設計の初期において、ソフトウェアによるシミュレーション分析を行い、動作電圧と信号源のIR ドロップや電源層抵抗などの問題を改善しています。こうしてプリント基板の生産が終わってから、問題が現れることを事前に防いでいます。

iST信頼性検証ラボは、一般消費型チップ、車用チップ、5Gチップ、そして現在のAIチップに関して長い経験を有しています。AIチップの信頼性試験設計において直面する超高電流、超低電圧、ヘテロジニアス・インテグレーションなどの問題の解決方法に精通しています。正確な温度電圧などの信頼性試験データの提供により、AIチップの信頼性向上に貢献しているのです。