エラー「GPU fell off bus」は、GPUとCPU/PCIeスイッチ間のPCIeリンクが切断された重大な障害であり、多くの場合、熱ストレス、電源の不安定性、またはハードウェアの物理的な欠陥が原因です。NVIDIA NeMo(大規模言語モデルフレームワーク)のような負荷の高いワークロード中に根本原因を特定するには、管理者は高精度のテレメトリを収集する必要があります。DCGM(データセンターGPUマネージャ)の診断機能は、まさにこのシナリオのために設計されています。ワークロードと同時にdcgmi diag -r 3(包括的なハードウェアストレステスト)を実行するか、dcgmi health --checkでヘルス状態を監視することで、システムはPCIeリプレイカウント、温度スパイク、XIDエラーなどのパラメータが発生した正確な瞬間をキャプチャできます。このデータにより、エンジニアは特定のH100モジュールに問題があるのか、それとも問題がシステム全体(たとえば、マザーボード上のPCIeスイッチの故障)にあるのかを判断できます。ワークロードを下げる(オプションCまたはD)ことで症状を隠せるかもしれませんが、ハードウェアがピーク電力とデータスループットを処理できないという根本的な原因を診断することはできません。